百度智能云自动驾驶高质量数据集
推荐单位:山西省数据局
申报单位:百度智能云(山西)科技有限公司
一、背景
针对自动驾驶技术商业化落地面临的数据挑战,百度智能云在山西数据标注基地建立具备甲级测绘资质的自动驾驶数据合规环境,打造物理“可信数据空间”,建设集智能驾舱、道路采集等多元数据产品,在保障数据安全合规的基础上形成兼具规模、场景覆盖度与安全可靠性的高质量数据集。该数据集已成功服务30余家知名车企及Tier1供应商,收获良好市场反馈,创造可观经济效益。
百度智能云自动驾驶高质量数据集
二、方案和成效
一是建设柔性数据生产能力,满足定制化数据需求。建设形成涵盖自动驾驶成品数据集并集合数据采集、标注、存储、管理、仿真一体化的数据集服务能力体系,满足客户通用及定制化数据需求。柔性数据集生产服务可有效助力企业数据成本直降70%、数据使用周期缩短50%,研发效能提升30%,降低高质量数据使用门槛,加速客户技术迭代与商业化。
二是算法驱动数据质量跃升,数据保证模型效果跃阶。构建自动驾驶数据辅助生产模型,提升数据生产效率与质量,辅助高质量数据集生产提效70%;深度应用合成数据、数据增强技术,提升数据集在复杂场景覆盖范围。高质量数据集支持客户多传感器融合感知算法识别准确率突破95%,复杂场景决策效率优化20%,系统鲁棒性与泛化能力显著增强。
三是构建全国数据运营体系,打造产业级数据集空间。依托百度智能云标注基地构建高质量数据集加工中心与运营前端,贴近客户,立足场景,产业为本,辐射全域,满足区域内自动驾驶产业级数据需要。目前在全国已建设多个标注生产基地,标注服务能力覆盖自动驾驶算法研发全链路场景,成品数据集聚焦智能座舱、行车、泊车、高架桥、隧道、港口等十多个场景。
三、创新点
一是技术引领创新,攻关前沿。构建厘米级高精标注标准,融合像素级语义分割与3D目标检测,攻克道路标线几何拓扑、交通轨迹等精细难题,数据精度达99%;研发时空对齐与特征互补技术,耦合雷达点云、相机图像等异构数据,保障数据集在时空连续感知上的一致性。
二是智能数据挖掘,以智生数。建设自动化数据挖掘平台和垂类多模态大模型,通过文字、图像等语义形式实现长尾场景数据毫秒级检索,使海量场景数据筛选周期由天级减少为分钟级,助力精准定位目标数据,提升数据利用效率。
三是合规链路闭环,生态共赢。打造“资质认证-加密采集-脱敏处理-全流程审计”合规体系;以山西标注基地为载体,整合百度智能云技术生态,前端对接车企数据需求,后端联动采集标注服务商,打通产业链生态,实现多方共赢。