高质量自动驾驶数据集标注与应用
申报单位:河北数云堂智能科技有限公司
推荐单位:河北省数据和政务服务局
一、案例简介
面向自动驾驶领域高质量训练数据采集难、标注成本高问题,研发了大规模自动驾驶数据采集关键设备及自动标注关键技术,建设了半自动化的数据采集、标注、质控及服务平台。形成涵盖2D/3D道路场景数据集、自动泊车数据集、乘客行为识别数据集20余套,服务国内20余家车企及自动驾驶技术企业,销售额累计达1.2亿元;吸纳数据采集及标注从业人员1万余人;有效缩短企业自动驾驶算法开发周期,大幅降低企业研发成本。
整体框架
二、举措与成效
一是构建数据采集平台,消除融合数据误差。构建自动驾驶数据采集平台,集成车载激光雷达、摄像头、毫米波雷达等设备。自研高精度时间同步与空间配准技术,控制时间同步误差1ms内,空间配准重投影偏差小于5像素,消除多源传感器数据采集时钟差异与位置偏差致融合数据误差。
二是分级智能数据标注,提升传统标注效率。构建基于不同类型数据标注需求的分级标注策略,融合无监督、弱监督、少监督技术,打造了高效分级分层的半自动标注模式,实现了“不标”、“少标”再到“精标”的经济标注生产方式,较传统人工标注效率提高90%以上。
三是建设版权数据资源,加大数据供给力度。构建2D/3D道路场景、自动泊车和乘客行为识别数据库等资源库20余套,标注准确率达到97%以上,有效解决自动驾驶领域大模型训练数据供给不足的问题。
三、特色亮点
一是技术融合创新,安全高效。针对多模态多传感器采集,创新时间同步与空间配准技术,降低因数据误差导致的模型偏差风险,提升自动驾驶安全性与可靠性;针对多类型数据标注,融合无监督、弱监督、少监督策略的半自动标注技术,极大提高了数据标注效率。
二是范式流程革新,协同提效。融合多元监督技术的智能标注模式,颠覆传统标注范式,依托大规模自动驾驶数据采集关键设备及自动标注关键技术,智能适配标注流程,构建集采集、标注、存储、共享一体化数据处理平台,加速数据流转与协同,提升行业数据应用效率与创新速度。
三是系统智能调度,降本增效。基于智能算法的资源调度系统,依任务动态精准分配计算、人力等资源,突破传统静态管理瓶颈,帮助车企及自动驾驶技术研发企业缩短自动驾驶算法的平均开发周期40-50%,相对于传统人工模式提高数据生产整体效率60-80%,支持自动驾驶算法研究企业节省研发成本20-30%。