首页  >  业务频道  >  数字科技和基础设施

高质量数据集典型案例 | 人形机器人具身操作数据集

人形机器人具身操作数据集
  推荐单位:中国兵器工业集团有限公司
  申报单位:人形机器人(上海)有限公司、第伍要素(上海)数据科技有限公司
  一、背景
  具身智能数据集是人形机器人具身大模型的核心要素,对提升模型泛化性与交互智能性至关重要。然而,因机器人数据采集成本高、难度大等问题,导致高质量数据极为稀缺。国家地方共建人形机器人创新中心(人形机器人(上海)有限公司)依托国地中心具身智能训练场,开展具身智能数据集建设与应用,构建数据生产、治理及应用的标准化工具与方法,旨在推动该领域大规模、高质量数据集建设,加速具身智能模型训练与应用落地。

图1 白虎数据集
  二、方案和成效
  一是搭建物理真实场景进行真机数据采集。打造了超5000平的人形机器人训练场,搭建涵盖工业制造、民生服务、特种作业等数十个真实应用场景;同时引入超过100台、多种构型的机器人在真实场景中进行多种任务与技能的数据采集。采集的数据包含机器人本体关节位姿、图像、文本等多模态数据;已累计形成超100万条、2.5PB的高质量真机数据。
  二是构建仿真场景进行数据合成。在仿真环境中搭建虚拟数字场景,采用虚实结合的方式进行数据采集,记录机器人在仿真场景中的运动轨迹及各类传感器信息,并通过统一的数据接口完成数据的采集、处理与存储。
  三是打造集成化的具身数据平台,实现统一的数据管控。制定人形机器人数据采集与管理规范,实现多品牌异构机器人数据采集管理的“车同轨、书同文”。打造涵盖任务管理、数据采集、数据处理、数据标注、数据集管理全链路的数据平台;通过对数据生命周期的全流程管控与角色分工管理,实现了数据的高效生产与质量管控。
  四是多维度数据治理保障数据质量。统一跨本体、跨类型的数据质量评价标准,形成“场景-任务-原子技能”的采集与管理规范,通过AI检测、人工审核排查异常;最后通过模型验证反馈修正,确保数据稳定可靠。
  三、创新点
  一是具身智能训练场的模式创新。打造了全国首个异构人形机器人训练场,建设了覆盖工业制造、民生服务、特种作业等多种场景的物理场景和仿真场景。在训练场中实现了数据采集、数据治理、模型训推的完整流程,推动了人形机器人的技术研发与场景验证,成为了人形机器人具身智能发展的一项重要基础设施。
  二是异构设备数据采集与治理的技术创新。实现了对青龙、智元、傅利叶、星海图、乐聚等多品牌、多构型机器人数据采集与治理的统一,大幅提升了数据生产的效率和质量,确保数据在设备和应用场景中的一致性和完整性,为模型训练提供了高质量、多样化、标准化的数据基础。
  三是数据与模型协同进化的应用创新。整合数据采集、模型训练、推理部署三大核心模块,打造数据与模型双向联动的智能闭环系统。闭环系统建立全流程数据反馈机制,驱动模型持续迭代升级,形成“数据驱动-算法优化-应用反哺”的增强回路,实现从物理世界到数字空间的持续知识积累与能力进化。
附件: