具身智能领域百万真机高质量数据集
推荐单位:上海市数据局
申报单位:智元创新(上海)科技有限公司
一、背景
具身智能领域长期受限于高质量、多场景数据的缺乏,严重制约模型训练及产业应用。为破解这一瓶颈,我司在上海启动AgiBot World百万真机数据集项目,搭建标准化工业级数据采集工厂,覆盖家居、工业、商超、办公等多场景,遵循标准化采集流程,全程质量管控,累计采集超百万条原子动作轨迹,数据规模达到850TB,支撑具身智能大模型训练与产业落地。
AgiBot World数据集构建及应用全览图
二、方案和成效
一是构建全域真实场景与全流程质控体系,筑牢数据集质量根基。项目依托自建的2000平真实采集场景,覆盖217个复杂操作任务,3000+操作物品。相比Google的Open X-Embodiment 数据集,AgiBot World 长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。同时构建“标准化采集流程+自动化质检+人工在环审核”三维质控机制,数据准确性达到99%以上。
二是制定成熟的数据生产标准并搭建配套技术平台,全面支撑大规模数据量产。项目构建了成熟的多模态数据采集与结构标准体系,覆盖任务设计、数据采集、审核标注与格式规范四大技术环节,形成高度工程化的技术链路,使数据生产效率提升约40%。项目仅用2个月时间即完成百万条原子轨迹,数据格式标准化率达100%。
三是构建生态培育机制,推动数据共享与标准协同。数据集坚持开源共享原则,已上线魔塔社区、OpenDataLab、Huggingface、GitHub等国内外平台,成功吸引全球研究者的广泛参与,累计下载量达29K。2025年3月,英伟达在GTC大会上推出的具身基座模型GROOT N1与机器人推理模型Cosmos Reason,其80%的训练数据均源自我司开源的AgiBot World数据集。
三、创新点
一是数据任务体系创新。首创“原子动作结构化拆分+场景多维变体+三级难度覆盖”的方法体系,实现复杂操作流程的标准化建模与多场景适应性增强,确保数据任务具备高泛化能力与工业级质量标准。
二是数据采集生态创新。项目采用“开源数据集+联合实验室+区域采集中心”三位一体模式,赋能不同行业与地域主体灵活参与真机数采,显著提升数据采集体系建设的可复制性与推广效能,加速通用智能系统的落地进程。
三是数据应用体系创新。项目构建“开源驱动-模型赋能-工具支撑-生态激活”四维一体的全链条应用体系,智元基于数据集发布具身基座大模型,可支持模型微调,赋能千行百业;发布全套工具链,实现采集、训练和评测完美闭环;同时举办AgiBot World Challenge开发者大赛,激发创新的无限潜能。