中国移动依托数据飞轮体系打造
行业高质量数据集
推荐单位:中国移动通信集团有限公司
申报单位:中国移动通信集团有限公司、中海石油气电集团有限责任公司、复旦大学、数据堂(北京)科技股份有限公司
一、背景
中国移动研发一系列通专大模型,模型持续训练存在高质量数据集持续建设、缺乏符合场景的训练数据、投入成本高等挑战。本案例依托数据飞轮体系打造行业高质量数据集,聚焦于构建“数据-模型-业务”三元耦合的闭环协同架构,通过打造“数据标准化构建-治理体系精细化管控-场景化应用敏捷落地”的全链路能力体系,实现数据资源的有效治理与价值指数级提升。
中国移动数据飞轮体系架构图
二、方案和成效
一是构建全链路数据平台矩阵,实现集团数据统一汇聚。打造覆盖高质量数据集生产与供给全链路的平台矩阵,集成存储、汇聚、处理、标注、合成、评测、管理、检索、供给、回流十大核心功能,构建1+N集省两级架构,实现全集团数据集统一汇聚与高效流转。
二是建立数据飞轮运营机制,充分激活数据资产价值。建设层次化数据标注团队,形成移动自有数据标注运营体系,有效提升标注质量和效率。制定大模型数据集管理办法,集团范围形成合力,保障数据飞轮工作顺利运转。
三是推进生态体系化建设,强化高质量数据供给。聚焦于标注基地产业化建设、数据治理体系化以及生态协同和跨域赋能。支撑2个国家级数据标注基地建设,构建产学研用协同机制,打造开放共享的大数据生态体系,全面赋能各行业数字化转型与智能化升级。
四是深化数据产业赋能,实现内外价值转化。依托数据飞轮体系,构建 226 个通用数据集与 151 个行业数据集,有力地支撑了九天系列通专大模型研发。同时,积极拓展产业生态,对外输出高质量数据供给和管理平台,实现 “内磨外用”。
三、创新点
一是算法创新驱动数据高效生产。研发多模型融合数据合成算法,可快速合成大模型所需高质量多模态数据集,已合成数据超百万条。研发适配业务、指标领先的视频转场识别和美学打分算法,已生产竖版视频超400GB,支撑多模态大模型训练。
二是评测体系构建筑牢数据质量防线。构建“三位一体”的数据集质量评测体系,包含数据集评测指标、评测工具及评测实施方案。聚焦数据基础指标、内容质量指标、可用性指标等八大类别,形成质量评测指标200余项。
三是机制创新助力生态协同发展。制定统一的数据治理体系,完善数据驱动的考核与激励机制,产业合作协同标注基地、依托内部平台,促进生态高效协同发展。