数据标注优秀案例集之三十二 | 数据标注筑基高质量数据集

  • 2025.06.08
  • 来源:国家数据局
  • [ 打印 ]
数据标注筑基高质量数据集
  申报单位:中国移动通信集团山东有限公司、中移动信息技术有限公司、中国移动通信集团设计院有限公司山东分公司
  推荐单位:山东省大数据局
  一、案例简介
  大模型发展催生高质量数据集需求,但面临数据稀缺、标注低效等难题,导致行业大模型落地难、行业赋能不理想。在“九天大模型”建设中,有效整合通信行业8类核心数据及650TB多源数据,依托山东标注基地创新“工具+AI预标注+人工补位”模式,实现数据处理标注自动化率超80%,已打造50余个高质量数据集,支撑交通、应急、文旅等领域大模型落地,推动行业人工智能应用跑出“加速度”。
整体框架
  二、成效与举措
  一是多源数据融合突破数据多样性瓶颈。
以运营商8类核心数据为基础,融合行业数据、互联网数据及政府开放数据等多数据源。通过生成对抗网络(GAN)合成高仿真数据,解决数据获取难题,构建政务、工业等领域的多样性数据集,有效支撑“海算政务大模型”“川流交通大模型”等10余个行业大模型落地。
  二是破解大模型数据规模化处理难题。研发数据清洗、脱敏和标注工具,在图像、文本等数据标注任务中采用“工具+AI”和“规范+技术”双维防控模式,解决数据量庞大、处理效率低、人工标注质量低的痛点问题,实现数据处理与标注环节自动化率超80%。
  三是构建高质量数据供给平台。搭建全链路数据集服务平台,自主研发文本、图像及音频等领域9类数据标注工具,从数据采集清洗、标注处理到行业数据集输出,实现全周期管理能力,可支撑“九天川流大模型”等数亿参数规模大模型数据集需求,为构建完善产业生态提供关键设施支撑。
  三、特色亮点
  一是多渠道数据融合构建多元数据集。
基于运营商8类核心数据,整合政务、互联网等外部数据源,构建多模态数据集9类,通用数据集9类,行业数据集10类,合成数据集7类。通过多源数据互补提升数据集多样性与完整性,有效加强大模型泛化能力与应用效果。
  二是聚焦行业痛点打造智能赋能标杆。立足行业高质量发展需要,通过行业场景精准拆解适配,有力支撑大模型多行业场景应用。如“九天川流大模型”克服传统位置分析小模型隐性特征挖掘不足、建模周期长、推理性能差等难题,建模效率较传统方式提升83%,任务推理时长缩短至分钟级。根据相关测算,在交通行业通过辅助规划充电站最佳位置,可节省选址市场调研人力、物力成本超70%;在文旅行业可有效提升旅游管理水平,降低景区运营成本25%。
附件: