中国移动研发大模型高质量数据集
推荐单位:江苏省数据局
申报单位:中移(苏州)软件技术有限公司
一、背景
代码数据质量和动态利用方式,已成为大模型推理能力的“暗物质”,是推理基础设施的核心燃料,在软件工程等领域具有重要应用价值。针对当前代码数据来源广、质量参差不齐、评估手段专业化不足等问题,本案例构建了“数据采集-数据处理-数据质量评估”的高质量数据处理引擎,形成了一套高质量研发大模型数据集,并基于此数据集训练形成了具备代码补全、单元测试等能力的研发大模型,可支撑研发全流程赋能需求。
研发大模型高质量数据集架构图
二、方案和成效
一是构建海量异构数据采集引擎,实现多源数据融合。针对开源代码数据分散、内容多样化、噪声多等问题,从异构内容自动提取、低熵噪声自动去除等层面,提升数据采集的准确性与完整性,实现代码数据高效、实时汇聚,形成超PB级别原始数据。
二是打造高质量数据处理流水线,提升自动化处理效率。针对代码数据质量不足、研发场景数据缺失等问题,打造文本数据处理流水线和多模态数据合成流水线,支持多样化数据预处理、数据合成、数据探索分析等,整体自动化率达90%,沉淀超50+核心数据处理算子,支持1500万文档/小时。
三是设计高质量数据评估体系,全方位评估数据质量。针对代码数据质量评估手段专业化不足的问题,结合行业标准和数据特性,设计一套支持多粒度代码评估、多维度代码评估的高质量综合评估体系,覆盖12个核心维度,支持100+研发领域数据标签,实现研发大模型数据的全方位质量评估。
三、创新点
一是技术创新牵引数据质量升级。基于多元化规则体系及大小模型协同技术,实现对代码数据的去重、敏感数据的脱敏以及场景化标签的标注,将原始代码数据转换为可应用于大模型预训练微调及研发全流程场景需求的高质量研发大模型数据集。
二是流程闭环加速数据质量跃升。打造专门面向代码数据的采集、处理、训练等全流程闭环质量优化体系,综合考虑代码数据的技术专业性和复杂性,以规则阈值融合大模型测评等方式,实现模型加数据飞轮良性循环。
三是机制完善推进数据循环共享。构建数据安全合规审查体系和数据资产共建共享办法,并形成产业生态闭环,为数据全生命周期注入安全与合规基因,确保其高效流动与价值最大化。