高质量数据集典型案例 | 跨领域合成图文高质量数据集

  • 2025.09.24
  • 来源:国家数据局
  • [ 打印 ]
跨领域合成图文高质量数据集
  推荐单位:国务院国资委
  申报单位:中电数据产业集团有限公司
  一、背景
  针对行业数据集汇聚难、加工难、供给量低、利用率低、质量差等问题,以“数据元件”为核心,发挥自身理论、技术、市场验证优势,构建“1基座+1平台+1批行业高质量数据集+X个应用场景”工程体系,打造行业高质量数据集平台及一批多模态、大规模、高知识密度的跨领域合成图文数据集,解决行业共性问题,推动行业高质量发展。

总体设计架构图
  二、方案和成效
  一是建设行业高质量数据集平台。基于大数据、大模型技术建设行业高质量数据集平台,实现大规模、自动化、一体化数据采集、预处理、治理、加工、合成、质检能力。经第三方权威机构测评,可实现两GPU卡日加工合成不低于150000条,支持并行100个加工任务互不干扰。登记软著110项,发明专利38项,通过专家评审,平台整体技术具备国际先进水平。
  二是打造一批多模态、大规模、高知识密度的跨领域合成图文数据集。本案例形成的数据集已服务交通物流绿色低碳、城市治理等9大行业,覆盖100余个应用场景,初具规模效应。相关数据集成果经工信部一所评定为A级,获首批央企高质量数据集优秀建设成果。
  三是建立高质量数据集标准化体系。协同业内权威机构、专家,牵头5项高质量数据集行业标准,覆盖数据集的加工、质量评估、工具、运营等方面,并作为联合起草单位参与4项高质量数据集国家标准及技术文件的立项与编制。
  四是构建央企协作生态。结合承担的国家任务,通过自身技术,联合交通、物流、低碳、农业等行业龙头央企开展行业高质量数据集建设,推动行业人工智能发展及数字化转型,落实国家重大战略布局。
  三、创新点
  一是高质量数据集预处理技术。基于“数据元件”与大模型协同的高质量数据集预处理技术,实现原始数据向高密度、安全数据的转化。
  二是高质量数据集多模态质量评估技术。基于知识驱动的领域数据标注任务分解、合成与多模态质量评估技术,建立自动化评估与迭代优化机制,为大模型训练提供高适配性数据支撑。
  三是高质量数据集自适应加工技术。基于知识库及动态质量反馈模型的高质量数据集可持续自适应优化加工技术,结合任务执行过程中的自动纠错与策略调优机制,构建领域知识驱动的多模态高质量数据集。

附件: