高质量数据集典型案例 | 中交集团交通基建行业通识类数据集建设与应用

  • 2025.11.26
  • 来源:国家数据局
  • [ 打印 ]
中交集团交通基建行业通识类
数据集建设与应用
  推荐单位:中国交通建设集团有限公司
  申报单位:中国交通信息科技集团有限公司
  一、背景
  在交通基建行业,高质量数据集已成为推动行业智慧化转型升级的重要驱动。中交信科作为中交集团数据集建设的执行者以及交通运输部交通大模型建设牵头单位,在数据集规划治理、质量评测、应用验证、标准建设上具有较高水平,构建了400亿Token高质量行业文本、200万图像文本、60万余条专业问答和30万条交通基建专属思维链数据,支撑交通行业大模型训练应用。
交通基建行业高质量数据集建设路线
  二、方案和成效
  一是构建数据集建设应用体系,
涵盖数据采集、存储、标准化、清洗、标注、质检、训练验证、运营及对外服务等关键环节,并在过程中形成全流程数据集治理标准规范,为高质量数据集建设应用提供标准指引。
  二是打造数据集建设应用平台,形成全链条全生命周期的数据集构建工具栈,包括质量评测模块、应用支撑平台、数据集共享服务集市等功能。能够支撑涵盖文本、图像、视频、点云等不同模态的数据集建设、评估及应用,具备支撑高质量数据集跨机构、跨层级、跨区域流通共享。
  三是训练专属数据处理的质量、隐私、安全判别模型,对文本,图像数据处理过程中的关键环节进行自动化提升。并根据国标规范,对最终形成交通基建通识数据集,围绕文档完整性、质量合规性、场景适用性等3大维度共15项指标开展质量评测。
  四是完成数据集应用验证,基于该数据集完成交融大模型训练,达到行业问答准确度85%,知识覆盖度75%。模型已上架国资委焕新社区,对外申请制开源。同时基于交融大模型的交通基建认知、推理、生成和交互能力,打造集团级AI应用—交融问之智能助手。并基于模型能力在交通基建领域建管养运100余项场景应用,其行业内表现全面优于主流大模型,已赋能50余家企业。
  三、创新点
  一是技术创新,
通过自建数据集建设平台,完成自动化清洗、标注等流程的工具链,实现文本、图像、视频等多种类型的数据统一标准化处理;构建专属数据处理的质量、隐私、安全判别模型,对数据处理过程中的关键处理点进行自动处理。
  二是模式创新,构建数据驱动+业务协同的模式,将行业业务流程与数据处理环节结合,实现数据从采集到应用的全流程闭环管理。
  三是管理创新,建立完善的数据管理制度和标准化体系,涵盖数据采集、存储、标准化、清洗、标注、质检及训练等关键环节。
  四是机制创新,构建了一个开放、共享、协作的数据生态系统,鼓励行业内的各方积极参与数据集的建设和应用,建立数据更新和维护的长效机制。
附件: