高质量数据集典型案例 | 招商局集团交通物流行业高质量数据集

  • 2025.11.25
  • 来源:国家数据局
  • [ 打印 ]
招商局集团交通物流行业高质量数据集
  推荐单位:招商局集团有限公司
  申报单位:招商局集团有限公司、中电数据产业集团有限公司
  一、背景
  交通物流行业产业链长、环节多,数据格式多样且分散,行业整体面临数据积累不足、存储分散、质量不高、缺少共享等难题。作为全球交通物流领域的领军企业,招商局集团肩负国资委 “AI+物流” 建设重任。在行业大模型及应用场景建设中,集团通过建立知识管理机制体制、搭建知识管理平台,建成数百GB文本数据集及数百TB多模态数据集,据此训练的“商道”物流行业大模型,全面应用于集团交通物流各版块的智能化转型升级。

招商局集团知识管理体系
  二、方案和成效
  一是由上至下统筹督办,构建交通物流行业知识目录体系。构建了覆盖7大业务板块、100+业务域、600+垂直细分交通物流领域的知识目录,知识覆盖率与准确率均达95%,实现了交通物流行业知识语料的系统化梳理与建设。
  二是以评促建,构建大规模高质量行业数据集。通过信通院高质量数据集4级测评。12项高质量数据集测评指标均超过90分,成为首家通过该项测评的央企单位。
  三是发挥示范带头作用,发布行业标准。牵头编制两项交通物流行业大模型相关标准。填补了物流大模型的标准空白,为行业数据建设与模型应用提供了统一规范与技术指引。
  四是以场景价值驱动高质量数据集建设。以场景价值实现为目标,建立“数据-模型-场景”循环驱动的“数据飞轮”。以集团高价值场景的建设,驱动高质量数据集的建设。
  三、创新点
  一是建设贯穿于大模型全生命周期的数据工程。通过数据合成、多模态解析等技术实现人工标注减少80%、解析准确率超95%。
  二是建立生态共建与总分协同机制。构建技术专家与业务专家融合的团队,汇聚多方专业力量打造高质量数据集。
  三是建立应用场景驱动的数据运营管理体系。以“可用-好用-落地”为原则构建评估体系。从完整性、准确性等维度设计16项核心指标,确保数据集与大模型应用场景的深度契合。
附件: