高质量数据集典型案例 | 建筑行业供应链高质量数据集

  • 2025.09.25
  • 来源:国家数据局
  • [ 打印 ]
建筑行业供应链高质量数据集
  推荐单位:国务院国资委
  申报单位:中国建筑集团有限公司、中建电子商务有限责任公司
  一、背景
  建筑行业供应链数据沉淀了覆盖行业全链条的物资、资金与信用信息,在建筑行业具有重要支撑价值。针对供应链条长、参与主体多、协同效率低等突出问题,中建集团依托云筑网基础数据,围绕建筑供应链关键场景,协同中国电子数据产业集团构建了高质量数据集建设与评测体系,形成了一套面向“可直接用于人工智能训练”的建筑行业供应链高质量数据集,并应用于建筑供应链大模型垂类模型训练,满足包括供应链智慧寻源,智能询价和建材知识问答等需求。
整体框架图
  二、方案和成效
  一是搭建数据集建设流程。
严格遵循高质量数据集可用于人工智能模型训练的建设要求,构建了覆盖数据治理、语义加工、精标质控、结构表达、模型验证5个环节的标准化流程体系。整合建筑行业多来源文本数据,开展标准化语料清洗与解析处理,采用“人工标准化-模型自动迭代-动态质量管控”标注体系,形成行业适配性强的结构化数据成果,由第三方机构评估结果作为优化依据,推动数据集持续迭代、完善标注与结构设计,最终模型标注准确率超过90%,形成高质量数据集。
  二是建设“可直接用于人工智能训练”的高质量数据集。建筑行业供应链高质量数据集整合云筑网100万供应商基础经营信息、履约信用信息、材料价格信息、招采信息,共计10万条标注样本,全面覆盖建筑行业核心业务语义与AI任务需求,具备高结构性、高标签精度与强行业适配能力。
  三是建设数据集运营与生态。该数据集已成功应用于建筑行业大模型的供应链垂类训练,赋能供应商推荐准确度提升至84%,并衍生上线标书编制、标书自检等智能工具,其中标书自检已在云筑网商业化落地,累计6万+供应商体验,识别招标标讯4万+,生成检测报告22万份。同时评测方法与数据集建设工作可一定程度同类推广到行业或跨行业供应链领域。
  三、创新点
  一是创新构建标准化行业数据分类体系。
围绕建筑供应链业务关键场景,建立了面向人工智能训练的高质量数据集业务分类体系,为行业数据标准化建设提供了参考样本。
  二是技术创新驱动数据标注体系建立。项目结合行业复杂语义特点,制定供应链领域分类标准和标注规范,构建“人工标准化-模型自动迭代-动态质量管控”闭环体系。通过构建评估集验证标注效果,选取最优方案,大幅提升标注效率与数据一致性。
  三是成功探索数据集建设协作体系。立足行业高质量数据发展需要,形成了行业企业、数据集建设企业、数据集评测企业等多方协同、优势互补的数据集联合建设机制,推动数据集质量持续迭代优化,为行业开展更多高质量数据集建设提供了路径参考。
附件: