首页  >  专题  >  数据标注

数据标注优秀案例集之九 | 智能标注闭环体系重塑AI数据工程

  • 2025.05.16
  • 来源:国家数据局
  • [ 打印 ]
智能标注闭环体系重塑AI数据工程

  申报单位:福州数据集团有限公司
  推荐单位:福建省数据管理局
  一、案例简介
  为解决数据标注工程师标注效率低、质量差等问题,福州数据集团有限公司创新构建智能化数据标注体系,通过标注数据反哺模型训练的闭环机制,实现三大突破性成效:一是效率革命性跃升,单日标注工作量压缩至10分钟内完成,整体效率提升超百倍;二是质量精准突破,重点领域标注准确率突破95%;三是周期成本双优化,处理时效提升90%的同时标注成本显著下降。该体系已累计产出高质量标注语料超300TB,为400余家企业提供智能升级数据底座,有效支撑人工智能产业高质量发展。

图 1 整体框架
  二、举措与成效
  一是全流程、自动化、多模态、零基础标注。
建立“AI初标—专家校准—模型迭代”三级作业体系,50多种数据格式,覆盖文本、图视频、语音全模态。建立全链路标注平台,从数据整理、人工预处理、手工标注、人工审查简化为上传数据、抽样校验,业务人员可一键开启数据标注,效率提升80%。
  二是支撑多场景应用创新。在智慧政务场景,通过标注海量政务非结构化数据,构建政务语料,10多个政府部门数据自动化进行从数据到高质量数据集、语料库,覆盖12345、公安、民政、医疗等场景。在公共教育场景,自动解析教案文本,标注知识点关联关系,形成可追溯教学逻辑链;同步标注PPT中文本、公式、图示元素,建立课件组件复用库,教师备课素材获取时间缩短70%;运用大模型及NLP技术标注试题对应知识点标签,构建千万级试题与知识点关联数据库,提升组卷匹配精度。在工业制造场景,通过大规模语料自动标注,自动识别生产制造中的技术要求、作业中的隐性知识及关键参数,构建工业知识图谱;通过标注百万级设备记录,构建工业维修语料,建立“故障现象—查找原因—解决方案”流程,提升故障诊断准确率,缩短平均维修决策时间。
  三是确保标注数据安全。采用数据加密、屏幕水印等技术确保数据隐私安全,通过标注数据回流优化模型性能,形成“数据标注—模型迭代—业务赋能”闭环生态,解决传统人工标注效率低、误差率高、隐私风险大等痛点。
  三、特色亮点
  一是具备强大标注能力。
通过大量、丰富且类型多样的高质量训练数据,构建基于AI的标注体系;通过“预训练—标注—回流”技术闭环,打破传统单一模态标注局限性。

图 2 智能标注闭环体系
  二是支撑AI算力建设。构建覆盖数据治理、智能标注、价值释放的全产业级数据中枢,支撑国家级AI算力网络建设。
  三是构建产业协同生态。建立标注动态优化机制,构建“标注工具链—数据服务商—模型开发商”赋能体系,打通行业数据孤岛,进一步提升模型性能。
附件: