高质量数据集典型案例 | 电力作业安全管控图像高质量数据集

  • 2025.10.24
  • 来源:国家数据局
  • [ 打印 ]
电力作业安全管控图像高质量数据集
  推荐单位:广东省政务服务和数据管理局
  申报单位:广东电网有限责任公司信息中心、广东电网有限责任公司江门供电局、南方电网电力科技股份有限公司、广东顺畅科技有限公司
  一、背景
  电力作业安全监管智能化发展推动高质量数据集需求,但面临现场点多面广、统一图像集缺失、多源融合难、标注标准不一及低频风险样本稀缺等痛点。本案例构建覆盖150万样本的多模态数据集,创新采用“风险分布+双轨标注/质控+GAN增强”四大方法。基于数据集建设牵引安全监管AI模型涌现。自主训练的“大瓦特”大小模型级联体系,驱动云边协同实现秒级预警(<0.5s)与95%工序识别准确率,显著提升安全监管效率与经济效益。

总体建设框架图
  二、方案和成效
  一是构建多模态数据融合体系,筑牢作业智能识别根基。累计标注150万份涵盖图像、视频、文本的多模态样本,覆盖20类核心违章场景及人员行为、机具防护等5大类型,实现全时空数据覆盖。按业务风险优先级动态调整数据分布,依据作业频次与风险程度科学配置场景样本,确保训练数据与现场风险精准匹配。
  二是创新双轨标注方法,双轮驱动质量管控体系升级。采用“关键目标框+图文对话式”双轨标注,关键目标框标注精度交并比达到95%,图文对话式标注构建结构化知识库,通过“人工三审三校+大模型质检”双轨机制,经四级人工流程与AI自动化校验,显著提升标注质量,准确率达97%。
  三是应用数据质量增强技术,赋能数据集质量提升。通过MD5去重剔除高重复样本、Laplacian方差过滤优化图像质量等四大技术手段,将图像清晰度合格率从82%提升至98%;利用生成对抗网络生成低频违章合成数据,结合12种数据增强变换,使有效训练数据量提升8倍。
  四是构建动态迭代机制,实现数据短板精准补充。构建“采集-标注-训练-应用”数据飞轮,通过系统识别数据自动回流,重点补充极端天气、稀缺样本等场景数据,结合模型应用反馈季度更新,实现数据分布的动态优化调整。
  三、创新点
  一是自主可控电力模型体系。数据集建设牵引“大瓦特”模型基于Transformer架构,参数规模130亿,100%适配国产化算力,实现全省单日过亿次推理任务。
  二是云边协同智能识别体系。基于本数据集云端训练、部署86套算法模型(覆盖20大类违章场景),支持操作顺序错误等20类风险识别;边缘端升级布控球为智能终端,集成人体检测、吊物等关键目标自动变焦跟踪,识别延迟≤500ms。
  三是多级联控违章识别架构。数据集涵盖底层检测层,识别围栏、吊车等基础元素,准确率≥97%;中层推理层,结合“路边施工未围挡=违章”等业务规则,构建逻辑引擎;高层语义层,通过大模型融合作业计划与视频数据,实现特定作业场景下的违章准确判断。技术成果经院士专家组鉴定达到国际先进水平。
附件: