应急管理“久安”AI大模型高质量数据集
推荐单位:应急管理部
申报单位:应急管理部大数据中心
一、背景
深入贯彻落实习近平总书记关于人工智能的重要论述精神和国务院《关于深入实施“人工智能+”行动的意见》相关部署,积极响应国家数据局关于高质量数据集建设的工作安排,以支撑应急管理“久安”大模型训练优化与深度应用为核心目标,统筹推动全行业数据集建设和数据资源利用,着力构建覆盖多场景、多模态,兼具全面性、规范性与行业权威性的应急管理行业高质量数据集。
整体架构图
二、方案和成效
一是构建分类体系,夯实数据集基础。将数据集划分为安全生产、防灾减灾救灾、应急救援、综合管理等4个一级分类和27个二级场景分类,包含文本、图像、视频等多模态数据,实现应急场景数据“全维度覆盖”。建立“部级引领+省市协同”工作机制,统一各环节操作标准,为“久安”大模型提供规范的数据支撑。
二是完善建设流程,提升数据集质量。通过应急管理部应用系统、日常业务科研积累、地方试点应用三大渠道采集数据,形成基础数据底座,采用“大模型预处理+人工校准”混合标注模式深度加工,为模型训练提供可靠“燃料”,模型准确率从74%显著提升至89%。
三是赋能模型训练,发挥数据集效能。基于风险隐患数据集,训练提升模型辅助监测预警能力,实现对关键场景的实时感知,累计识别安全隐患1.2万余起。基于法律法规数据集,提升模型专业知识能力,依托“互联网+执法”系统实现“拍图识隐患、一键制清单、灵活查标准”,已在20余个省份推广应用,基层执法人员借助该工具显著提升执法效率。
四是打造共享生态,深化数据集应用。构建全国一体化应急管理数据支撑网络,为28个省份提供智能数据服务,共享知识库等标准化数据,满足地方数据应用需求,推动跨区域协同。
三、创新点
一是技术创新。专项研发适配多语种、复杂排版场景的 OCR 转换工具,深度融合多模态大模型的视觉特征提取与语义逻辑解析能力,实现 PDF 文件向可编辑文本、结构化表格等多格式的高效精准转换,且能完整保留原始文档版式与内容关联,有效解决模型训练中语料生成效率低、语义断裂等问题。
二是模式创新。从数据用途等四个维度构建立体数据架构,打破单一维度限制,实现数据灵活汇总与快速检索,提升调用效率,为多场景应用提供高效支撑。
三是管理创新。构建“部级引领+省市协同”三级联动体系,实现行业与地方数据双轨建设,打通交互通道,建立闭环管理机制,为全国数据集管理提供可复制范式。