文 | 中电数据产业集团有限公司党委书记、总经理 韩光
在人工智能加速演进的背景下,构建全国统一的数据集管理体系成为强化数据要素赋能人工智能发展、深入推进数字中国建设的重要举措。在国家数据局的统筹部署下,国家数据集管理服务系统正式发布并启动试运行,不仅为我国高质量数据集集约化管理提供了基础支撑,也为中央企业数据资产化价值化开辟了新的路径。
一、国家数据集管理服务系统是服务全国人工智能发展、强化战略资源管控的基石底座
高质量数据集对人工智能发展的核心驱动作用日益凸显,并成为各国数据主权与安全治理的关注焦点。国家层面加快构建数据集管理体系,发布上线国家数据集管理服务系统恰逢其时。
从价值角度来看,国家数据集管理服务系统有利于夯实人工智能发展底座、强化数据赋能人工智能创新发展。当前,人工智能研发重点已从“重点优化模型架构”转向“模型与数据协同优化”。数据集规模进入高速增长阶段,国家数据局发布相关数据显示,截至2026年第一季度,全国已建成高质量数据集超过11.6万个,总体量超过960PB。数据集质量作为关键因素,对人工智能模型精度、训练效率影响不断增强。大量行业实践证明,通过数据质量优化,模型训练收敛速度显著加快,迭代次数可减少30%以上。立足数据集“扩容提质”的发展需求,加快构建统一规范的数据集管理体系,将为我国人工智能创新发展奠定坚实基础。
从安全角度来看,国家数据集管理服务系统有利于强化国家战略资源管控、筑牢数据安全屏障。全球各主要经济体纷纷将高质量数据集视为关乎国家安全的战略资源,不断强化主权管控与安全治理。2025年,美国发布《赢得AI竞赛:美国AI行动计划》,将高质量数据集定位为“国家战略资产”,要求对国防、能源、交通等关键领域的专用数据集实施严格出境管制与安全审查。2026年,英国发布《政府数据集适配人工智能应用指南与最佳实践》,要求用于AI训练的政府数据集必须经过安全评估与合规审查。面对全球数据集和人工智能竞争格局,加快构建系统完备的数据集管理体系,已成为维护国家数据主权、防范化解安全风险的重要任务。
二、国家数据集管理服务系统为数据集建设夯实四项关键能力
系统上线试运行,将从四方面为主管部门、中央企业等相关主体提供有力的管理和服务支撑。
一是打造“资源管理器”,提升集中汇聚与统筹调度能力。当前,高质量数据集管理面临资源分散、口径不一、底数不清等问题,数据管理部门难以全面掌握高质量数据集建设进度、质量状况、应用成效等动态。系统通过建立标准化的数据集目录与管理规范,构建“物理分散、逻辑集中”的数据集管理体系,系统性整合全国各类数据集资源,实现不同行业、不同类型、不同格式数据集的归集与管理,将为数据管理部门统筹协调资源、精准制定政策提供支撑。
二是提供“赋能工具箱”,提升规模生产与高效加工能力。研究机构Epoch AI预测,可供模型训练的互联网高质量文本数据或在2028年面临枯竭。当前,非结构化处理、智能标注、质量核验等技术工具体系支撑薄弱,难以适配各行业大规模、多模态、高质量数据集的需求。系统聚焦这一问题精准发力,提供专业化工具链与质量评测、凭证申领、封装发布等全流程服务。通过不断完善“一站式”生产加工支撑能力,将有效降低数据集建设门槛,提升高质量数据集供给水平。
三是搭建“生态聚合场”,提升供需对接与价值转化能力。当前,高质量数据集供给端存在发布渠道零散、格式标准各异、质量参差不齐等问题,需求端面临查找效率低、甄别成本高等痛点。系统围绕“供需对接、生态聚合”定位,依托查询检索、需求发布等公共服务能力,构建数据资源与应用场景的精准对接枢纽。系统的全面推广应用将广泛集聚数据、技术、服务等各类主体,助力构建良性循环、协同共生、长效赋能的数据产业生态。
四是构筑“安全压舱石”,提升安全防控与合规保障能力。数据集安全合规风险日益突出,国外未经授权构建训练集、涉嫌侵犯版权等案例时有发生,国内虚假信息污染训练数据、引发“数据投毒”等问题亦不容忽视。系统整合实名认证、凭证申领、内容检测、区块链存证等功能,将有效引导各类主体压实管理责任,强化数据采集汇聚、加工处理、数据标注等全流程安全管控和合规保障,为高质量数据集建设和流通利用夯实安全合规根基。
三、以国家数据集管理服务系统上线为契机,发挥中央企业引领作用,支撑数据工作再上新台阶
中央企业作为高质量数据集建设的“国家队”,依托前期积累的数据、技术与场景优势,依托本系统,可在技术攻关、生态共建、价值挖掘、安全护航上争取率先突破,全力支撑我国人工智能高质量发展与数字中国建设大局。
一是加强关键技术攻关与工具产品研发。集聚中央企业数据领域研发力量,以自主安全和智能高效为导向,重点突破数据合成、智能标注等关键技术,加快构建覆盖数据清洗、增强、标注、对齐、质检等环节的核心工具链,协同打造具有国际竞争力的数据集技术与产品体系。
二是深化企业之间场景与数据生态合作。发挥中央企业高价值场景牵引作用,支持行业龙头企业与数据科技型企业深化合作,推动高质量数据集在重点行业、关键领域深度融合应用。推动企业间数据共享共用,支持“以数换数、联合开发”等多元合作模式,培育开放协同的数据集产业生态。
三是探索数据集商业化、资产化创新路径。加强中央企业数据集长效运营机制建设,积极开展供需对接、挂牌交易,构建数据集“生产、测评、流通、应用”商业化价值闭环。在此基础上,有序推进高质量数据集的数据资产入表,积极探索质押融资等资产化路径,充分释放数据集价值潜能。
四是构建全生命周期安全管控体系。中央企业必须站在维护国家安全的战略高度,面向数据采集、处理、标注、加工、质检、评测等方面,完善安全管理制度,压实各级主体责任,推进自主可控、安全可信的数据集技术工具应用,探索建设数据集安全监测体系,全方位筑牢数据集安全防线。