首页  >  政务公开  >  专家解读

专家解读 | 筑牢高质量数据集底座,赋能人工智能创新发展

  文 | 国家数据发展研究院院长 胡坚波
  当前,人工智能正在加速从“可用”向“好用”迈进。高质量数据集作为大模型训练与应用的基石,供给规模与质量直接决定人工智能创新高度与产业落地深度。近日,国家数据集管理服务系统正式发布并启动试运行,标志着我国高质量数据集建设进入集约化管理新阶段,为人工智能加速发展注入了强劲动能。
  一、国家数据集管理服务系统的重要意义
  (一)系统建设是落实国家重大战略部署的关键举措。习近平总书记强调,“数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力”。“十五五”规划纲要将“建设高质量数据集”列为数字中国建设重点任务,明确面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集。国家数据局在“531”工作体系中,突出数据赋能人工智能创新发展这“1”项重点工作,先后部署140项先行先试任务,推广104个典型案例,确定72家链主单位,全面开展强基扩容、标注攻坚、提质增效等六大专项行动。国家数据集管理服务系统的上线,为相关顶层设计和工作部署提供了平台载体和技术底座。
  (二)系统建设是破解高质量数据集建设瓶颈的重要手段。在国家数据局统筹推动下,我国高质量数据集建设取得显著成效。截至2026年第一季度,全国已建成高质量数据集超过11.6万个,总体量超过960PB,日均Token调用量突破140万亿。然而,快速发展的背后仍存在一些结构性问题。一是建设主体分散,数据管理部门难以及时、全面掌握资源底数与建设进展。二是供给侧信息不对称,容易导致同一领域重复建设、质量参差不齐。三是需求侧获取成本高、周期长,迟滞了数据驱动技术创新的进程。只有构建全国统一的数据集管理服务体系,才能从根本上破解“数据找不着、质量没保障、供需难对接”的瓶颈。
  (三)系统建设是抢占全球人工智能竞争制高点的有力支撑。从全球范围看,主要经济体将高质量数据集建设提升至国家战略高度。美国启动“创世纪任务”,通过整合联邦政府横跨能源、交通、医疗等领域的海量公共数据资源,构建面向人工智能训练的高质量数据底座,以巩固其在基础模型领域的领先优势。可以说,高质量数据集已成为大国科技博弈的战略制高点,其建设水平直接关乎一国在全球人工智能产业链中的话语权和竞争力。加快构建自主可控的高质量数据集管理与服务体系,对于我国人工智能从“并跑”迈向“领跑”具有重大意义。只有通过设施化、集约化建设,推动优质数据资源高效汇聚、安全流通和广泛应用,才能夯实人工智能发展的数据底座,确保我国在全球科技竞争中赢得主动、抢占先机。
  二、国家数据集管理服务系统的定位和能力
  (一)立足国家级公共服务设施定位。系统采用“物理分散、逻辑集中”的汇聚模式,在不强制数据出域的前提下,构建全国统一的数据集资源目录与管理体系,兼顾持有者的合法权益和资源的有效配置,推动高质量数据集“供得出、流得动、用得好”,实现全国“底数一本账、调度一盘棋、协作一张网”的工作格局。系统着力打造三个“枢纽”:一是全国高质量数据集的有效管理枢纽,实现全域资源可管、可查、可监测;二是数据集供需双方的高效对接枢纽,降低交易成本、提升匹配效率;三是数据集建设的生态服务枢纽,促进产业繁荣发展。
  (二)精准赋能三类核心用户。系统主要服务于数据管理部门、数据集供给方和数据集需求方三类用户。一是向数据管理部门全面展示全国数据集的建设进展和分布情况,便于掌握工作动态、明确问题短板、优化政策方向。二是向数据集供给方提供数据集建设全流程服务,激发建设动力,增强建设能力,提升数据质量。三是向数据集需求方提供数据集流通应用支撑服务,快速定位合规优质的数据集,缩短获取周期、降低用数成本。除此之外,系统作为国家级数据基础设施,能够有效发挥资源汇聚的优势,赋能地方政府、产业园区等主体,打造线上产业生态聚集区。
  (三)构建完备的功能体系。系统构建了“管理+服务”的完整功能架构。管理功能聚焦可管可查,包含数据集管理与建设情况管理两大模块。前者实现全国数据集目录统一汇聚,展示资源分布情况;后者统计采集、加工、应用等全流程建设进展,支撑科学决策。服务功能聚焦好用易用,分为基础服务与拓展服务。基础服务包括供需发布、质量测评、查询检索等,满足普惠需求;拓展服务包括工具链、数据集应用等,赋能高水平创新主体。同时,系统采用数据加密、区块链存证、敏感信息自动检测、合规审核等手段,建立基础防护、主动防御、容灾备份三位一体的安全体系,确保管理服务全流程安全可靠。
  三、充分发挥国家数据集管理服务系统的底座支撑作用
  以系统试运行为起点,国家数据发展研究院将在国家数据局指导下,加快建设我国高质量数据集领域的权威平台,充分发挥系统对高质量数据集建设工作的促进作用,为人工智能国家战略提供坚实的数据支撑。
  (一)完善系统功能,构建全生命周期管理服务体系。按照整体规划,系统分三期建设。目前一期已如期上线,实现供需发布、全域检索、凭证申领等基础功能。在试运行过程中,将建立用户反馈和迭代升级机制,不断完善现有功能,优化使用体验。后续,将持续推进二期和三期建设工作,增加数据集建设进展监测、数据集图谱等管理功能,拓展权益激励、工具链、模型应用、定价评估等服务,对接国家公共数据资源登记、数据产权登记等相关平台以及地方和行业相关系统,形成国家级系统牵引、地方和行业协同的一体化格局。
  (二)扩大用户范围,激活数据集产业生态。广泛动员各类主体使用系统,提升用户数量和活跃度。推动高质量数据集“链主”、先行先试等重点单位的建设成果“应发尽发”,鼓励科研机构、行业龙头企业、数据服务商发布自主建设的高质量数据集,形成覆盖多模态、多领域、多行业的资源汇聚格局。探索建立贡献评价、积分管理等权益激励机制,激发各类主体发布数据集的动力。聚焦重点领域建设行业专区,开展特色服务,打造权威的高质量数据集线上生态圈。健全安全合规机制,为数据集规模化应用提供有力的安全支撑。
  (三)发挥枢纽作用,促进人工智能创新发展。以系统为纽带,推动高质量数据集从“可查可找”向“可用好用”深化。依托供需对接与质量评测功能,打造一批AI-Ready的高质量数据集,为模型训练与应用提供标准化、可验证的数据集产品。推动系统与数据交易所等机构系统对接,支持系统上发布、评测和获得标识凭证的数据集在合规前提下挂牌、上架和交易,打通从建设、发布到流通、应用的全链条。聚焦多模态、思维链、具身智能等数据集热点需求,通过系统引导相关主体扩大供给,发挥市场“调节器”的作用,加速数据要素赋能人工智能创新发展。
附件: