专家解读 | 释放知识动能 护航数智发展—《关于推进行业高质量数据集建设行动的实施方案》解读

  • 2026.06.13
  • 来源:国家数据局
  • [ 打印 ]
  文 | 中国科学院成都文献情报中心党委书记 曲建升
  为深入落实国家“人工智能+”行动战略部署,加快数据要素与人工智能深度融合,国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》。方案立足数字经济、科技自立自强与国家智能化转型全局,既是规范数据集生产、流通、应用的行动纲领,也是盘活存量知识资产、释放专业服务价值、完善数字治理规则的顶层布局。对于拥有海量科技文献资源,长期承担知识采集、组织、标引、保存与服务职能的文献情报领域而言,方案搭建起传统知识业态与新一代智能产业的融合桥梁,推动领域数十年积淀的体系优势、专业能力与管理范式向外辐射、跨界赋能,在服务国家战略、赋能各行各业的过程中,完成自身业态的迭代升级与价值重构。
  一、知识架构的智能化转型与价值延伸
  方案将多模态、高知识密度数据集建设摆在突出位置,本质是从国家产业层面,推动全域知识资源完成从传统服务形态向智能算力适配形态的系统性变革。长期以来,文献资源、科研数据、行业标准、技术档案等知识载体,依托学科分类法、主题词表、索引体系构建运行逻辑,整套架构以人类阅读、检索、研习为核心目标,资源呈现碎片化、文本化、静态化特征,价值边界局限在知识传播、学术参考与资料查阅。在人工智能规模化落地的当下,机器模型对数据提出了结构化、关联化、可计算、可训练的全新要求,传统知识组织模式与智能应用场景之间形成明显断层,制约了专业知识向数字生产力转化。
  依托文献情报领域长期深耕的知识整序能力,能够对海量存量知识进行深度解构、要素重组与范式再造,通过语义抽取、实体关联、知识图谱构建、文本结构化改造等工作,打破原有学科壁垒与载体边界,让静态文献资源转变为适配大模型、智能体、行业应用的标准化训练数据,将科技文献数据库升级为科技语料库。这一转型绝非简单的格式转换,而是知识生产、组织、服务全链条的底层重塑:知识组织逻辑从“面向人检索”转向“面向机器理解”,资源价值从“被动查阅”转向“主动赋能”。从宏观层面看,经过系统化加工的专业知识数据集,能够弥补通用数据集专业深度不足、领域逻辑缺失、内容可信度偏弱的短板,为高端智能制造、前沿科学研究、政务智能服务、行业数字化转型筑牢内容根基。与此同时,智能场景的应用需求也反向牵引知识体系持续优化,倒逼传统馆藏、文献服务、知识管理等工作跳出固有框架,主动对接数字经济发展需求,推动整个知识生态融入国家创新体系,让沉淀多年的知识资产成为驱动科技进步与产业升级的核心要素。
  二、专业质控体系的场景扩容与行业赋能
  方案明确推行人机协同、专家参与的新型标注模式,建立全国互通互认的数据质量测评体系,直击当前数据产业普遍存在的标注标准混乱、专业内容失真、质控能力薄弱、区域规则不一等痛点,也为文献情报领域传统核心能力开辟了广阔的应用赛道。专业数据治理所需的术语统一、语义辨析、逻辑校验、内容比对与真伪甄别等能力,和文献情报领域深耕多年的主题标引、元数据加工、文献校对、内容审读、规范校准等工作高度契合、一脉相承。依托长期实践积淀,领域内已形成完备的作业流程、规范标准与专家研判体系,搭建起覆盖内容生产全链条的质量管控逻辑。
  在政策引导下,原本服务内部业务的质控体系实现场景外拓,从单一的文献内容审核,延伸至全行业数据集质量管控、标准制定、测评督导等公共服务领域。一方面,依托完备的术语体系、领域知识储备与常态化审核流程,可有效化解专业数据标注中概念歧义、逻辑冲突、内容错漏、标准各异等行业顽疾,从源头提升数据集整体品质,保障人工智能模型训练效果与落地应用可靠性。另一方面,这套经过长期检验的专业化质控范式,能够作为行业标杆发挥示范引领作用,推动数据标注、数据清洗、数据加工等上下游环节建立统一规范,加速整个数据产业走向标准化、精细化、专业化发展道路。从长远发展来看,专业能力的跨领域应用,推动人才、技术、标准全面赋能数据要素治理工作。既有效规范行业运行秩序、提升综合发展能级,也实现了传统专业服务的功能升级,逐步由后台保障转向行业引领、标准创制,依托领域专业优势带动全行业整体提质增效。
  三、长效管理机制的跨界融合与治理示范
  方案构建覆盖采集、处理、标注、质检、迭代、审计、留存的数据全生命周期管理体系,厘清数据产权分置、版权使用、安全监管等核心规则,直面数据流通中权责边界模糊、版权纠纷频发、安全风险突出、长效管护缺失等共性难题。而科技文献、科研数据、专业档案等知识类资源,天然具备权属构成复杂、使用约束严格、保存周期超长、流转场景多元的特征,文献情报领域在数十年发展中,逐步建立起资源溯源、权限划分、合规审查、分级管控、长期保存、风险预警的完整管理体系,形成了兼顾权益保护、开放利用与安全管控的治理思维。
  此次政策出台,让这套成熟的资源管理范式实现跨界融合与价值复用,成为数据要素合规治理的重要参考。在产权管理层面,依托现有的权益梳理、权限审核流程,精准落实数据产权分置制度,清晰界定数据持有、使用、流转各方权责,有效化解知识类数据在模型训练、共享流通中的版权争议,打通专业数据合规应用的堵点难点。在运维管护层面,以“永久保存、动态更新、全程可溯”的管理理念,对接适配数据集全生命周期运维要求,结合隐私计算、区块链、数据脱敏等新一代技术,构建起“数据可用不可见、权益可溯不可侵”的安全流转模式,在保障原始知识资源合法权益的前提下,最大化释放数据要素价值。从治理全局来看,这套融合了传统资源管理经验与现代数字技术的治理方案,不仅能够保障专业知识数据有序流通、安全利用,更为全国公共信息资源、政务数据、行业专业数据的规范化管理、长效运营提供可复制、可推广的实践路径。以知识资源治理为试点、为样板,逐步完善全域数字治理规则,推动整个数字生态朝着权责清晰、安全可控、开放有序、可持续发展的方向迈进,助力国家数据治理体系和治理能力现代化建设。
  综上,本次实施方案紧扣国家智能化、数字化发展大局,串联起知识资源、专业能力、治理规则三大核心要点的变革与升级。政策导向与文献情报领域积淀的资源优势、专业功底、治理经验高度契合,既是高质量数据集建设的行动指南,也是传统知识服务领域转型升级、服务国家战略的重大历史机遇。文献情报领域立足自身定位,主动对接政策部署,推动知识架构、质控体系、管理机制全面融入数据要素建设、人工智能发展、数字治理现代化等重点工作,既能持续夯实我国智能产业发展的数据底座,为科技自立自强、产业转型升级提供坚实支撑,也能推动传统业态突破发展边界、重塑核心价值,以专业所长服务发展全局,在数字中国建设的时代浪潮中持续发挥不可替代的作用。
附件: