文 | 国家数据发展研究院院长 胡坚波
行业高质量数据集是驱动“人工智能+”赋能千行百业、支撑产业落地的战略性、基础性资源。国民经济和社会发展“十五五”规划纲要明确指出,要深化拓展“人工智能+”。为此,国家数据局印发《关于推进行业高质量数据集建设行动的实施方案》(以下简称“方案”),围绕行业高质量数据集供给、流通、应用等关键环节作出系统部署,为强化数据赋能人工智能创新发展指明方向。
一、锚定人工智能发展方向,把握数据集建设新要求
《方案》强调要主动顺应人工智能发展范式跃迁,在动态发展中持续释放数据要素价值。当前,“人工智能+”已进入规模化落地与产业深耕的关键阶段,对行业高质量数据集建设提出了全新要求。
人工智能技术正加速向各行业领域渗透,高质量数据需求呈现爆发式增长态势。一是公域数据红利消退,行业私域数据成为核心资源。互联网上公开数据的挖掘空间持续收窄,模型能力的持续提升须深度挖掘金融、医疗、工业等领域积累的专有、非显性化数据,行业高质量数据集已从补充性资源转变为产业发展刚需。
二是通用模型竞争趋同,专有数据构建差异化壁垒。通用大模型能力差距不断缩小,企业唯有将业务数据与模型深度融合,才能打造具有行业特色的智能解决方案,数据已从单纯的训练原料升级为企业战略资产。
三是新兴技术范式涌现,多模态行业数据需求大幅提升。具身智能、世界模型等新范式需要理解物理世界的空间结构与运行规律,直接催生了对3D、视频等多模态行业数据的规模化需求,同时对数据采集与标注的质量提出了更高标准。
人工智能产业链分工日益精细化、专业化,数据供应链体系正在加速构建并走向成熟。一是数据服务向知识密集型升级,亟需规模化专业供给能力。数据标注已从低端重复劳动升级为需要领域专家深度参与的知识型标注,行业高质量数据集的建设需要依托专业化、智能化、体系化的供给平台。
二是应用落地加速推进,要求数据集与场景深度融合。人工智能已进入以应用为导向的发展新阶段,数据集建设须紧贴实际业务需求进行规划设计,推动数据从“自产自用”向按需流通、精准对接转变,实现数据供给与产业应用的良性互动。
三是数据要素市场化提速,亟需构建完善的价值生态体系。行业高质量数据集已从模型附属品转变为可流转、复用和交易的生产要素,要加快建立数据交易、资产化评估、利益分配等机制,培育数据经纪等新兴市场业态。
人工智能治理正告别粗放模式,进入以质量和效益为核心的规范化发展时期。一是数据使用从粗放走向规范,亟需明确权益边界。长期以来,人工智能模型对数据的使用存在权利边界模糊、权益保障不足等问题,随着产业走向成熟,须建立健全数据持有、使用、经营等环节的权益保障机制,为产业可持续发展奠定制度基础。
二是人工智能安全风险源头在数据,须筑牢伦理公平底线。人工智能模型的价值偏好与训练数据高度相关,数据中潜藏的偏见、歧视和有害信息会被模型放大并带来社会风险,需要将伦理规范和公平普惠要求贯穿数据集建设全流程。
三是人工智能治理体系正从碎片化走向系统化,需建立全生命周期数据管理体系。当前数据集建设存在统筹规划不足、标准不统一、治理能力滞后等问题,需加快构建覆盖数据采集、标注、流通、使用全流程的管理体系,以科学规范的治理保障人工智能产业发展行稳致远。
二、坚持问题导向,体系化推进六大专项行动
《方案》以支撑人工智能技术规模化落地为核心目标,聚焦产业发展最迫切、最关键的重点领域,系统部署六大专项行动,加快构建数据要素与人工智能深度融合、协同演进的产业共生生态。
一是实施强基扩容行动,推动行业高质量数据集规模化供给。实现规模化供给是高质量数据集赋能人工智能技术创新和应用的基础条件,为此,要从覆盖领域、建设模式、行业协同、前沿技术需求等方面协同发力。为解决重点行业领域数据集覆盖广度和深度不足问题,《方案》聚焦19个重点领域和5个创新领域,加快推进数据集建设。针对建设应用尚未形成成熟可复制的通用模式,《方案》以应用需求为牵引,以先行先试工作为抓手,打造标杆示范场景,打通数据集建设到业务应用闭环。面对行业数据孤立分散痛点,着重发挥链主单位头雁作用,带动上下游协同共建与资源整合,做大行业供给底盘。为顺应智能体、具身智能、世界模型等前沿技术数据需求,《方案》紧跟技术跃迁趋势,加快推进相关方向的数据集建设,为人工智能技术跨越突破提供坚实支撑。同时,《方案》鼓励强化与国家数据基础设施建设有机联动,逐步推动数据集从分散持有向集约化、标准化供给转变。
二是实施标注攻坚行动,推动数据标注产业高质量发展。数据标注是将行业知识注入到数据集的关键环节,直接决定人工智能模型的行业适配能力。针对当前标注产业低端化问题,《方案》明确推动标注模式向“人机协同”与“专家标注”全面升级。面对标注企业小散弱、产业培育模式尚未成熟的现状,《方案》支持有条件地区开展试验区建设,带动产业链上下游协同集聚,培育一批具有核心竞争力的数据标注龙头企业。针对标注人才结构失衡、职业发展路径不清、岗位认同感低的问题,《方案》将人才建设作为产业发展根本支撑,扩大专业人才供给,完善技能等级认定与分层分类人才评价体系,畅通职业上升通道,增强行业吸引力。
三是实施提质增效行动,打造人工智能就绪的高质量数据集供给体系。针对当前数据建设普遍存在效率低下、标准不统一、质量难保障等痛点,《方案》按照“技术筑基、标准引领、测评把关”的思路推进数据集建设提质增效。攻坚数据采集、标注、处理全流程自动化工具与关键技术,发展合成数据,提升数据生产效率,破解数据获取难、建设成本高的瓶颈。加快构建国家、地方、行业联动的数据集标准体系,统一格式、标注等建设规范。创新“数据质量验证+模型应用反馈”的测评机制,推行统一测评方案与工具,实现“一次测评、全国互认”,为数据流通筑牢质量根基。
四是实施应用赋能行动,以场景建设牵引数据集价值释放。应用落地是检验数据要素价值的最终标准,只有深度融入实体业务,数据才能转化为现实生产力。当前,真实业务场景中产生的人机交互数据正成为驱动人工智能能力跃迁的关键,但多数行业尚未形成数据与应用相互促进的良性循环。《方案》以“人工智能+”应用为牵引,推动数据与产业需求精准对接。建立双向赋能机制,以模型应用牵引数据供给,以数据推动模型持续迭代。同时,打造一批数据赋能工场和数据赋能智能体标杆工程与典型案例,为人工智能落地应用提供可复制的实战样板。
五是实施管理服务行动,构建统筹发展与安全的数据集管理体系。《方案》坚持发展与安全并重,全面推进数据集建设体系更加规范有序。针对当前数据集建设缺乏统筹,低水平重复建设的问题,依托国家数据集管理服务系统统筹行业数据集资源,实现全局数据互联互通。同时,为保障数据安全,《方案》探索运用隐私计算等技术,构建覆盖数据全生命周期的追溯体系,确保各环节数据可管可控,并将伦理规范与公平要求贯穿数据集建设全流程,从源头防范人工智能安全风险。针对数据权益边界模糊痛点,落实数据持有、使用、经营三权分置制度,平衡权益保护与创新活力。
六是实施价值释放行动,打通数据集资产化商业化全链路。当前数据集仍面临价值难量化、商业模式单一、市场付费意愿不足等堵点。《方案》按照“产品化、资产化、市场化”路径破解数据价值释放难题,培育“为优质数据买单”的市场共识。探索以词元(Token)为基础的价值体系,建立健全利益分配机制,推动数据交易从基础数据包交易向API调用、按需订阅等高附加值形态升级。针对数据资产属性难以确权和变现的问题,开展数据资产盘点、登记与评估等试点工作,创新数据质押融资、作价入股等资产化模式,让无形的数据转化为有形资产。
三、完善支撑体系,保障各项行动落地见效
行业高质量数据集建设是一项跨部门、跨领域、跨主体的系统工程,涉及多方协调和资源整合。为此,《方案》构建了完善的支撑体系,确保各项任务扎实推进、落地见效。
一是强化统筹协调,构建高效协同的推进机制。建立“部门协同、领域联动”工作格局,国家层面强化顶层设计和统筹管理,依托国家数据集管理服务系统,持续跟踪建设情况,定期总结建设经验。各地落实属地管理责任,结合实际制定配套措施,加大组织实施力度。各类市场主体以应用需求为牵引,聚焦重点行业和关键领域开展数据集建设,积极参与行业协同共建。
二是优化产业发展环境,充分激发市场活力。鼓励各类主体在依法依规、风险可控的前提下开展创新探索。构建政府引导、市场主导的多元化投入机制。引导金融机构、耐心资本、产业基金加大投入力度,支持重点领域数据集建设。鼓励地方设立专项基金,为产业发展提供持续稳定的资金支持。
三是严守数据安全底线,筑牢全流程防护屏障。落实数据安全相关法律法规,建立全流程安全治理机制。强化技术防护手段,重点防范数据投毒与污染、数据泄露等安全风险。确保在安全可控的前提下推进数据要素流通应用,为人工智能产业健康发展保驾护航。