文 | 阿里云智能集团副总裁 李俊平
当前,人工智能正从通用对话迈向智能体自主执行的全新范式,数据作为驱动这场变革的核心燃料,其战略价值被前所未有地放大。国家数据局近日就《关于推进行业高质量数据集建设行动的实施方案》(以下简称《方案》)向社会公开征求意见,此次《方案》发布恰逢智能体技术从实验室走向大规模产业应用的关键窗口期,既为数据要素与人工智能协同演进指明了方向,也为云计算平台支撑行业高质量数据集建设提供了政策框架。
一、数据是助推人工智能发展的战略资源
《方案》开宗明义指出,行业高质量数据集是“推动‘人工智能+’赋能千行百业、实现产业落地的基础性、关键性资源”。这一判断深刻揭示了当前人工智能产业演进的底层逻辑——模型能力的边界,本质上由数据质量决定。
从产业实践看,大模型正从“说得好”迈向“做得到”。2026年5月,阿里云发布旗舰模型Qwen3.7-Max,在持续夯实知识推理、语言理解与指令遵循等基础能力的同时,全面升级原生Agent能力,编程、推理等多项测评表现比肩全球顶尖模型。支撑这一能力跃迁的底座,正是覆盖上述关键领域的高质量行业数据集——缺少行业数据的深度滋养,模型便难以真正触达千行百业的核心业务逻辑。
《方案》提出“面向人工智能预训练、指令微调、强化学习、测评等各阶段,持续推进多模态高质量数据集建设”,直击行业痛点。当前,高质量数据集建设与人工智能发展需求之间仍存在错位:一是数据集质量参差不齐——多源异构数据加工标准不一致,思维链等隐性知识缺乏或难以获取;二是模型训练需求难以清晰描述——需求定义与规范化困难、训练目标量化极其复杂、业务目标到数据需求之间存在转化断层;三是数据集与模型训练需求不匹配——模型需要的领域数据集缺位,或整个数据集的分布存在不均衡、不匹配。《方案》部署的“强基扩容”“应用赋能”等行动,正是要打通供给侧和需求侧的瓶颈,为人工智能发展提供充足的战略资源。
阿里云在实践中深刻体会到,数据价值释放需要基础设施的有力支撑,我们推出的AI-Ready数据底座,通过一站式数据管理平台DMS等平台实现多源异构数据的统一接入与治理,让企业数据能够被AI Agent高效调用。这一探索与《方案》提出的“强化与数据基础设施建设有机联动”高度契合——只有将数据基础设施与数据集建设深度耦合,才能真正实现数据从分散持有向集约化、标准化供给的转变。
二、智能体应用为数智协同开启新赛道
《方案》首次在国家级政策文件中明确提出“面向智能体等新型智能应用形态,加强知识库、知识图谱、本体等数据集建设,加快复杂任务规划、长程推理、人机交互、决策执行等数据集建设”,这标志着智能体应用已从产业探索上升为国家战略布局的重要组成部分。
智能体是大模型走向产业落地的核心载体。不同于传统的对话式AI,智能体具备自主感知环境、制定计划、调用工具、执行任务并根据反馈动态调整的完整闭环能力。产业实践正在印证这一趋势,近期阿里云宣布全面迈入Agentic时代,打造面向智能体的全新AI服务平台“千问云”,将150多款模型封装为Skills和CLI工具,为智能体开发提供全栈基础设施支撑。
智能体为“数智协同”开辟了全新赛道,主要体现在以下三个递进层次。
一是智能体驱动“数据飞轮”加速转动。《方案》提出“以模型应用牵引数据供给、以数据驱动模型迭代,打造‘场景—数据—模型’协同发展的良性循环”。智能体在执行任务的过程中,持续产生高质量的交互数据、决策轨迹和工具调用日志,这些数据经过结构化处理后,成为行业高质量数据集的重要来源。数据不再是静态的“一次性消耗品”,而是在智能体应用闭环中持续增值的动态资产。
二是智能体重塑数据集建设范式。传统数据集建设以人工标注为主,成本高、效率低、覆盖面有限。智能体时代,数据集建设正在向“模型预标注+人工校准”“模型预标注+模型检验”等智能化模式转型。阿里云百炼平台支持Agent自主调用企业数据,通过MCP协议实现“对话即分析”,大幅降低数据加工和标注的人力投入。《方案》提出的“推动数据标注从以人为主向人机协同转变”,正是这一趋势的政策确认。
三是智能体催生Token价值体系。《方案》富有前瞻性地提出“探索词元(Token)交易等新型交易模式,构建以词元为基础,可量化、可定价的数据集价值体系”。这与阿里云推出的Token Plan订阅模式形成呼应——当数据经过加工成为可计量的Token供给,数据的要素价值便有了统一的度量衡。数据从“卖原料”跃升为“卖服务”,商业模式实现从数据包销售向API调用、模型化解决方案的梯次升级。
三、依托智能体基础设施,加快建设高质量数据集
《方案》明确提出到2028年底的建设目标,要“建成一批覆盖重点领域、经过应用验证的行业高质量数据集”“培育一批具备领先优势的创新型数据企业”。实现这些目标,需要强大的智能体基础设施作为支撑底座。
从阿里云的实践来看,智能体基础设施对高质量数据集建设的赋能体现在以下几个维度。
一是构建AI-Ready的数据供给能力。阿里云提供从数据接入、治理到服务的全链路能力,支持企业将分散的业务数据快速转化为模型和智能体可消费的高质量数据集。通过沙箱隔离、并发处理等Agent原生能力,实现大规模数据的安全高效处理。这与《方案》提出的“推动数据集从分散持有向集约化、标准化供给转变”目标一脉相承。
二是以全栈Agent能力降低数据集建设门槛。千问云将模型能力Skill化,开发者可通过一行命令接入150余款模型,极大降低智能体开发与数据集构建的技术门槛。配合自研真武M890芯片带来的三倍性能提升和低于150纳秒的时延,大规模数据标注、清洗、增强等任务的处理效率得到质的飞跃。《方案》鼓励的“加强数据清洗、增强、标注、对齐、质检等关键技术攻关和全过程自动化工具研发应用”,在智能体基础设施上已有坚实的产品化落地。
三是打造“数据×智能体”产业示范。《方案》明确要求“打造一批‘数据×智能体’示范工程,树立高质量数据集成功驱动智能体解决实际问题的样板”。近期,阿里云与九大行业领军企业签约共建AI新生态,涵盖金融、制造、医疗、教育等重点领域,正是通过智能体实际落地应用,验证高质量数据集的应用价值,形成可复制的行业标杆。
四是探索数据集价值化的新路径。依托百炼平台的Token服务,企业可以通过订阅、按量计费等模式灵活获取和使用高质量数据集服务。这为《方案》提出的“发展‘订阅模式'’商场模式‘’定制模式‘等多元服务形态”提供了产品化实践样本,推动数据集从“资源”向“资产”的价值转化。
结语
《方案》的出台,体现了国家对数据要素与人工智能协同发展的深远战略考量。站在产业实践的角度,我们认为其核心价值体现如下:
从政策层面看,《方案》打通了从数据供给到模型应用的完整闭环,为智能体时代的“数据飞轮”提供了制度保障。高质量行业数据集的规模化建设,将成为我国人工智能从通用能力走向行业深度应用的关键突破口。
从产业层面看,《方案》以“数据×智能体”为抓手,推动数据产业与人工智能深度融合,持续催生智能经济新增长点。企业在使用智能体的过程中积累数据、迭代模型、优化服务,形成正向循环的产业生态。
阿里云将继续发挥在智能体基础设施、大模型服务平台、AI-Ready数据底座等方面的技术积累和产业实践优势,积极响应《方案》部署,携手各行业伙伴共同推进行业高质量数据集建设,加快“数据飞轮”转动,为数智协同新局面贡献力量。