文 | 上海市数据局副局长 钱晓
人工智能发展范式正经历从“拼算力”“拼算法”向“拼数据”的关键跃迁,高质量数据已成为决定AI高度的战略性资源。日前,国家印发《关于推进行业高质量数据集建设行动的实施方案》(以下简称《方案》),以全链条思维系统部署了强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大行动,标志着我国数据要素市场化改革迈入“高质量供给”与“深度价值释放”并重的新阶段。上海作为全国数字经济与人工智能发展的前沿阵地,深刻把握《方案》核心精神,坚持先行先试,将高质量数据集建设作为激活“人工智能+”行动的核心引擎。
一、锚定战略方向,揭示数据由“潜力资源”向“AI关键生产资料”的跃升
《方案》在国家层面系统界定了行业高质量数据集的核心内涵与分类标准,明确其是经过标准化采集、专业化加工等全流程处理,可直接用于人工智能模型开发训练,并能显著提升应用效能的行业数据集合,具体分为行业通识数据集与行业专识数据集两类。
当前,通用大模型技术迭代趋于平稳,向千行百业的垂直深度落地已成为人工智能发展的必由之路,而高质量行业数据供给不足正是制约产业落地的最大瓶颈。行业数据普遍存在“来源分散、质量参差、覆盖不足”的供给短板,以及“合规风险高、获取成本高”的流通痛点,严重阻碍了模型性能优化与产业闭环形成。《方案》的出台,从顶层设计上将数据集从传统的“成本项”和“信息记录”,跃迁为AI时代的基础性、关键性资源。到2028年底实现“四个一批”目标:建成一批国际领先的高质量数据集、打造一批标杆性典型应用场景、培育一批具有核心竞争力的创新主体、形成一批统一规范的标准工具体系,旨在打通从数据供给到价值释放的全链条堵点,构建“场景牵引—数据供给—模型迭代—应用深化”的协同演进良性生态。
二、围绕落地实施,部署六大行动破解产业痛点
《方案》坚持问题导向与目标导向相统一,以覆盖数据全生命周期的系统思维,构建了闭环管理与推进体系,其中三个维度的创新突破尤为关键,为破解行业痛点提供了根本遵循。
一是供给与加工双向发力,夯实“AI-Ready”数据底座。“强基扩容”与“标注攻坚”两大行动精准契合人工智能向多模态、具身智能演进的技术趋势。一方面,全面拓宽数据供给渠道,既覆盖工业、医疗、金融等传统优势行业,又前瞻布局低空经济、智能驾驶等前沿新兴领域,重点强化多模态数据的采集与整合;另一方面,推动数据标注产业从“人力密集型”向“知识密集型”转型升级,大力推广“模型预标注+人工校准”“人工标注+模型检验”等智能化标注模式,建立行业专家深度参与机制,将专业领域知识系统性注入训练数据,显著提升数据的“知识密度”与模型适配性。
二是质量与应用双轮驱动,打造“数据飞轮”内生动力。“提质增效”与“应用赋能”两大行动直击数据建设与应用脱节的核心痛点。《方案》强调构建满足结构完整性、内容多样性、标注准确性、模型适配性的高质量数据集,推动“一次测评、全国互认”。更重要的是,创新性提出打造“数据飞轮”应用闭环,以实际应用需求牵引数据供给优化,以高质量数据赋能驱动模型迭代升级,通过“以用促建、建用结合”的机制,让静态数据在动态应用场景中持续沉淀优化,真正实现数据价值随模型迭代的指数级增长。
三是治理与价值双轨并进,探索数据要素市场化中国方案。“管理服务”与“价值释放”是《方案》最具制度突破性的内容。在治理层面,提出构建全生命周期管理体系,探索数据持有权、使用权、经营权“三权分置”的数据权益制度,为合规流通确权定分;在价值层面,创新性地提出探索以词元为基础的价值体系和交易模式,推动商业模式从基础数据包销售向API调用、全栈服务跃升,鼓励数据集资产化创新,并明确要求政府和国企带头采购,培育“为高质量数据付费”的市场共识。这从根本上为数据要素定价难、流通难提供了破题路径。
三、勇当排头兵,指引上海推进行业高质量数据集建设的实践方向
近年来,上海市深入推进数据要素市场化配置改革,率先启动高质量数据集建设先行先试。2025年,全市10家属地单位入选国家高质量数据集先行先试试点,5个案例获评国家典型案例;同步部署市级先行先试工作,累计遴选61个重点项目,覆盖工业、医疗、金融、农业、交通、外贸等核心领域。通过“国家-市级”两级试点联动,初步探索形成了一批可复制、可推广的建设路径与应用模式。未来,上海将结合《方案》部署,力争在高质量数据集建设中走在前列,重点要抓好六个方面。
一是强基础。加快完善数据采集、治理、标注、评测、流通、运营等基础能力,统筹推进基础设施和实训载体建设。
二是扩供给。加大行业数据开放力度,加快公共数据融合开发,形成稳定高效的行业数据资源供给体系。
三是抓重点。聚焦医疗、教育、城市治理、高端制造、金融、文旅、科研、航运、具身智能、政务等重点领域,分类推进行业高质量数据集建设。
四是促转化。围绕多模态采集、智能标注、数据合成、融合增强等关键环节加强技术攻关,推动数据集与模型、软件、硬件协同创新。
五是育生态。加快培育服务行业高质量数据集综合服务商、垂域标注企业和专业人才队伍,发挥开源社区等载体作用,形成协同联动效应。
六是强保障。健全标准规范、成效评估、安全合规和伦理治理机制,强化行业高质量数据集全过程管理。
行业高质量数据集建设是抢占人工智能发展先机、迈向智能经济时代的必由之路。上海将以全面落实国家《方案》为契机,持续深化数据要素市场化改革,全面激活数据要素潜能,加快构建“数据驱动、模型引领、应用赋能”的人工智能发展新格局,让人工智能更好赋能千行百业、惠及民生福祉,为我国建设全球人工智能创新高地、赢得全球科技竞争主动权贡献坚实的上海力量。