专家解读 | 筑牢数据基石,推动“人工智能+”创新发展

  • 2026.06.19
  • 来源:国家数据局
  • [ 打印 ]
  文 | 上海阶跃星辰智能科技股份有限公司创始人、CEO 姜大昕
  数据作为人工智能发展的三大核心要素之一,是支撑大模型训练、应用的关键基础。高质量数据集直接影响模型的“智商与品性”,也是制约“人工智能+”落地见效的基础性、关键性问题。
  习近平主席在向世界数据组织成立致贺信中指出,当今世界正在加速迈入智能时代,数据的基础资源作用和创新引擎作用日渐显现。国务院《关于深入实施“人工智能+”行动的意见》也明确提出要加强数据供给创新,以应用为导向,持续加强人工智能高质量数据集建设。国家发展改革委等部门也联合印发《关于促进数据产业高质量发展的指导意见》,加快深化数据要素市场化配置改革、构建以数据为关键要素的数字经济。近期国家数据局印发的《关于推进行业高质量数据集建设行动的实施方案》,充分回应了产业发展的迫切需求,非常及时、很有必要,必将为行业发展奠定更加坚实的基础。
  一、直击供给、质量的痛点:高质量数据“量质齐缺”
  从当前技术演进路线看,“缩放定律”(Scaling Law)依然是决定模型能力上限的核心逻辑,模型的综合性能、泛化能力,很大程度取决于训练数据的规模够不够大、质量够不够高、覆盖场景够不够多元。海量、高质量的数据是AI技术迭代的核心“燃料”,没有充足合规的数据供给,再顶尖的算法都难以突破能力瓶颈,大模型也将面临无米之炊:从“量”看,全球高质量中文语料占比严重偏低。中国工程院研究表明,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%。同时,西方国家类似Common crawl、开源数据集、素材网站相对比较健全,我国在数据开放度与多样性上还处于发展期,总体开源规模和应用广度有限;从“质”看,原始数据治理能力尚存短板,充斥着大量噪声、冗余和偏见,需要经过复杂的清洗、标注和治理才能用于模型训练。此外,还存在行业细分场景覆盖不足,长尾场景缺数据,专业领域(如法律、医学等)语料数字化进展缓慢、数据清洗难度大、标注成本高等问题。
  针对上述问题,《实施方案》打出三大行动组合拳。强基扩容行动聚焦国民经济主干道和未来竞争新赛道两大主战场,支持链主单位牵头组建产业链联合体共建数据集,明确要求链主单位面向行业开放数据集、赋能上下游中小企业,既解决了中小主体“建不起、建不全”的资源短板,也打破了公共数据“沉睡在库里出不来”的困局。标注攻坚行动将数据标注从“拉框工人”升级为“专家深度参与”的知识密集型产业,建立“行业专家认证注册机制”,让专业人士参与指令微调、强化学习等标注工作,解决了行业数据“标不准、专业度低”的短板。提质增效行动明确提出构建“人工智能就绪”(AI-Ready)的高质量数据集,推动“一次测评、全国互认”,让大模型企业不再需要在数据清洗上消耗大量精力。三大行动形成完整供给链路:强基扩容保来源,标注攻坚提质量,提质增效降成本。
  二、打通流通、应用的堵点:破解“数字库存”和“数据孤岛”
  有了高质量数据,还要让数据能够顺畅地流向模型和产业。目前还有大量高价值数据沉淀在政府部门、行业龙头和大型企业内部,受权属不清、安全顾虑、标准不一等制约,跨域流通效率极低。以工业领域为例,IDC统计显示我国制造业数据中非结构化数据占比超80%,但工业数据交易规模占全国数据交易总规模的比例不足7%,大量蕴含核心工艺知识的工业数据沦为“沉睡库存”。中小AI企业、创业团队拿不到合规高质量的行业数据,只能拿通用公开数据训练,模型专业适配性极差,很难落地到垂直场景。
  管理服务行动解决“敢不敢流”的问题。制度上,落实数据“三权分置”,完善训练阶段的数据使用规则,让各方明确权利边界;技术上,依托可信数据基础设施,强化隐私保护计算、区块链等应用,确保数据可管、可控、可追溯;应用赋能行动解决“流得好不好”的问题。方案提出的“数据飞轮”机制——用模引数、用数赋模,让“场景—数据—模型”形成闭环,数据在应用中产生反馈,反馈驱动数据迭代。
  三、创新价值释放的亮点:让数据从“成本”变“资产”
  长期以来,高质量数据集建设被视为“成本中心”,供给侧动力不足。价值释放行动从三个层面打破困境。第一,创新商业模式。推动从数据包销售向API调用、模型化解决方案梯次跃升,让数据价值“服务化”,实现持续收入。第二,探索资产化路径。鼓励数据集质押融资、作价入股等创新模式,让数据从“资源”走向“资产”,撬动金融资源。第三,培育市场共识。推动数据采买纳入政府和企业预算,以公共采购释放“数据有价”的强烈信号。
  从大模型企业视角看,最值得关注的是“词元定价”和“词元交易”的探索。Token作为大模型的基本计价单位,天然适合作为数据价值的计量尺度。按Token付费的精细化模式,将极大降低数据获取门槛。当数据能够真正“卖出价钱”,供给侧活力将被充分激发,市场进入良性循环。
  作为一家以实现通用人工智能为目标的基础大模型企业,阶跃星辰坚持“更好地发现和组织世界知识”的理念,搭建了世界一流的数据科学家和数据工程师团队,构建了完整高水平的数据流水线,能为不同尺寸的模型训练提供各种体量的高质量训练语料集,并在多模态数据处理、应用方面积累了丰富经验和独特优势,支撑基座大模型的持续进化。我们期待,在主管部门指导和《实施方案》等政策指引下,携手行业伙伴,坚持以高价值数据驱动模型能力提升,以模型反馈反哺数据优化,打造模数共振的增长飞轮,为数据赋能人工智能创新发展贡献力量。
附件: