文 | 清华大学公共管理学院教授、清华大学计算社会科学与国家治理实验室执行主任 孟庆国
党的十八大以来,以习近平同志为核心的党中央高度重视我国新一代人工智能发展。习近平总书记深刻指出:“人工智能是引领这一轮科技革命和产业变革的战略性技术,具有溢出带动性很强的‘头雁’效应。”“加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题”。数据作为人工智能发展的三大核心要素之一,已成为人工智能大模型训练的核心要素资源。因此,建设高质量数据集既是推进人工智能产业发展和抢占技术制高点的客观需要,也是落实党中央“加快发展新一代人工智能”战略部署的具体行动。
一、建设高质量数据集对我国发展人工智能的重大意义
(一)从国际竞争看,高质量数据集决定人工智能国家竞争力
在全球人工智能竞争的大格局下,大模型已成为各国争夺的战略制高点。随着大模型在经济、军事、政务、科学等诸多关键领域的广泛应用,其发展水平直接关系到国家的核心竞争力。高质量数据集作为人工智能发展的基础,能够为模型训练提供丰富、准确且具有代表性的数据资源,数据质量已成为决定大模型性能的核心变量,直接决定人工智能“智商”。当前,训练一个领先的大模型,需要数百万甚至数千万条标注数据。从GPT-4的13万亿tokens高质量数据(中文汉字通常每个对应1-2个Tokens),到Qwen2.5-Max的20万亿tokens训练规模,国际巨头正以数据优势构筑技术壁垒。谷歌、Meta、OpenAI等国际科技巨头,凭借在高质量数据集方面的长期积累和持续投入,在人工智能领域占据了领先地位。我国也将高质量数据集作为国家重大战略,加快高质量数据集建设,是落实“人工智能+”战略的关键举措。
(二)从技术演进看,高质量数据集对大模型水平至关重要
人工智能每次阶段性的进步,数据都扮演着重要角色,尤其在大模型时代,海量、高质量、多模态的数据集,成为拉开模型能力差距的关键要素。随着大模型技术应用的快速发展,人工智能正在从“以模型为中心”转向“以数据为中心”。人工智能模型训练和应用主要包括模型预训练、微调和推理三个阶段,无论是在预训练阶段构建人工智能大模型的通用语言理解能力,在微调阶段优化特定任务表现,还是在推理阶段提高模型的输出准确性和稳定性,高质量数据集都发挥着至关重要的作用。它不仅决定了模型的性能上限,更直接影响着人工智能技术在实际场景中的落地效果和可信度。大模型参数规模指数级增长与多模态能力的拓展,促使数据需求从量级积累转向质量提升。当前大模型逐渐向推理和多模态大模型演进,要求很强的推理能力和通用泛化能力,要求的数据集具有高技术含量、高知识密度、高价值应用的“三高”特征,成为当前高质量数据集建设的核心特征。
(三)从产业层面看,高质量数据集是行业智能应用的核心支撑
通用大模型具有很强的泛化能力,随着模型参数规模和数据集质量改善,其逻辑、推理、写作、数学等通用能力快速提升,但行业知识方面则显不足。当前,行业大模型是支撑行业智能化的关键,各行各业智能化要求建设行业高质量数据集。大模型行业应用正成为AI产业应用和价值创造的主战场,也是企业竞争的行业壁垒。Anthropic Claude大模型,靠其在编程领域的优势,年收入至50亿美元,凸显了其巨大的商业价值。目前,智能制造、金融投顾、医疗健康、政务服务、交通物流、教育科研等领域的行业大模型不断涌现,AI产业已从通用大模型竞争转向“行业大模型+垂直场景”的深水区。行业大模型的价值创造依托“数据飞轮”形成闭环:采集行业数据→标注生成高质量数据集→训练优化模型→反哺业务场景→产生新数据。
二、我国高质量数据集建设迈入快车道
(一)从政策设计看,我国高质量数据集建设的“四梁八柱”逐步确立
党中央、国务院高度重视数据资源的开发利用与高质量发展,陆续出台多项纲领性政策文件,为高质量数据资源体系建设提供了顶层设计和制度保障。2022年12月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》,明确提出探索开展数据质量标准化体系建设。2023年12月,国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》,强调数据要素高质量供给与合规高效流通,提出打造高质量人工智能大模型训练数据集。2024年12月,国家发展改革委、国家数据局等部门印发《关于促进数据产业高质量发展的指导意见》,首次明确提出“高质量数据集”概念,将其作为人工智能与实体经济融合的核心载体,并对行业数据集建设提出具体要求。随后一系列政策相继发布,《关于促进数据标注产业高质量发展的实施意见》《关于促进企业数据资源开发利用的意见》以及《国家数据基础设施建设指引》等政策均提出建设“行业高质量数据集”,由此数据集高质量发展成为行业发展的重要目标。2025年2月,国家数据局组织27个部委召开高质量数据集建设工作启动会,全力推动高质量数据集建设,高效赋能行业发展,标志着高质量数据集建设进入系统化、规模化推进阶段。
(二)从产业布局看,以数据标注为牵引驱动的产业链条不断形成
数据标注是对原始数据进行采集、清洗、分类、标记、质量检验等专业数据治理活动,能有效提升数据供给质量,是人工智能发展的关键环节。数据标注产业链上游是人工智能数据提供方和应用需求方,主要从事人工智能研究、技术开发与服务,根据自身业务提出数据需求,作为数据智能化应用需求的源头驱动产业发展;中游是数据标注平台公司,主要依据需求开展数据标注技术研发、制定加工实施方案和交付,众包、分包给第三方数据标注服务方,通过标准化流程连接供需两端;下游服务商依托人力资源优势完成具体标注任务,形成产业闭环。当前,我国人工智能产业快速发展,带动了数据标注产业迅速壮大。
(三)从建设图景看,区域和行业高质量数据集呈现良好发展态势
在地方层面,国家数据局统筹建设成都、沈阳、合肥、长沙、海口、保定和大同七大数据标注基地,已建设行业高质量数据集524个,数据总规模超过29PB,赋能163个国产人工智能大模型研发与应用,带动数据标注行业相关产值超过83亿元。在行业层面,中央企业和大模型技术企业成为行业高质量数据建设的主力军。例如今年4月,国务院国资委发布首批10余个行业30项央企人工智能行业高质量数据集优秀建设成果。在企业层面,大模型企业纷纷建设高质量数据集,并增大了中文数据的使用比例。例如阿里巴巴发布中文问答数据集,为智能问答系统的研发提供了高质量的训练数据。智源研究院发布中英双语数据集IndustryCorpus1.0包含3.4TB开源行业预训练数据,覆盖18类行业。鹏城国家实验室开源百万规模标准化具身智能数据集,超过300万样本,覆盖258个系列任务和321064个具体任务实例。上海人工智能实验室开源数据平台OpenDataLab提供5500多个数据集,涵盖1500多种任务类型,总数据量达到80TB。另外,国内多数模型使用的中文数据占比已经超过了60%,如中国移动的九天、中国联通元景、月之暗面的Kimi 1.5、DeepSeek等,文心一言占比高达75%~85%。
三、发展数据标注产业支撑高质量数据集建设的路径
(一)需求牵引:释放场景标注需求
通过挖掘人工智能场景释放标注需求,包括释放公共数据标注需求、挖掘企业数据标注需求,以开放场景牵引企业发展。我国大力实施“人工智能+”行动计划,推动工业制造、文化旅游、现代农业、商贸流通、交通运输等行业成为产业智能化主战场。这一战略将释放海量数据标注需求,例如成都发挥人工智能1079亿核心产业产值、1006家企业的规模优势,成立人工智能和数据标注产业联盟,组织产业对接活动,发掘数据标注年需求超3000TB。
(二)因地制宜:发展地方特色产业
各地结合自身产业特色,因地制宜发展数据标注产业。比如,山西大同重点结合能源、文化旅游、交通运输等特色产业,发展数据标注产业。辽宁沈阳重点赋能工业制造、交通运输等优势产业。安徽合肥重点在芯片制造、自动驾驶等领域释放数据标注需求。湖南长沙数据标注基地与文化娱乐、医疗健康、旅游服务等特色产业深度融合。四川成都重点在交通运输、医疗健康、普惠金融等产业发力。海南海口数据标注服务于金融服务、教育教学、互联网安全等特色产业。
(三)基础支撑:建设可信数据空间
各地通过建设可信数据空间,为数据标注提供可信的数据采集、传输、归集、处理、加工利用的基础设施,支撑数据标注产业发展。2025年1月,中国联通联合成都、沈阳、合肥、长沙、海口、保定、大同等发起共建数据标注产业可信数据空间倡议,将运营商网络优势与大数据存算、区块链可信凭证、隐私计算及大模型智能分析等技术融合,从网络支撑、数据存储计算、信任保障、隐私保护及智能标注等方面创新,打造集可信管控、资源互联、联合标注、高质量数据集流通、价值共创于一体的产业空间。
(四)产业聚集:推动园区集群发展
据中国信通院数据显示,全国有55个城市已经建设67个数字标注基地项目,主要重点一、二线城市占比达到60%以上,普通地级市占30%左右。四川、北京、浙江、山西等多个省份拥有多个数据标注基地,形成规模化的数据产业发展。成都市数据标注产业发展初见成效,引进和培育标注企业45家,带动数据标注相关产值14亿元,形成各行业领域的高质量数据集56个,赋能行业大模型等30个。沈阳基地标注数据超过2384TB,数据标注产业产值达到17.8亿元。
(五)营造环境:完善标准与服务平台
各地通过建立公共服务平台、制定国标地标、建立人才实训基地等营造发展环境。例如,沈阳成立推进国家级数据标注基地工作专班,由市委、市政府主要领导任组长,统筹高位推进建设;保定市每年投放2000万元“数智券”支持数据普惠供给,对参与国际、国家、行业标准制定的单位最高资助30万元;贵州按实训学生每人每月不超1000元、补助时间不超3个月、每家基地每年补助不超300万元的标准,支持人才实训基地建设;成都建设城市级智能数据标注生成管理平台,集成需求归集、任务发布、数据供给、环境搭建、服务管控等全链功能,推动公共数据合法合规投放,提供共性服务能力。