专家解读 | 深圳市高质量数据集建设探索与实践

  • 2025.08.23
  • 来源:国家数据局
  • [ 打印 ]
  文 | 深圳市政务服务和数据管理局党组书记、局长 周剑明
  深圳市委、市政府深入学习领会习近平总书记关于人工智能的系列重要论述,深刻把握其核心要义与实践要求,切实把学习成效转化为前瞻布局、创新突破的强大动力,大力开展“人工智能+”和“数据要素×”行动,奋力打造具有国际影响力的人工智能先锋城市。数据作为人工智能的核心要素,训练数据的规模质量决定了人工智能发展的高度,深圳以建设人工智能全域全时全场景应用先锋城市为牵引,积极探索高质量数据集建设的特色实践路径。
  一、紧扣全市战略,统筹规划建设方向
  (一)强化统筹推动人工智能发展。深圳市从强化统筹、政策引导、科技创新、应用牵引、要素保障、生态培育、规范治理七个方面全面发力,推动人工智能建设。市政府层面持续开展“人工智能+”和“数据要素×”联动调度,确保人工智能发展与数据建设有机协同。组建实体化运作的市人工智能产业办公室,开展产业发展集中攻坚。出台《深圳市打造人工智能先锋城市的若干措施》《深圳市加快打造人工智能先锋城市行动计划(2025-2026年)》等文件,加强政策规划指引。
  (二)呼应人工智能产业数据需求。深圳人工智能产业链条完备,综合实力位居全国第一梯队,现有人工智能企业2600余家。相关产业链覆盖芯片、模型、硬件及应用等全环节,既有华为、腾讯等龙头企业稳步牵引,优必选、众擎等机器人产品不断突破,元戎启行、城市之光等全车智能技术持续进步,还有打造了全球首个工业多模态大模型的思谋科技、建立药物研发智能化新范式的晶泰科技等创新型企业。人工智能产业快速发展催生了对高质量训练数据的迫切需求,也成为深圳高质量数据集建设流通的驱动力。
  (三)紧跟全市战略谋划数据集建设。深圳高质量数据集建设贯彻全市“人工智能+”和“数据要素×”发展战略,对照形成“场景应用最开放、算力供给最普惠、产业生态最健全、创新创业最便捷”的产业发展环境、建成具有国际影响力的人工智能先锋城市目标要求,聚焦数据要素市场化配置改革主线,坚持应用导向,面向产业发展要素需求供给,加强创新生态建设,全面构建高质量数据集供给、流通、应用体系。
  二、聚焦数智融合,系统推动建设培育
  (一)加强政策制度标准引领。深圳市出台专项资金政策,明确2025-2026年每年发放最高5000万元“语料券”专项资金,资助语料数据采购和开放。同步发布“训力券”“模型券”以及人工智能行业应用和政务应用场景开放等资助政策。发布建设机制指引,结合深圳市中级人民法院等单位探索经验,编制《推进人工智能行业大模型落地路径探索指引》,指导政府部门大模型应用和语料建设。组织学习借鉴美国、德国、阿联酋等国家地区人工智能和数据协同建设经验,印发工作方案,加快推进相关领域建设和人工智能创新发展应用。建立公共数据语料制度标准,起草公共数据语料汇聚加工、质检运营、安全合规等全流程业务共10项机制规范、12份技术标准,规范语料数据建设使用。开展知识工程建设探索,面向大模型能力提升所需的法规政策、经验方法、思维链等高阶知识需求,深圳市政务服务和数据管理局会同宝安、福田等区结合政务人工智能应用建设经验,探索形成知识工程方法论指导实践。
  (二)促进数据集建设与流通。开展公共数据语料建设,印发《深圳公共数据语料集(训练类)建设工作方案》,基于政务云搭建语料智能标注平台,已汇聚全市3.5PB公共数据语料开展加工标注,涵盖生态环境、交通运输、文化旅游、科学研究等领域。同时,罗湖区探索整合辖区内市区两级医院资源,建设医学语料库,支持病理、脑神经、GCP等领域开展深度合作,一期建设语料规模预计超过3PB。推动行业高质量数据集建设培育,根据国家数据局关于行业高质量数据集建设部署要求,起草全市建设推动方案,组织各区各部门、相关行业协会和代表性企业开展行业高质量数据集建设,形成29个市级储备项目加强培育。先后向国家数据局报送高质量数据集备选项目5个、典型案例10个、数据标注案例17个,其中交通领域高质量数据集项目获国家专项资金支持。深化高质量数据集流通交易,依托深圳数据交易所、市数据要素流通服务中心等平台,探索建立数据集确权、登记、评估、交易、结算等机制,上架严选高质量数据集42个,持续深化语料数据撮合交易。深圳数据交易所建设跨境数据专区,深化与国际数据企业战略合作。探索提升数据集融合供给能力,结合公共数据资源授权运营和可信数据空间建设探索,支持高质量公共数据和企业数据等融合应用,已在征信金融、气象、商保理赔等领域开展试点,取得较好成效。
  (三)培育语料创新生态体系。加强行业整合性平台建设,深圳市成立人工智能语料联盟和开放算料专委会,发布1100多个多模态开源语料数据集,推动高质量数据集建设、开源开放和流通。市人工智能行业协会、产业协会、人工智能与机器人研究院等机构积极发挥平台整合优势,助力产业政策落实,推动行业高质量数据集供需对接和流通整合。打造具身智能数据采集实训基地,依托广东省具身智能创新中心,在深圳市宝安、龙华等区建设具身智能数据采集基地,构建具身智能开源开放平台和多模态训练开源数据集,依托深圳数字孪生先锋城市建设推动打造城市级仿真训练平台,加快赋能具身智能、自动驾驶等领域大模型实训。开展素养培训和开发者社群打造,举办11期集中培训班和12期专题讲座,超3000人次参加,有效提升政府部门领导干部和业务人员人工智能应用与语料建设素养。推动构建开发者社群,扩大开发者关系网络,开展技术、标准、认证等系列培训。
  (四)引导数字深圳联合创新。深圳市组建数字深圳联合创新中心,以“人工智能+”“数据要素×”赋能高质量发展为主线,坚持政府引导、市场主导,“先实验、后实战”,打造政府、企业、科研院所、投资机构、交易服务机构、专家智库等多方参与的联合创新生态格局。创新中心下设人工智能、数据要素、数字孪生等专业实验室,现已完成首批10个人工智能应用场景需求开放,结合公共数据语料和行业高质量数据集支撑,推动人工智能应用创新发展。
  三、深化领域赋能,彰显建设实践成效
  (一)政务领域应用不断深入。深圳政务领域人工智能应用正实现从技术落地向效能转化的纵深推进,在多层级治理场景中涌现出诸多创新实践。深圳市中级人民法院建成全国首个人工智能辅助审判系统,正式启用首个司法审判垂直领域大模型,在最高人民法院提供的案例库、法答网、法信等权威知识体系支持下,形成万亿汉字规模语料库,法官办案所需的法律法规、条文释义、裁判规则、权威案例、法律观点等均实现覆盖。自2024年6月28日上线人工智能辅助审判系统,至2024年底,实现平均结案时间缩短38天,2025年第一季度又进一步下降19天;法官人均结案495件,同比增加74件。深圳市政务服务和数据管理局上线全国首个面向公众的实用型AI政务助手“深小i”。在充分收集国家、省、市关于政务服务的法律法规、政策文件、办事指南、常用问答等数据资料并开展精细化治理的基础上,围绕企业开办、社保、公积金等8个高频重点领域,梳理出超350万字精细化专业知识图谱。遴选优质基座大模型,采用“通专结合”的大模型组合技术路线,推动实现全市域、全领域、全智能的政策解答和办事指引,并围绕高频重点服务事项上线边聊边办、智能辅助申办等功能,协同“@深圳—民意速办”服务体系,实现“智能应答+人工客服”的协同应用,打造全周期、全流程、全闭环“AI+政务服务”工作体系。目前,“深小i”日均处理咨询量超2万件,在政务办事领域应答率超过97%,解答准确率超过94%。根据近4000份调查问卷反馈,超过92%的用户认为“深小i”解决了他们的问题。精准高效的智能服务降低了企业群众政策获取和办事成本,有效提高了服务效率。深圳市福田区基于DeepSeek升级打造福田区政务大模型2.0版,归集1.2亿条近十年各类政务数据,构建覆盖政策法规、办事指南、历史案例等专属知识图谱,在此基础上打造70名AI“数智员工”,业务覆盖会议纪要、公文写作、工单分拨等11大类278个政务场景。“数智员工”上岗后,实现公文格式修正准确率超95%,审核时间缩短90%,民生诉求分拨准确率从70%提升至95%,企业招商分析筛选效率提升30%。
  (二)行业创新发展持续涌现。高质量数据集正成为驱动产业创新的基石性要素,持续释放多行业变革动能。深圳国家高技术产业创新中心构建全国首个创新情报高质量数据集,拥有由超过1.1亿条机构数据、1.4亿条专利数据、100亿条舆情数据、3900万条人才数据、3000万条行业特色数据等构成的数据集,打造覆盖34类实体、56种关系的多维关联知识图谱。面向政府部门研发产业监测、招商引资等应用矩阵,赋能产业基础摸底效率提升50%、重点赛道筛选精准度提升60%。中国联通深圳分公司建设联通AI数据集管理平台,构建覆盖多模态数据“采、洗、标、测、用、评”能力,平台全流程智能化占比65%,数据可用率超95%,匿名化准确率超99%,打造自动驾驶、具身智能、通信、金融等八大行业数据集,赋能超百个模型训练调优。深圳华大基因股份有限公司基于3500多万例检测数据、超100PB测序数据基础,构建中国人群精准数据库,填补东亚人群遗传数据库空白。自研的AI标注系统致病变异注释准确率达99%以上,效率提升3倍,降低基因检测成本50%,实现核心工具100%国产化。深圳市南山区联合北京大学深圳研究生院、深圳埃空间科技、鹏城实验室等单位,创新性融合数十万条高价值冷冻电镜专有数据、200TB动态蛋白数据、百亿级蛋白质数据库条目,建成高质量蛋白质设计数据集,将早期药物发现周期从传统的24个月缩短至5个月、药物发现研发成本降低60%。
  当前,高质量数据集已成为“人工智能+”创新发展的核心引擎,深圳将在既有探索实践基础上,面向人工智能与数据要素产业生态协同发展深层需求,进一步推动政策法规创新,强化应用场景牵引,健全要素支撑体系,找准痛点、难点、发力点,深化高质量数据集建设应用,为人工智能创新和数据产业繁荣注入持续动能。
附件: