多语种大模型数据集建设
推荐单位:吉林省政务服务和数字化建设管理局
申报单位:吉林科讯信息科技有限公司、科大讯飞股份有限公司
一、背景
2023年以来,全球范围内兴起了一股通用人工智能的新热潮,国内外大模型发展迅速,并在不同领域得到了广泛应用。数据(高质量数据)、算法(核心算法)、算力(基础软硬件)是支撑大模型创新发展的“三大支柱”。其中,高质量多语种数据是制约国产大模型多语种能力提升的关键瓶颈,这也促使以欧美为主导的大模型生态体系加速向全球拓展。本项目旨在构建覆盖200余种语言、总量超4000B Token的多语种无监督数据集,以及1500万条以上的高质量有监督数据集,为多语种大模型训练提供坚实支撑,推动国产大模型在多语种能力上实现对国际顶尖产品的追赶与超越。
多语种大模型数据库建设概要
二、方案和成效
一是开展技术攻关,突破多语种数据瓶颈。针对多语种数据稀缺、处理复杂等问题,聚焦三大技术方向攻关:研发高效分布式多语种网络数据获取平台,实现互联网数据“应采尽采”,并构建分布式存算管平台,支撑大规模数据高效处理与存储;创新基于文图解析的多源异构多语种数据处理技术,通过数据清洗与质量提纯模型,实现复杂结构数据的结构化解析与精清洗;开发基于多语种对抗样本学习的安全隐私判别器,结合人机质检,确保多语种数据合规性。
二是推进平台与基地建设,构建完善的数据生产体系。搭建“三平台一基地”的基础架构,包括分布式数据获取平台、多语种众智协作平台、分布式集群存算管一体化平台以及数据生产基地;创新人机协同标注模式,引入大模型机器预标注,实现机器性能快速迭代、数据自动分级分发与渐进式辅助标注,构建基于激励模型的自动质量评估算法,加强多语种数据质量把控。
三是推动数据应用落地,展现国际竞争力。基于本项目构建的多语种数据集,成功训练出多语言星火大模型。该模型在8个核心语种(阿拉伯语、西班牙语、俄语、葡萄牙语、法语、日语、德语、韩语)上,实现十余个国际权威多语种榜单的平均值超越GPT-4o等国际最优竞品。2025年4月,该技术作为中国唯一大模型展项亮相大阪世博会中国馆,向世界递出中国AI的“创新名片”。
三、创新点
一是注重多语种数据资源的广度拓展与深度挖掘。成功构建了涵盖200余种语言、总量达4143B Tokens的多语种预训练数据集,以及1677万条高质量的后训练数据,实现从“量”到“质”的双重突破,填补了高质量多语种数据集的空白。
二是依托技术创新攻克多语种数据处理难关。通过跨语言跨模态知识对齐技术,实现多语言语义空间精准对齐,解决不同语种、不同模态信息关联性差的问题;基于自主研发的多语言语义对齐技术,模型在语料稀缺的小语种场景下仍能实现高度的语义理解及文本生成能力。
三是助力中国AI技术“出海”突破。通过提升国产大模型多语种能力,打破国际巨头在多语种AI领域的垄断,实现多语种大模型能力在数学、综合考试、翻译、语言理解4个重点方向上赶超GPT-4o为代表的国际顶尖竞品,进一步推动智能汽车、智能家电等产品出海。