AI手语翻译数据标注赋能无障碍信息建设
申报单位:长沙千博信息技术有限公司、湖南省马栏山计算媒体研究院
推荐单位:湖南省数据局
一、案例简介
为解决全国2780万听障人群在教育、就业、办事等多领域存在的信息获取障碍,技术团队在国家通用手语等相关标准尚不完善,缺乏汉语、手语双语翻译专业人员的背景下,长沙千博信息技术有限公司等单位采取以点带面的线上推广方式组建了超750人标注团队,并利用数据增强模拟出更多样化的训练样本,有效解决了数据难以获取的问题。通过自研采集/审核平台将数据采集成本降低50%,时间缩短80%。手语翻译模型落地近千家机构应用,市场占有率达90%。
整体框架
二、举措与成效
一是采用数据增强的技术手段,解决了人工标注数据短时间内获取难的问题。在生成式大模型(AIGC)的基础上,用已有数据引导生成符合训练标准的视频和文字数据,弥补了训练数据50%的缺口,大大减少了模型训练对人工标注数据的依赖。
二是自研标注平台,不断迭代标注模式。技术团队根据标注需求自研标注平台系统,并逐步将手语翻译模型阶段性成果引入平台,使数据为模型训练服务,模型训练成果为提升标注效率服务。相比纯人工翻译标注,提升了150%的标注效率。
三是针对特殊群体打造个性化人才队伍建设模式。针对手语、汉语双语熟练人才稀缺、分散等问题,建立了院校、聋协等团体为单位统一召集的模式。采取聋人群体更加适应的师徒制,实现标注人才培训上岗平均耗时缩短50%。
三、特色亮点
一是基于数据集训练出的汉语-手语双向互译模型应用覆盖全国绝大部分地区。目前手语播报系统已在全国30个省超500家融媒体中心应用;公共服务产品已在上海嘉定等地近百家公共服务机构应用,网页手语已在近百个政府网站完成示范标杆建设。
二是汉语手语翻译支撑数据集种类丰富。建成手语词汇库、词素库,通用手语视频库,自然手语(方言)数据库等。训练语料已积累汉语到手语翻译千万字级(句对),手语到汉语识别80万条(视频),为打造手语AI系列产品奠定坚实的基础,也为手语语言学研究积累了丰富的资料。同时形成的各类手语数据标准,可为健全国家、行业手语相关标准提供支撑。
三是建立专业手语标注人才库。在高质量听人手语翻译稀缺,高文化水平、较高汉语理解能力聋人稀少的背景下,技术团队集聚了全国各特校、高校、社会聋人、手语爱好者等熟悉汉语、手语的采集员超750人。该标注团队是中国手语语言学研究的重要力量,也是支持中国手语翻译技术出海,进行国际化布局的后备力量。