小语种数据标注特色创新模式
申报单位:上海人工智能创新中心
推荐单位:上海市数据局
一、案例简介
上海人工智能创新中心针对数据标注行业普遍存在的管理粗放、效率低下、专业工具匮乏及人才短缺等痛点,以小语种语料处理为突破口,开展全链路技术攻关。通过自主研发Label系列全栈式智能标注平台,并配套制定标准化管理方案,形成技术、流程、规范三位一体的解决方案体系。目前,长视频标注任务由1000人天缩短至500人天,费用由80万元减少至20万元,提升效率50%,降低成本70%,小语种视觉问答对数据集构建周期缩短4万人天,费用节省约2000万元。该体系已形成可复制的标准化方案,有效破解了小语种场景下数据标注的规模化难题,为行业提供了降本增效的创新路径。
行业痛点及解决方案
二、举措与成效
一是针对专业标注工具缺乏问题,自研数据标注工具。针对大规模标注需求开发了标注平台Labeling和LabelLLM。Labeling面向机器学习标注需求,多模态数据标注能力强、标注流程标准化、标注工具丰富可定制;LabelLLM面向大模型对话式标注需求,配置灵活、AI辅助标注、多功能性与易用性结合。同时,为了更好的发挥工具优势,基于工具制定标准的工作流:首先,需求方输出详细需求文档,文档按统一格式进行规范;然后,结合需求制定任务计划,先小批量爬坡暴漏并解决问题,再大批量标注,同时安排质检,多重方案保证标注质量;最后,质检验收验证工作任务完成,保证进度和质量。
二是针对标注高成本低效率的痛点,制定分类解决方案。对于大规模中等质量任务,自研多模态大模型标注,阈值筛选,自动区分标注数据质量等级,使大规模任务转为小批量精细标注。对于中规模高质量任务,自研模型批量预标注,自主设计代码进行阈值筛选标注质量,中低质量数据经人工校准确保精确。对于小规模高难度任务,招募临时人员完成。小语种人才缺乏,可以通过与小语种知名高校建立合作关系,提前储备拥有国外资源的合作单位等,保证人员及时补充、保证对高专业性任务的资源支持。
三、特色亮点
一是数据标注技术创新。引入了自研大模型标注、翻译、安全检测技术手段。
二是质检技术创新。采用人机结合的方式,使用代码批量质检并自动输出报告,再抽取少量数据人工精准标注机检无法识别的主观问题形成人工质检报告。
三是标注工具创新。开发了Label系列标注平台,有效满足各类标注场景。
四是工作流程及项目管理模式创新。通过工作流规范及任务分级分类管理办法,灵活调动内外部资源,通过合作共建,确保标注任务高质高效推进的同时,也促进了标注人才的培养等。