数据标注平台 赋能AI产业高质量发展
申报单位:安徽飞数信息科技有限公司
推荐单位:安徽省数据资源管理局
一、案例简介
针对数据标注基础人员能力差、优质数据资源少、复杂标注难度大等问题,安徽飞数信息科技有限公司提出AI助学、数据合成、人机协同等数据标注综合解决方案,打造飞智标数据标注平台。已累计为社会提供高质量标注人才超1万人,实现数据标注流程提效21%,大模型标注准确率98%以上,人力节约50%。
整体架构
二、举措与成效
一是AI助学快速提升标注人员知识水平。构建基于行业知识图谱的个性化学习和发展路径,实现学、练、考、标为一体的标注人才快速成长方案。已与20余所高校联建实训基地,培养具备教育、医疗、化学、先进制造等学科背景的专业标注人才超2000人。
二是数据合成保障优质数据稳产高产。基于“蒸馏”和模型自我进化数据生成算法,结合原始需求,通过自动质检和专家质检两种方式对合成数据进行严格质量筛选,输出高质量合成数据,在多个大模型行业应用任务中实现应用。
三是人机协作实现智能化标注工具链。集成图文、语音、视频等30余种AI预标注引擎,实现标注流程提效21%,人力节约50%。搭载140余个标注工具,涵盖音频、视频、图像、文本、点云等数据模态,实现标注效率提升100%。
三、特色亮点
一是创新人才培养体系,实现组织效能提升。通过构建行业知识图谱并利用协同过滤、认知诊断、智能推荐模型等AI技术,定制个性化学习路径,提升标注能力,搭建自有核心专业团队+高质量数据生产团队+供应商产能支撑+高校联建实践基地的组织体系,实现团队规模超5000人,线上标注平台注册众包人员50余万人,遍布全国300多个城市及海外100多个国家和地区。
二是搭建数据合成引擎,推动合成数据深度应用。基于应用需求驱动,融合多种大模型能力,研发设计动态适配性提示词工程,生成海量大模型交互答案构造、强化学习数据构建等合成数据,用于大模型预训练和辅助人机耦合标注,加速合成数据在AI领域应用,助力多个大模型赶超国际先进水平。
三是构建AI智能辅助标注工具集,助力人机高效协作。平台集成30余个辅助引擎及140余种标注和处理工具,能够自动化完成数据清洗、脱敏等预处理工作以及预标注、辅助标注工作,也可结合“多人标注+专家仲裁+自动质检”实现数据的自动抽检、正确率打分,充分赋能数据标注的前、中、后环节,极大降低了标注难度和人力投入。截至2025年3月平台数据生产能力数量超过1亿条,规模超1PB,总产值超1亿元。