AGI智能化时代的AI数据标注平台创新
申报单位:杭州蚂蚁酷爱科技有限公司
推荐单位:浙江省数据局
一、案例简介
在大模型时代,高效低成本数据标注与优质行业数据成为释放AGI价值的关键。杭州蚂蚁酷爱科技有限公司推出了AI数据标注平台,通过“垂类大模型+智能标注”融合策略,实现长思维链标注、智能质检、数据合成等功能,并重构数据生产范式,实现“质量-效率”双重突破。该平台已应用于自动驾驶、互联网、金融、医疗健康等场景。在某支付平台风险识别场景中,提升风险对抗能力20%,运营效率30%。截至2025年3月,平台累计处理超PB级标注数据。
图1 总体框架
二、举措与成效
一是多个标注智能体协同,显著提高数据标注效率。通过伴学Agent等智能标注技术,优化了标注规则和培训流程,缩短标注人员培训时长30%;通过知识注入的辅助标注Agent,数据标注效率提升40%,高质量交付率增至90%。
二是以数据评估为导向,明显提升了标注质量。建设“标注→质量评估→策略优化→标注”的反馈闭环,通过数据多维质量评分,小规模数据效果验证微调,提高数据标注质量。在某推理场景下,模型评估在MATH 500和AIME 2024等常用Benchmark有5%的提升。
三提高风险对抗能力,提升资金和内容安全水位。在某支付平台风险识别中,提高风险对抗力20%,运营效率30%。有效保护了超300 亿资金免受盗用等威胁;日均处理60亿条信息,准确拦截违规内容。
四是对外技术赋能,支持国内外多个行业智能化升级。在教育、医疗领域,实现行业知识库的精准构建,服务接受度提升30%以上。在安全风控领域,通过“模型决策+智能标注”,形成数据优势,提高风险识别能力,帮助多家海外机构解决亿级用户的eKYC难题。
三、特色亮点
一是推出长思维链标注,提高大模型的训练效果。针对DeepSeek等强化学习推理模型的新技术趋势,平台创新推出“思维链标注”能力,应用在数学、代码、金融、安全等场景。在某金融场景,平台支持的思维链数据推动大模型FinEval等常用Benchmark 5%~10%的提升。
二是实现高质量数据合成,有效补充数据规模,提高数据质量。通过知识注入、种子数据增广、反事实推理、强化学习、人机协同,实现数据合成,有效扩大数据规模,解决垂类高质量数据短缺问题。在某金融场景,合成数据扩充了30%的数据交付量。

图 2 总体流程
三是通过辅标Agent + 插件市场,提高标注效率。根据不同标注任务,辅标Agent(界面内嵌AI助手)从插件市场中,灵活组装标注能力,实时推荐标注路径,自动补全标签,大大提高标注人员效率。在某石油场景,提高标注人员20%的标注效率。