视觉大模型自动标注一站式生产运营
申报单位:中国电信股份有限公司杭州分公司
推荐单位:浙江省数据局
一、案例简介
针对数据质量低、人工标注效率低等痛点,案例聚焦视觉智能领域,创新引入CV预标注技术和多模态模型实现自动标注的一站式生产与运营。目前已在工业制造、医疗健康等多领域落地,未来将推动非结构化数据标注标准制定,辐射向全国标注基地。
业务框架
二、举措与成效
一是AI辅助,提升标注效率。引入CV预标注技术和多模态模型,实现从数据预处理到模型上架的一站式生产运营,大幅降低人工成本。例如,常规需万级数据样本训练的模型,基于大模型万物识别能力和自动标注,仅需500个有效样本即可达到95%以上准确率,5000个有效样本可提升至98%以上。传统需10人用时一周完成的万级数据集标注任务,现单人仅需2-5小时,效率提升90%以上。
二是数据回流,挖掘数据价值。通过挖掘已标、未标数据潜在价值,以回流数据迭代优化大模型,便于规模化推广。如在工业质检领域,基于回流的布料瑕疵数据优化迭代,大模型检出率从85%提升至90%,已推广至全国10余家龙头纺织企业。在医疗健康领域,基于影像分割大模型的数据标注应用于全省医疗影像云,赋能各级基层医务人员。
三是数据融通,规范数据应用。已融入杭州市数据交易体系,通过政企数据融通构建非结构化数据授权运营模式,建立可信授权与合规审核的安全流通规范体系,分区分级运营公共数据与行业数据,规范全流程应用。
三、特色亮点
一是资源赋能,多领域场景应用。大模型基座支持4000+自然类标签集合,为安防、工业、医疗、自动驾驶等多领域提供精准数据服务。如城市治理场景中已敏捷转化应用于全国1000余家企业、园区和社区等。
二是灵活运营,破解高成本难题。创新“大模型预标注+人工校验”运营模式,简化数据加工过程,灵活调度标注人力资源,降本增效、敏捷响应,解决一线城市用工成本高、算力资源紧张等问题。
三是多级流通,反哺行业生态。依托空间产业生态形成完整产业链闭环。突破私域与公域数据的流通模式,沉淀高质量数据集回馈企业发展。基于场景累计产出1.4亿图文、7万小时语音及1.5T视频数据,为AI应用提供支撑。
四是产学研融合,人才实训培养。基于空间生态资源,联合成都、沈阳、保定等数据标注基地,推动产教融合的人才实训。通过配套培训课程、实训平台与实践环境,吸引生态企业和专业人才加入,助力产业可持续发展。