首页  >  专题  >  数据标注

数据标注优秀案例集之二十七 | 高质量多模态医疗AI训练数据标注设施建设

  • 2025.06.03
  • 来源:国家数据局
  • [ 打印 ]
高质量多模态医疗AI训练数据标注设施建设
  申报单位:上海申康医院发展中心、上海数据集团有限公司、万达信息股份有限公司
  推荐单位:上海市数据局
  一、案例简介
  依托上海医联工程汇聚的海量优质医疗数据资源,对标国际医疗数据标注规范,建设医疗多模态数据标注基础设施,通过提供自动化、半自动化标注工具,并建立智能标注与人工复核的协同机制,构建涵盖24个主要病种的高质量医疗数据集,其中46.5万例的训练集和4.4万例金标准的测试集。数据标注成果支撑多家企业获得20余项NMPA医疗器械注册证,节省研发成本近2亿元,加快了我国医疗AI产品的临床转化进程。
整体框架
  二、举措与成效
  一是依托海量真实临床诊疗数据构建高质量数据集。基于上海医联工程已汇聚的优质多模态医疗数据资源,联合多学科临床专家以及来自多领域技术力量,围绕不同病种和解剖部位开展精细化治理,通过对数据清洗、脱敏、去隐私化、标注等标准化处理,构建了涵盖46.5万例的高质量医疗数据训练集。
  二是通过标准、工具、专业团队等多维度协同,构建高质量数据标注体系。围绕24个重点病种,通过凝练专家共识、组建专业数据标注团队、研发多模态医疗数据标注工具、落实“一标一审”、“两标一审”的标注规范,构建了标注精度高、可规模化生产的数据标注体系,已形成4.4万例金标准标注的测试集,显著提升医疗数据的可用性。
  三是以数据驱动提升临床诊疗效能,助力医疗AI创新发展。依托高质量标注数据,降低医疗AI产品研发时间和资金成本,加快其向临床服务的转化进程。相关成果赋能企业成功获取20余项NMPA医疗器械注册证,并在多家医疗机构落地AI应用,覆盖冠脉CTA、胸部DR、骨龄评估、消化道病理等多个领域,提供涵盖多病种的AI辅助筛查、图像分析、报告生成、随访管理等功能服务,全面提升临床诊断效率与准确性,推动我国医疗AI产业的高质量发展。
  三、特色亮点
  一是人机协同提升效率,降低标注成本。构建多模态数据的标注集成框架,在大模型训练基础上融合医学知识库,实现智能标注与人工审核的高效协同,提升标注的准确性,同时有效减少人工标注工作量,降低整体标注成本。
  二是强化标准管理,保障数据标注质量。制定严格的数据标注标准,明确各环节的操作规范与质量要求。设立专家团队明确检查节点,保障数据标注的精准性。同时,专家团队负责标注规范的全过程执行管理,收集临床反馈后定期更新规范,保障数据标注过程科学性强、时效性高。
  三是创新协作模式,促进数据流通利用。积极引入多方主体参与使用设施,为企业和科研机构提供研发与算力环境,形成“数据—技术—应用”联动的产业生态闭环,实现数据在多方间流通利用,加速医疗AI技术的迭代和产品的升级,助力行业发展。
附件: