肺结核影像精标注高质量数据集
推荐单位:国务院国资委
申报单位:中国联合网络通信有限公司
一、背景
随着人工智能的深入应用,高质量数据集成为推动AI模型发展和提升医疗服务水平的关键。通过与“三医”政府部门、头部医院以及科研院所合作,中国联通构建了多模态医疗卫生高质量数据集,并在数据治理、安全合规、标注自动化和数据增强等方面形成了一套完整的实践方案,以满足辅助诊断、药物研发和智能监管等应用场景的需求。
医疗多模态数据标注平台能力体系
二、方案和成效
一是实施合法授权的数据采集,确保安全合规。中国联通与首都医科大学附属北京胸科医院等机构紧密合作,完成20000余例胸部CT影像标注,各类数据通过合法授权获取,数据来源明确,确保了数据权属清晰、来源可溯。
二是开展全流程医疗数据治理,保障数据质量。构建“领域问题-本体设定-知识规则-专家语义-论证评估-生产验证-入表入库”的全流程医疗数据治理工作范式,联合专家团队制定了17类胸部CT影像征象标签和标注标准;采用双盲标注和分级审核等方式,确保核查数据标注准确性超过95%。
三是开发适配工具和算法,提升标注效率。整合文本、图像、语音、视频等不同模态的数据标注工具,通过开发标签阈值自动化适配工具和预标注算法,将胸部CT影像标注产出从原始的50例/周提升至1800例/周。
四是推动技术、管理、模式和机制的全方位创新。实现主动学习标注范式提升自动化标注效率的技术创新,建立临床专家与工程师共同标注评估的管理创新,开创医疗行业数据全流程治理的模式创新,形成跨系统高效汇聚流转的机制创新。
三、创新点
一是技术创新提升效率、保障安全。通过多模态医疗数据半自动化标注提升效率,构建数据沙盒监管机制确保数据安全合规。
二是模式创新确保数据质量。开创医疗数据全流程治理模式,即“领域问题-本体设定-知识规则-专家语义-论证评估-生产验证-入表入库”,保障数据质量,形成预标注算法与人工校验相结合的标注模式,提升标注效率与一致性。
三是管理创新打造数据权威性。建立临床专家与数据工程师共同参与的讨论制度,保障数据权威性与可信度,引入AI模型监控数据集完整性、准确性。