数据标注优秀案例集之三十七 | 中医药行业大模型数据标注

  • 2025.06.13
  • 来源:国家数据局
  • [ 打印 ]
中医药行业大模型数据标注
  申报单位:云南白药集团股份有限公司
  推荐单位:云南省数据局
  一、案例简介
  中医药行业存在数据模态多样、标注标准不统一、效率低等痛点。本项目从流程上定义了行业数据标注范式,构建采集、分类、翻译、标注等全流程管理体系;技术上融合Graph RAG,通过CV与LLM进行数据合成,实现了多模态数据应用;成效上构建了中药材质检、诊疗、营销等高质量数据集及应用,标注效率提升30倍,中药材质检效率提高50%,退换货成本降低1000万/年、营销复购率增长1000万。

图1 整体框架
  二、举措与成效
  一是构建中医药行业数据标注管理范式。针对数据模态多样、标注标准缺失等痛点,建立了涵盖采集、血缘标记、分类、翻译、标注全流程管理体系。提供OCR识别、古文翻译,图文关联等能力;同时定义层级标签形成多维度数据分级标准,指导构建中医药质检、诊疗、营销等场景近百万高质量数据集,覆盖三七、茯苓15万例,天然药物4618种。
  二是应用Graph RAG技术,实现多模态数据应用。针对图文关联技术不足、大模型上下文长度受限问题,构建多模态数据关联、聚类划分知识社区,生成知识图谱,支持混合检索与大模型问答,赋能一线销售管理,实现营销复购率增长超千万。

图2 多模态数据应用流程图
  三是研发自动化标注与合成数据技术,提升标注效率。针对人工标注成本高、耗时长等瓶颈,引入SAM模型实现图像智能分割,人工仅需修正20%结果,标注效率提升30倍,分拣效率提升50倍,年节约成本超千万。同时基于Self-Instruct方法利用大模型生成合成标注数据。合成数据支撑大模型训练,推动任务数据准备缩短60%。
  三、特色亮点
  一是构建中医药行业数据标准化标注体系,推动行业数据治理规范化。建立行业数据标注全流程管理体系,确保数据合规性与可追溯性。支撑行业数据共享与模型共建,联合产业链伙伴建立中药材数据共享联盟,推动行业数据标注标准化产业化。构建数据流通与应用,赋能中医药全产业链(种植、加工、流通、服务)。
  二是Graph RAG技术赋能精准诊疗与智能营销。基于大模型抽取长上下文关系,生成知识图谱;通过子图检索增强多模态数据关联,将复杂问题回答准确率提升10%。该技术驱动构建中医诊疗助手赋能基层医疗机构、产品营销助手赋能一线销售管理,推动中药材复购率年增长达千万级收益,计划扩展至千家药店,可推广其它场景应用。
  三是自动化标注+合成数据技术,实现数据标注效率提升。在图像标注利用通用CV模型实现自标注,利用领先大模型合成文本标注数据。完成百万条微调数据,几万条COT推理数据,为行业大模型训练数据标注提供示范。
附件: