高质量数据集典型案例 | 云南动物资源多模态高质量数据集构建及应用

  • 2025.10.27
  • 来源:国家数据局
  • [ 打印 ]
云南动物资源多模态高质量数据集构建及应用
  推荐单位:云南省数据局
  申报单位:中国科学院昆明动物研究所
  一、背景
  云南省作为全球生物多样性热点地区,既拥有丰富的动物战略资源,又面临严峻的生物安全挑战。大模型的迅猛发展,对高质量数据集的需求日益迫切。然而,数据孤岛化、标准缺失以及模型缺位等问题,严重制约了多模态数据的整合和应用。为应对这一挑战,整合了云南战略动物资源的4类核心数据以及968TB的多源数据。以知识体系为中枢,构建了高质量数据集,为科学创新、生物安全防护以及新药创制提供了有力支撑与创新范式,有力推动了动物战略资源应用的跃升。
云南动物资源多模态高质量数据集构建图
  二、方案和成效
  一是突破动物资源多模态数据处理瓶颈。
研发动物时空分布格局特征提取、动物标本三维模型特征提取等5类数据处理工具,自动提取文献、图书、图片、三维模型中的关键性特征,有效解决多模态数据规模化反演知识的难题。
  二是实现多模态数据融合及领域知识交互。以“宏观生态+物种表型+分子信息+生物安全”4类核心数据为基础,构建数据采集、预处理、标注、抽取等系统化数据治理体系。基于KG-enhanced LLMs技术,使用Neo4J、Qdrant和ChatGLM-6B等模型,实现领域知识高效交互,为构建完善领域生态提供高质量数据支撑。
  三是高质量数据集驱动生物安全防控及新药创制。依托高质量数据集,构建区域性“生物多样性全景图”与“生物安全态势”双示范,驱动重大科学发现与风险预警;建立了宿主-病原演化追踪知识图谱和病原快速鉴定平台,为省及国家的疫病防控决策提供了有力支撑,COP15附件建言被联合国采纳;通过知识挖掘筛选出多种多肽药物,并成功推动了临床新药的获批。
  三、创新点
  一是实现动物资源多模态数据语义关联。
构建动物多样性领域的多源异质语义推断模型,基于自主知识产权技术及平台的研发,显著提升跨模态数据整合效率与准确性,为构建高质量数据集提供核心支撑。
  二是建立生物安全智能风险防控决策体系。基于未知病原高通量快速鉴定平台、病毒谱系动态分析体系、宿主-病原演化追踪知识图谱,支撑重大疫病防控决策,实现在生物安全领域的技术保障与决策支持的双向并举。
  三是推动动物战略资源数据转化新范式的形成。以知识体系为中枢,将动物资源数据转化为高质量数据集,支撑数据产品的转化,实现了数据的高效利用,推动了战略资源数据整合、开发、利用模式的创新。
附件: