首页  >  业务频道  >  数字科技和基础设施

高质量数据集典型案例 | VenusPod蛋白质序列数据集

VenusPod蛋白质序列数据集
  推荐单位:教育部
  申报单位:上海交通大学
  一、背景
  2024年诺贝尔化学奖授予AlphaFold,标志着生命科学正从“实验驱动”向“数据与计算驱动”的“科学智能(AI for Science)”范式演进。现有蛋白质和酶的数据库在深度、广度和功能标注维度上均存在不足,导致AI模型难以对海量蛋白质中的“暗物质”进行探索和优化。本案例构建了目前全球最大的蛋白质序列数据集VenusPod,包含150亿条蛋白质序列(其中7亿条序列来自我国的MEER计划,是“人无我有”核心数据壁垒)。以此数据集为基础,打造了世界领先的AI驱动的酶发现与设计引擎,解决“找不到、不好用”的工业用酶瓶颈问题,直接服务于生物医药、绿色制造等国家战略领域。

图:VenusPod数据集及Venus系列模型建设方案
  二、方案和成效
  一是汇聚多维蛋白质信息,突破训练数据多样性瓶颈。VenusPod整合多个数据库,涵盖150亿条蛋白质序列,其中65亿条具备功能标签。这其中包括7亿条深海序列,源自我国MEER计划,是我国独有的珍贵资源。
  二是突破蛋白质设计中小样本学习的难题。基于预训练与小样本微调范式,Venus系列模型可从海量序列中筛选具有特定功能的蛋白质,并预测高性能突变体,将传统方法2~5年的研发周期缩短到2~6个月,显著降低实验时间与成本。
  三是建立AI预测与实验验证高效协同的闭环体系。Venus模型结合自动化实验平台,构建“干实验预测—湿实验验证—数据回流”的迭代流程,实现AI高通量预测与实验验证的协同,持续推动模型性能优化。该平台过去1年半成功改造30余款蛋白,其中10余款落地产业化,包括耐碱VHH蛋白、极度耐碱亲和填料(ProteinA)、极度耐热DNA聚合酶(Phi29)等。
  三、创新点
  一是汇聚多维蛋白质信息,突破训练数据多样性瓶颈。VenusPod整合多个数据库,涵盖150亿条蛋白质序列,其中65亿条具备功能标签。这其中包括7亿条深海蛋白序列,源自我国MEER计划,是独有的珍贵资源。
  二是突破蛋白质设计中小样本学习的难题。基于预训练与小样本微调范式,Venus系列模型可从海量序列中筛选具有特定功能的蛋白质,并预测高性能突变体,显著缩短研发周期,降低实验成本。
  三是建立AI预测与实验验证高效协同的闭环体系。Venus模型结合自动化实验平台,构建“干实验预测—湿实验验证—数据回流”的迭代流程,实现AI高通量预测与实验验证的协同,持续推动模型性能优化。
附件: