Nature Biotechnology:西湖大学原发杰/常兴团队等开发ProTrek,以自然语言“导航”蛋白质宇宙

时间:2025-10-04

Nature Biotechnology:西湖大学原发杰/常兴团队等开发ProTrek,以自然语言“导航”蛋白质宇宙

来源:生物世界 2025-10-04 12:28

研究人员成功开发出了新型三模态蛋白质语言模型——ProTrek,为蛋白质科学研究带来了新的范式。

想象一下,在未来,我们寻找功能特定的蛋白质,能像使用搜索引擎一样便捷 只需输入一段自然语言描述,即可在浩瀚的蛋白质宇宙中进行定位。

如今,这一设想正变为现实。西湖大学原发杰、常兴教授团队联合香港科技大学(广州)卢泓远教授团队,成功开发出了新型三模态蛋白质语言模型 ProTrek,为蛋白质科学研究带来了新的范式。

这项研究成果于 2025 年 10 月 日,发表在了国际顶尖学术期刊Nature Biotechnology上,论文题为:A trimodal protein language model enables advanced protein searches。

图片

蛋白质研究的挑战与机遇

蛋白质作为生命活动的主要执行者,其序列、结构与功能之间的复杂关系(SSF关系)是现代分子科学和药理学研究的基石 。然而,破译这一关系充满挑战。传统的分析工具,如BLAST和Foldseek,虽然功能强大,但它们本质上被限制在单一模态内部进行成对比较,无法发现序列、结构与功能之间的跨模态联系 。

这种方法的局限性,加上许多工具为追求计算效率而优先考虑局部相似性,常常导致对蛋白质关键全局信息的忽视 。这使得UniProt数据库中约30%的蛋白质因与已知同源物系统发育距离遥远而无法被功能注释,成为了蛋白质宇宙中的 暗物质 。

图片

图1.ProTrek通过多模态对比学习实现跨模态检索

ProTrek:融合三大模态的创新解法

为了应对这一挑战,团队研发的ProTrek模型采用了创新的三模态统一框架。它首次将蛋白质的三种核心信息 氨基酸序列(一维)、三维结构(空间)和自然语言功能描述(语义) 融合于一个统一的语言模型中。

其核心在于一种三模态对比学习策略。通过一个双向对齐框架,ProTrek在序列-结构、结构-功能、功能-序列三个维度上建立强关联。其架构融合了三个专用语言模型编码器:一个用于氨基酸序列的ESM编码器,一个用于自然语言功能描述的BERT编码器,以及一个将蛋白质三维结构处理后进行编码的BERT式网络。团队构建了包含四千万 蛋白质-文本 对的大规模数据集(超出已有文献的100倍)对ProTrek进行训练,使其能够在一个统一的嵌入空间中,学习到蛋白质多模态信息间的深层内在联系。

图片

图2.ProTrek在蛋白质-文本检索任务大幅超越以往模型

性能与湿实验验证

ProTrek在多项任务中展现了其卓越的性能。在标准的蛋白质功能检索基准测试中,ProTrek的表现比现有顶尖方法ProteinDT和ProtST提升了超过30-60倍 。除此之外,ProTrek能够通过其 全局 表征学习能力,克服传统工具的 局部 限制,成功识别出那些序列和结构差异巨大但行使相似功能的 趋同进化 蛋白 这一在自然界中可能普遍存在的现象。

图片

图3.ProTrek在蛋白功能相似性搜索上优于Foldseek

同时团队进行了湿实验验证,利用ProTrek从一个包含2亿蛋白质的数据库中,通过 序列-序列 和 文本-序列 两种模式并行搜索,寻找与人类尿嘧啶DNA糖基化酶(UDG)功能相似的新蛋白 。搜索到的候选蛋白V1在经过基因编辑实验验证后,表现出比现有T碱基编辑器TSBE3 EK和gTBE更高的编辑效率和更低的脱靶效应,证明了ProTrek发现全新功能蛋白的能力 。此外,ProTrek的线上服务器(http://www.search-protrek.com)已收录超过50亿蛋白质数据信息,处理速度比传统工具快100倍以上,可在数秒内完成海量数据库的检索 。

图片

图4.利用ProTrek挖掘新型基因编辑酶

结语与展望

这项研究为解码广阔的蛋白质宇宙提供了全新的工具,它不仅将蛋白质研究的效率和深度提升到了新的高度,更通过连接复杂的分子数据与直观的自然语言,促进了人类对蛋白质世界的理解。ProTrek的诞生为大规模注释未知蛋白质功能、加速新酶发现和药物设计提供了坚实的技术支持,并为探索生命趋同进化的奥秘开辟了新的道路,有望在蛋白质科学的多个领域催生新的科学发现。

图片

图5: 利用ProTrek一键查找PETase塑料降解酶。只需输入 Catalyzes the hydrolysis of cutin, a polyester that forms the structure of plant cuticle

研究亮点:

ProTrek模型取得了四大核心突破,有望改变我们理解和应用蛋白质的方式:

1、创新融合:首创三模态统一框架

ProTrek首次将蛋白质的三种核心信息 氨基酸序列(一维)、三维结构(空间)和自然语言功能描述(语义) 融合于一个统一的语言模型中。这一范式改变了传统工具在不同信息维度间的壁垒,实现了跨模态信息整合与理解。

2、强大性能:重新定义蛋白质搜索

通过跨模态对比学习,ProTrek成功构建了 序列-结构-功能 的统一表征,赋予了模型高级蛋白质搜索能力。同时,它具备了远程同源蛋白检索能力,能够识别那些功能相似但序列或结构差异巨大的 远亲 蛋白质,解决了传统方法的一大痛点。

3、规模与效率:百倍提速,构建超大规模蛋白质搜索引擎

研究团队基于ProTrek搭建了全球规模最大的蛋白质搜索引擎之一。该引擎收录了超过50亿条蛋白质数据(为UniProt数据库的20倍),而其检索速度比Foldseek和MMseqs2等主流方法快上百倍,可以加速科研进程。

4、实战验证:从模型到应用,成功挖掘新型基因编辑工具

ProTrek的价值不仅停留在理论层面。通过湿实验(wet lab)验证,团队成功利用该模型挖掘出一种功能更优的新型基因编辑工具酶。这证明了ProTrek在真实科研场景中的应用潜力,展示了其从计算设计到实验验证的完整闭环能力。

版权声明 本网站所有注明“来源:100医药网”或“来源:bioon”的文字、图片和音视频资料,版权均属于100医药网网站所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:100医药网”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

87%用户都在用100医药网APP 随时阅读、评论、分享交流 请扫描二维码下载->

100医药网 www.100yiyao.net
版权所有 © 2019-2020 Design by Dongyan