超神经HyperAI · 2 天前

Meta AI等提出全新蛋白质动态融合表征框架FusionProt,多项任务性能达到SOTA

蛋白质是生命功能的执行者,其奥秘深藏于两个维度:一是由氨基酸首尾相连形成的一维(1D)序列,二是序列折叠缠绕形成的三维(3D)结构。以往的模型通常只专注于其一,或是像 ProteinBERT 和 ESM 这样的蛋白质语言模型(PLM)般精通「序列语言」,或是像 GearNet 这样的三维蛋白质表示技术般善辨「结构形态」。即便有模型尝试将两者结合,也多是拼接简化,仿佛让两位专家各自为营,而非协同而战。

在此背景下,以色列理工学院与 Meta AI 的研究团队联合提出蛋白质表征学习框架 FusionProt,旨在同时学习蛋白质一维序列和三维结构的统一表征。该研究创新性地引入了一种可学习融合 token(learnable fusion token),作为连接蛋白质语言模型(PLM)与三维结构图之间的自适应桥梁,实现两者之间的迭代信息交换。在多种蛋白质相关生物学任务中,FusionProt 均取得了 SOTA 性能表现。

相关研究以「FusionProt: Fusing Sequence and Structural Information for Unified Protein Representation Learning」为题,发表于 bioRxiv。

研究亮点:

  • FusionProt 框架通过有效整合一维和三维两种模态,突破了以往结构割裂处理的局限,提高了捕捉蛋白质功能和相互作用属性的准确性。
  • 新颖的跨模态融合架构,利用可学习融合 token,实现蛋白质语言模型(PLM)和蛋白质三维结构图之间的迭代信息交换。
  • FusionProt 在多个蛋白质任务中达到 SOTA 级表现,并通过案例研究展示了模型在实际生物学场景中的应用潜力。
    1.png

论文地址:

https://go.hyper.ai/OXLYl

关注公众号,后台回复「FusionProt」获取完整 PDF

更多 AI 前沿论文:
https://hyper.ai/papers

利用公开蛋白质数据库系统化构建数据集

在这项研究中,研究团队充分利用了公开的蛋白质数据库,通过系统化的数据集构建、严格的数据划分策略以及多任务评估框架,确保 FusionProt 多种蛋白质理解任务中具有良好的有效性。

在预训练阶段,研究采用蛋白质结构数据库(AlphaFold DB)作为核心数据源,该数据库包含 80.5 万个由 AlphaFold2 预测的高质量蛋白质三维结构。研究人员选用这一数据集主要基于以下考量:一方面,AlphaFold2 是目前蛋白质结构预测领域公认的 SOTA 模型,其预测结果具有较高的可信度,能够有效降低对外部实验结构数据质量和可用性的依赖;另一方面,使用统一的预测结构利于确保数据来源的一致性,便于与诸如 SaProt、ESM-GearNet 等先前的先进工作进行公平对比。

研究团队进一步在 3 个权威下游任务中对模型性能进行了系统评估,酶功能预测(EC 编号预测)与基因本体术语预测(GO 术语预测)任务采用来自 DeepFRI 的数据集,该数据集提供权威的数据划分并以 Fmax 作为统一评估指标,全面衡量模型在酶功能注释和基因本体推断方面的表现。突变稳定性预测(MSP)任务则沿用 ESM-GearNet 所采用的数据集与评估协议,以 AUROC 作为评估指标,用于评估模型预测突变对蛋白质复合物稳定性影响方面的能力。

「融合 token」驱动的迭代式信息交换机制

FusionProt 的设计围绕一个最核心的思想展开:通过可学习融合 token(learnable fusion token),充当蛋白质序列和结构之间双向、迭代式跨模态交互的桥梁,从而实现两类信息的深度融合与统一表征。

首先,该框架建立在「序列-结构」双模态并行编码架构的基础上。在序列层面,使用 ESM-2 作为蛋白质语言模型对氨基酸序列进行编码;在结构层面,则采用 GearNet 编码器作为结构模型,对蛋白质三维结构图进行建模。可学习融合 token 在训练过程中动态地穿梭于两个模态之间,实现信息反复迭代地交换和融合。在序列层,其与蛋白质序列连接,氨基酸会查询相关的唯一融合 token,以提取和整合有价值的信息。在结构层,其被加入到蛋白质三维图中,作为节点被合并连接。结构层通过消息传递神经网络处理,使融合 token 能够整合全局的空间结构信息。

其次,该框架的核心驱动力在于迭代式融合算法,流程是将融合 token 拼接到序列中更新,随后传递到结构层,作为新节点输入到结构图网络中。接着把更新后的融合 token 送回序列层,参与下一轮交互。在循环往复中通过可学习的线性变换,以对齐和调整不同的模态空间。通过这个迭代过程,模型表示被组合起来形成一个统一而丰富的蛋白质表示。

2.png
FusionProt 预训练架构图

最后,FusionProt 采用多视图对比学习(Multiview Contrastive learning)作为预训练目标,通过随机选择连续子序列并隐藏 15% 的图边来构建多样化视图,并利用 InfoNCE 损失函数在潜在空间中对齐表示,维持相关蛋白质子成分在映射到低维潜在空间时的相似性。在实现上,研究团队基于上文提到的 AlphaFold DB 数据库开展预训练,预训练过程中 FusionProt 采用 2e-4 的学习率,全局 batch 大小为 256 个蛋白质,进行了 50 轮训练。并对输入序列截断至 1,024 个 token,以适应长蛋白质序列。除此之外通过加入特定任务的分类头预测,以及使用最新的 SaProt 模型相同的超参数评估进行了微调。所有实验在 4 x NVIDIA A100 80GB GPU 上完成,单次预训练约耗时 48 小时。

全面超越现有SOTA,融合机制效果显著

该研究在多个下游任务中进行了广泛测试,结果表明 FusionProt 框架在多个基准测试中取得了 SOTA 性能,实验结果如下图所示。

EC 编号预测评估中,研究团队比较了 FusionProt 与 11 种基线模型的表现。结果显示,FusionProt 取得了最高的 Fmax = 0.904,显著优于仅依赖序列的模型(如 ProtBERT-BFD,0.838、ESM-2,0.877),也超过了仅使用结构信息的 GearNet(0.871)。同时相较于其他尝试利用这两类信息的方法(如 MIF-ST 、ESM-GearNet 等),依旧取得领先地位。这一结果表明,相比于将一种模态简单作为另一种模态的上下文,FusionProt 的迭代融合机制能够更充分保留关键的三维结构信息,从而更准确地捕捉催化活性所依赖的细微结构差异。

GO 术语预测评估中,在生物过程、分子功能、细胞组分 3 个子任务上,FusionProt 均取得了最佳成绩,再次证明了可学习融合 token 在序列与结构联合建模中的有效性。

3.png
对比各种基线方法下的 EC 和 GO 预测的评估结果

此外研究团队还进行了突变稳定性预测评估,实验结果表明 FusionProt 在所有评估方法中取得了最高的 AUROC,且具有统计学意义(p < 0.05)。较当前 SOTA 方法——GVP 显著提升 5.1%,凸显了其迭代融合机制在整合长距离序列-结构依赖关系方面的有效性。并且 FusionProt 通过可学习融合 token 实现双向跨模态交互,使得蛋白质表征更具表现力和生物学基础。

4.png
不同方法对突变稳定性预测的评估结果

为了评估 FusionProt 关键设计的有效性,研究团队开展了进一步的消融实验。研究团队在不同的融合注入频率下进行了测试,结果显示当融合标记在序列与结构编码器之间进行标准频率的多轮交互时,性能最优;而减少交互频率则会显著削弱表现,说明频繁的信息交换对捕捉跨模态依赖至关重要。

最后,在生物学案例分析中,FusionProt 成功预测了传统方法难以处理的 RNA 聚合酶 ω 亚基蛋白的 EC 编号,而这一结果在 ESM-2 等模型中完全失败,进一步证明其所学表征能够捕捉复杂的「结构-功能」关系,展现出在药物研发与蛋白质功能解析中的广阔应用潜力。

跨模态融合已成为明显趋势

FusionProt 为蛋白质表征学习开辟了一条新路径,用事实告诉我们:蛋白质的「语言」和「形态」不该各说各话,而要彼此交流。随着人工智能在生命科学中的不断深入,跨模态融合已成为一股明显趋势。

由西湖大学提出了结构感知词汇(structure-aware vocabulary)的概念,并将氨基酸残基 token 与结构 token 结合,在约 4,000 万条蛋白质序列与结构数据集上训练了一个大规模通用蛋白质语言模型 SaProt,该模型在 10 项重要的下游任务中全面超越已有的成熟基线模型。相关研究以「SaProt: Protein Language Modeling with Structure-aware Vocabulary」为题,曾入选 ICLR 2024。

论文地址:
https://openreview.net/forum?...

由加拿大蒙特利尔大学和 Mila 联合发表为题「Structure-Aligned Protein Language Model」的相关研究,其提出了一种结构对齐的蛋白质语言模型,采用对比学习方法,将结构信息引入蛋白质语言模型中。通过优化模型预测结构 token,显著提升了蛋白质接触预测任务的性能。

论文地址:
https://arxiv.org/abs/2505.16896

一键获取 2023—2024 年 AI4S 领域高质量论文及深度解读文章 ⬇️
5.png

推荐阅读
关注数
678
内容数
329
链接人工智能新场景
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息