超神经HyperAI · 10 小时前

入选ICLR 2025!浙大沈春华等人提出玻尔兹曼对齐技术,蛋白质结合自由能预测达SOTA

微信图片_20250303160105.png
蛋白质-蛋白质相互作用 (protein–protein interactions, PPIs) 是所有生物执行各种生物功能的基础,主要通过不同蛋白质分子之间的相互作用和影响实现。准确地识别和理解蛋白质间的相互作用对于解密蛋白质功能、揭示生命活动、探究疾病机理、研发靶向药物以及创新生物应用等具有极其重要的意义。

随着计算机和人工智能的发展,近年来科研界针对 PPIs 的研究在深度学习的加持下已经取得了长足的发展。尤其是 DeepMind 于 2024 年发布的 AlphaFold 3,一举将预测一般蛋白质复合物结构的成功率提升到了近 80% 的水平, 这也有效解决了困扰科研界数十年的蛋白质相互作用的高保真计算建模问题。

然而,蛋白质间的相互作用是一个包含了结合和分离的动态过程,单靠研究静态结构很难完全捕捉生物分子之间的相互作用。结合自由能 (∆G,即结合态和未结合态之间吉布斯自由能的差值) 等参数能够对蛋白质间互相作用的动态过程进行定量表征, 但如何准确的预测结合自由能的变化 (∆∆G,也称突变效应) 成为了科研界了解或调节蛋白质-蛋白质相互作用的前提之一。

基于此,浙江大学计算机科学与技术学院沈春华教授团队联合澳大利亚阿德莱德大学、美国东北大学等团队,共同提出了一种名为玻尔兹曼对齐的技术,将知识从预训练的逆折叠模型迁移到了 ∆∆G 的预测。 研究首先分析了 ∆∆G 的热力学定义,通过引入玻尔兹曼分布将能量和蛋白质构象分布联系起来,从而突出了预训练概率模型的潜力。然后团队采用贝叶斯定理规避直接估计,利用蛋白质反向折叠模型提供的对数似然进行 ∆∆G 估计。此次推导为先前其他实验中观察到的逆折叠模型的结合能和对数似然之间的高度相关性提供了一个理性的解释。

与之前基于逆折叠的方法相比,该方法在 SKEMPI v2 数据集上的实验结果表现出了更优越的水平,在监督和无监督状态下其斯皮尔曼系数 (Spearman coefficient) 分别达到 0.5134 和 0.3201, 显著高于此前 SOTA 方法的 0.4324 和 0.2632。

该项成果以「Boltzmann-Aligned Inverse Folding Model as a Predictor of Mutational Effects on Protein-Protein Interactions」为题,收录于人工智能领域国际学术顶会 ICLR 2025 中。值得一提的是,本届 ICLR 共接收了 11,565 份投稿,仅有 32.08% 的稿件被录用。

在这里插入图片描述

论文地址:
https://arxiv.org/abs/2410.09543

推荐一个学术分享活动,3 月 7 日中午 12:00,最新一期的 Meet AI4S 直播邀请到了华中科技大学副教授黄宏老师、上海人工智能实验室 AI for Science 中心青年研究员周东展、上海交通大学自然科学研究院助理研究员周冰心, 介绍个人成果,分享科研经验。

深度学习加速突变效应计算范式的转变

科研界对于 ∆∆G 预测的研究由来已久,传统的方法可以分为两大类:生物物理学方法和统计方法。 其中,生物物理学方法主要通过能量计算来模拟蛋白质如何在原子水平上相互作用;统计方法则依赖于特征工程,主要利用描述符捕获蛋白质的几何、物理和进化特征。

毫无疑问的是,无论哪一种传统方法,都需要严重依赖人类的专业知识,不仅费时费力,而且也无法准确地捕捉蛋白质间复杂的相互作用。另外,两种方法还各有劣势,比如生物物理学方法经常要在平衡速度和准确性方面遭遇挑战。而基于深度学习的方法不仅在蛋白质建模方面表现出极高的「天赋」,同时也加速着 ∆∆G 预测范式的转变。

越来越多的案例正为其佐证。例如,中科院团队曾提出一种基于表示学习的方法,称为 SidechainDiff。该方法利用黎曼扩散模型来学习侧链构象的生成过程,并且还可以给出蛋白质-蛋白质界面上突变的结构背景表示。 利用学习的表示,该方法在预测突变对蛋白质-蛋白质结合的影响方面取得了最先进的性能。

这项成果以「Predicting mutational effects on protein-protein binding via a side-chain diffusion probabilistic model」为题,收录于 NeurIPS 2023。
论文地址:

https://proceedings.neurips.cc/paper_files/paper/2023/file/99088dffd5eab0babebcda4bc58bbcea-Paper-Conference.pdf.

基于深度学习的方法虽然已经取得了相当的成果,却也并非尽善尽美。与上述例子不谋而合的是,在本论文中也提到了「结合能的注释实验数据缺乏」, 这个被普遍认为是基于深度学习方法的重大挑战,直接导致了更多团队倾向于先在大量未标注数据集上进行预训练,然后再来提升突变预测的能力,其中涉及多种预训练代理任务,比如蛋白质逆折叠、掩码建模以及上述例子中的侧链建模。

幸运的是,这些「另辟蹊径」的方法都实现了相应的目标,但不幸的是它们也都无一例外地展示了其软肋。基于预训练的方法大多只是采用了监督微调 (supervised fine-tuning, SFT) 的方式,却忽视了数据对齐的重要性,如此可能会导致监督微调令模型将此前在无监督预训练期间获得的一般性知识遗忘,造成过拟合的风险。 回过头来再看,这些「另辟蹊径」的方法无疑也就更加突出了迁移已获得的知识用来进行准确突变预测的迫切性。

创新开发玻尔兹曼对齐,赶超 SOTA 模型

具体来看,首先研究团队基于玻尔兹曼分布和热力学循环原理,将蛋白质发生突变时结合自由能的变化和蛋白质氨基酸序列出现的可能性联系了起来, 提出了玻尔兹曼对齐(如下图右侧所示)。随后,研究团队又提出一种名为 BA-Cycle 的方法,将逆折叠模型集成到玻尔兹曼对齐中,并使用反向折叠模型通过预测蛋白质序列的可能性来评估突变(如下图左侧所示)。

在这里插入图片描述

玻尔兹曼对齐技术综述

值得一提的是,为了建立蛋白质结合自由能与蛋白质序列条件概率之间的联系,同时解决直接估计蛋白质结构在给定序列下的概率 p(X|S) 时所面临的两大困难——现有蛋白质结构预测模型的局限性和概率模型的不足, 研究团队在结合自由的计算公式中代入了贝叶斯定理,即 p(X|S) = p(S|X)・p(X)/p(S),成功将结合自由能与蛋白质序列的条件概率 p (X|S) 联系起来,避免了直接估计 p (X|S) 的难题,为后续进一步分析结合自由能变化与蛋白质序列条件概率的关系奠定了基础。

另外,由于假设突变前后蛋白质结构不变,研究团队利用反向折叠模型评估结合态和非结合态的序列概率。 结合态 (The bound state) 的骨架结构通常为已知,模型能直接算出其概率;非结合态 (The unbound state) 的骨架结构未明确给出,可通过分别评估复合物中两条链的方式估算概率。

基于此,研究团队针对 ∆∆G 无监督估计提出了名为 BA-Cycle 的方法, 利用预训练的反向折叠模型 ProteinMPNN ,实现了对 ∆∆G 的无监督评估。这与之前相关研究未在热力学循环中明确考虑未结合态概率形成了鲜明对比。

最后,研究团队还提出了一种名为 BA-DDG 的方法, 利用带结合自由能变化标签数据,通过玻尔兹曼对齐来微调 BA-Cycle。BA-DDG 采用了 BA-Cycle 一样的正向过程。BA-DDG 的目标是让真实的结合自由能变化和预测出来的结合自由能变化之间的差距尽可能的缩小,同时保持原始预训练模型的分布。

研究团队在 SKEMPI v2 数据集上进行了一系列实验验证。 其中,SKEMPI v2 数据集是一个包含 348 个蛋白质复合物的注释突变数据集,内含 7,085 个氨基酸突变以及热力学参数和动力学速率常数的变化。

评估指标一共 7 个,其中包括 5 个总体指标,分别为皮尔逊相关系数 (Pearson correlation coefficient)、斯皮尔曼等级相关系数 (Spearman’s rank correlation coefficient)、最小均方根误差 (RMSE)、最小平均绝对误差 (MAE) 和 AUROC。另外,研究团队根据突变的结构特征对其进行分组,计算每组的皮尔逊相关系数和斯皮尔曼相关系数,作为 2 个额外指标。

研究团队首先将 BA -Cyale 和 BA-DDG 分别与 SOTA 无监督和有监督方法比较, 无监督方法共三类,包括 Rosetta Cartesian ∆∆G 和 FoldX 等传统经验能量函数;ESM-1v、Position-Specific Scoring Matrix (PSSM)、MSA Transformer 和 Tranception 等基于序列/演化的方法;未在 ∆∆G 标签上训练的基于结构信息的预训练方法如 ESM-1F、MIF-∆logits、RDE-Linear 和 B-factor。

有监督方法分为两类,包括端到端学习模型,如 DDGPred 和 End-to-End;基于结构信息的预训练方法,在 ∆∆G 上进行微调,包括 MIF-Network、RDE-Network、DiffAffinity、Prompt-DDG、ProMIM 和 Surface-VQMAE。

结果显示,BA-DDG 在所有评估指标上均优于所有基线, 其中有监督方式下其皮尔逊相关系数和斯皮尔曼相关系数分别达到了 0.5453 和 0.5134 。其在每个结构的相关性方面的显著改善,突出了其实际应用中更高的可靠性;BA-Cycle 取得了与经验能量函数相当的性能,并超过了所有无监督学习基线。 如下图所示:

在这里插入图片描述

在 SKEMPI v2 数据集上 3 折交叉验证的平均结果

另外,在相关可视化分析中明显可见,BA-DDG 在定性可视化和定量指标上均优于其他方法。 如下图所示:

在这里插入图片描述

6种代表性方法的各结构皮尔逊相关系数和斯皮尔曼相关系数分布

除此之外,研究人员还进行了结合能量预测、蛋白质-蛋白质对接和抗体优化方面的实验,结果显示了其具有广泛的适用性。而这些正面的影响将在药物设计和虚拟筛选等方面起到极其重要的作用,为日后真正落地到应用奠定了理论基础。

深耕机器学习和机器视觉,实现 AI 普惠

在本次研究中,研究人员运用跨领域理论为蛋白质序列分析提供了新的视角,同时又通过创新的模型整合和模型优化,形成了一个系统的研究框架。这种逐步深入的研究方法不仅有助于全面深入地理解蛋白质序列与自由能变化之间的关系,同时也为后续的研究提供了一个新的思路。

值得一提,对于此次研究成果主要参与者之一的沈春华教授,长期致力于机器学习和计算机视觉方向的研究, 目前已发表超过 150 篇论文,其中不乏 TPAMI、IJCV 等国际知名学术平台。2025 开年仅 2 个月,沈春华教授所带领的团队便已经有重磅成果产出,在预印本平台 arXiv 上发表了 3 篇论文。

第一篇,沈春华教授所在的课题组开发了一种基于 CNN 网络的 DNA 基础模型,命名为 ConvNova。该模型设计简单却性能显著,在相关的组蛋白任务中,平均成绩超第二名的方法 5.8%,实现了用更少的参数实现更快的计算。 同时,该方法也验证了基于 CNN 网络架构的方法与基于 Transformer 网络和 SSM 网络相比,具有强劲的竞争潜力。相关研究以「Revisiting Convolution Architecture in the Realm of DNA Foundation Models」为题发表。

论文地址:

https://arxiv.org/abs/2502.18538

第二篇,沈春华教授所在的课题组联合上海 AI 实验室,共同开发了一款视觉通用模型 DICEPTION,利用预训练扩散模型解决多任务视觉感知问题,训练数据需求少,适应任务能力强。 仅用 0.06% 的 SAM 数据量,该模型在分割等任务上实现了媲美 SOTA 模型的水平,并且通过颜色编码统一任务输出,显著降低了训练成本。相关研究以「DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks」为题发表。

论文地址:

https://arxiv.org/pdf/2502.17157

第三篇,沈春华教授团队联合阿里巴巴,提出了名为 PhyCoBench 基准测试,该基准用于评估视频生成模型生成符合物理规律视频的能力。同时该研究还介绍了自动评估模型 PhyCoPredictor,这是一种以级联方式生成光流和视频帧的扩散模型。通过比较自动和人工排序的一致性评估,实验结果表明了 PhyCoPredictor 拥有与人类评估最接近的能力。 相关研究以「A Physical Coherence Benchmark for Evaluating Video Generation Models via Optical Flow-guided Frame Prediction」为题发表。

论文地址:

https://arxiv.org/pdf/2502.05503

沈春华教授团队不仅成果丰硕,其个人影响力也十分突出。沈春华教授发表的相关论文一直以来都是科研界引用的重要来源,他还曾入选了全球性信息分析公司爱思唯尔 (Elsevier) 发布的「2023 年中国高被引学者 (Highly Cited Chinese Researchers)」榜单。

如今,沈春华教授在浙江大学担任求是讲席教授和计算机辅助设计与图像系统全国重点实验室副主任已经 3 年,不仅研究成果丰硕,教学成果也很可观,培养了众多硕士研究生和博士研究生。另外,其所在的计算机辅助设计与图像系统全国重点实验室作为连接「产-学-研」的接口,也在近年实现多面开花,与包括蚂蚁在内的多家企业合作,成为了科研的创新基地、人才的培养基地、创新的孵化基地。

推荐阅读
关注数
701
文章数
543
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息