David Baker最新成果！从头设计大环肽结合物框架RFpeptides

微信图片_20241125205848.png
在人类与疾病的漫长斗争中，药物研发一直是科学探索的前沿阵地。其中，小分子药物因其易制备、细胞渗透性强、口服便捷、制造成本低等优势，成为了药物研发的主力军，然而，对于那些缺乏深疏水口袋的蛋白质，小分子药物往往束手无策。随着科学的进步，大环化合物 (Macrocycles) 以其独特的三维结构和高亲和力，能够调节那些传统小分子药物难以触及的分子靶标，为那些「不可成药」的蛋白质提供了新的治疗可能性。

然而，传统药物开发依赖于天然产物的发现或高通量筛选技术，方法耗时、成本高昂，AI 的发展为药物设计带来了新的突破。近期，荣获 2024 年诺贝尔化学奖的杰出计算生物学家、华盛顿蛋白质研究所所长 David Baker 团队，研发了一项创新的基于扩散模型的技术——RFpeptides，用于对多种蛋白靶标设计高亲和力的大环肽结合物。

具体而言，该技术利用修饰的 RoseTTAFold 和具有循环相对位置编码的 RFdiffusion 来生成精确的大环骨架，集成了 ProteinMPNN 和 Rosetta Relax 进行序列优化，可实现靶向和高效的大环设计，为药物开发和诊断技术开辟了新的可能性。该研究以「Accurate de novo design of high-affinity protein binding macrocycles using deep learning」为题，已在 bioRxiv 发表预印本。

研究亮点：

RFpeptides 擅长设计具有不同二级结构的大环，包括 α-螺旋、β-折叠和环构象，可针对特定蛋白质界面进行定制，推进了治疗和诊断的应用
RFpeptides 设计的靶向 MCL1、MDM2、GABARAP 和 RbtA 的大环均显示出高结合亲和力
RFpeptides 能够为未解析结构的蛋白质设计从头结合物，改变了靶向未充分探索或结构未表征的蛋白质设计规则

在这里插入图片描述

论文地址：
https://doi.org/10.1101/2024.11.18.622547

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：
https://github.com/hyperai/awesome-ai4s

数据集：靶向 MCL1、MDM2、GABARAP 和 RbtA，挑选用于大环设计的目标蛋白

研究团队在大环结合物的从头设计研究中，第一个目标蛋白选择了在抗癌治疗中具有关键作用的 MCL1。利用 RFpeptides 技术，该研究生成了 9,965 个多样化的循环肽主链，并通过 ProteinMPNN 和 Rosetta Relax 设计流程，为每个主链设计了 4 个氨基酸序列。经过深度学习和物理基础指标的筛选，最终有 27 个设计被选中进行实验表征。

该研究也针对与肿瘤抑制蛋白 p53 相互作用的 MDM2，生成了 1 万个大环主链，并为每个主链设计了 4 个氨基酸序列。在 AfCycDesign 预测的 4 万个设计中，7,495 个被认为能与 MDM2 有效结合。

在设计 GABARAP 的大环化合物时，研究团队定义了 6 个热点残基，生成了 2 万个大环主链，并设计了氨基酸序列。在 8 万个设计中，335 个大环设计被选中进行研究。

对于 RbtA，研究团队使用 AF2 和 RF2 预测了其结构，并定义了 7 个热点残基，生成了 2 万个主链，为每个主链设计了 4 个氨基酸序列。这一过程中，迭代的 ProteinMPNN 和 Rosetta Relax 被用于设计流程。

RFpeptides：一种生成式深度学习管道，针对目标蛋白从头设计大环化合物

RFpeptides 可实现靶向和高效的大环设计，具体而言，利用修饰的 RoseTTAFold 和具有循环相对位置编码的 RFdiffusion 来生成精确的大环骨架，集成了 ProteinMPNN 和 Rosetta Relax 进行序列优化。

在这里插入图片描述

RFpeptides 的设计流程

RFpeptides：基于 RoseTTAFold2 和 RFdiffusion 的进一步扩展

该研究首先评估了 RoseTTAFold2 (RF2) 结构预测网络对已知环肽结构的建模能力，如下图 A 所示，研究人员对 RF2 进行了关键改进，通过引入循环相对位置编码机制，并观察到其实现了对天然环状肽结构的稳健预测。

在这里插入图片描述

RF2 结构预测网络的关键改进

鉴于这一成功，研究人员推断由于具有类似的网络架构，循环相对位置编码或许也能够使 RFdiffusion 生成大环肽结构。因此，如上图 B-C 所示，该研究将循环相对位置编码增加到 RFdiffusion 中，并成功观察到多样化大环肽的稳健生成。

受循环相对位置编码可转移的启发，研究团队开始利用 RFdiffusion 进行蛋白质结合大环的从头设计。如下图 D 所示，该研究在 RFdiffusion 蛋白设计流程中使用循环相对位置编码为生成的链提供编码。然后，如下图 E 所示，使用 ProteinMPNN 设计与大环主链匹配的氨基酸序列，从而完成 RFpeptides 的构建。如下图 F 所示， RFpeptides 能够针对目标蛋白快速生成具有多样化二级结构的大环化合物。

在这里插入图片描述

RFpeptides 设计蛋白质结合大环的流程

大环化合物：基于 RFpeptides 设计生成物进行精细化筛选

在使用 RFpeptides 针对不同靶点生成多样化大环化合物骨架后，该研究继续采用 ProteinMPNN 和 Rosetta Relax 对生成的主链进行局部更改，以获得氨基酸序列的多样性。

首先，基于 iPAE、模型相似性评估和 RF2 辅助筛选，研究人员使用 AfCycDesign 重新预测了以大环序列和目标结构作为模板设计的蛋白-大环复合物，并选出了具有高置信度的设计。

其次，该研究使用 Rosetta 计算了结合亲和力 (ddG)、设计大环的空间聚集倾向 (SAP)、界面接触的分子表面积 (CMS) 等质量指标，以精细化筛选候选物。

最终，研究人员精选出少数经筛选出的设计，通过化学合成和生化表征，在实验中确定其结合亲和力，并经过对比验证，确保设计的准确性和有效性。

准确性近乎完美，RFpeptides 的结合预测功效得到验证

针对 MCL1 和 MDM2 的大环化合物设计与表征

为了验证 RFpeptides 的有效性，研究人员首先选择髓系细胞白血病蛋白1 (MCL1) 作为第一个目标蛋白，进行了实验表征。如下图 A-B 所示，研究人员发现 MCB_D2 (紫色) 与 MCL1 (灰色表面) 的结合最为紧密，展示出 2μM 的结合亲和力。

为了确认大环是否以设计的方式进行了结合，研究人员确定了 MCB_D2 与 MCL1 结合的 X 射线晶体结构。如下图 C 所示，晶体结构与设计模型几乎完全相同，Cα RMSD 为 0.7 Å。如下图 D 所示，当大环与晶体结构重叠时，Cα RMSD 为 0.4Å，晶体结构中相互作用残基的侧链构象也与设计模型非常接近。在进一步的晶体结构分析中，图 E 和 F 还揭示 MCB_D2 的环区域与 MCL1 存在疏水接触和阳离子-π 相互作用。

在这里插入图片描述

MCL1 的大环结合物的从头设计和特性分析

受到 MCL1 结合环状分子实验验证的启发，研究团队随后着手设计 MDM2 的结合物。如下图 G-I 所示，研究人员发现 MDB_D8 是 MDM2 的最佳大环化合物，显示出 1.9μM 的高亲和力。此外，计算模型预测的界面关键接触点与天然 MDM2-p53 复合物结构中观察到的相互作用具有相似性。

在这里插入图片描述

MDM2 的大环结合物的从头设计和特性分析

针对 GABARAP 的大环化合物设计与表征

为了进一步分析 RFpeptides，研究人员接下来设计了一个与 MCL1 和 MDM2 的结构具有完全不同结合位点的化合物——γ-氨基丁酸 A 型受体相关蛋白 (GABARAP)。

实验结果表明，如下图 A-B 和 D-E 所示，GAB_D8 和 GAB_D23 均是 GABARAP 的有效化合物，分别显示出 6nM 和 36nM 的亲和力，其中 GAB_D8 是目前发现的 GABARAP 最有效的大环化合物。如下图 C 和 F 所示，X 射线晶体结构分析发现，GAB_D8-GABARAPL1 复合物结构与设计模型高度一致，GAB_D23 与 GABARAP 的复合物结构同样与设计模型非常吻合，这验证了设计模型中关键相互作用的准确性。

在这里插入图片描述

针对 GABARAP 的高亲和力大环结合物的从头设计

尽管设计模型与晶体结构在某些区域存在细微差异，但基于多序列比对 (MSA) 的预测显示出与 X 射线晶体结构更高的一致性。如下图 G-I 所示，尽管存在这些细微差异，MSA 预测的结果仍与实验得到的晶体结构更为吻合。

在这里插入图片描述

GAB_D8/GAB_D23 与 GABARAP 结合的 X 射线晶体结构

针对未知结构 RbtA 的大环化合物设计与表征

该研究还着手设计了针对未知实验结构的目标蛋白的大环化合物，以推测 RFpeptides 能否有效降低设计风险。以 RbtA 为例，研究人员率先使用 AF2 和 RF2 预测了它的蛋白质结构，两种方法预测了相似的整体结构。在此基础上，研究人员选择用 RFpeptides 针对 AF2 和 RF2 预测几乎相同的区域进行了设计。结果表明，如下图 A-B 所示，RBB_D10 是 RbtA 的有效大环化合物，展示出 9.4nM 的结合亲和力。

在这里插入图片描述

针对 RbtA 结构的高亲和力循环肽结合物的精确从头设计

为了确认 RbtA 和 RBB_D10 之间的结合模式，研究人员进一步分析了 apo 和 RbtA 结合的高分辨率 X 射线晶体结构。如上图 C 所示，X 射线晶体学确认了 apo 结构与预测结构具有高度一致性 (RMSD 1.2Å 和 1.1Å)，以及上图 D 所示的复合物结构与设计模型的几乎完全匹配（RMSD 1.4Å）。如上图 4E-H 所示，大环化合物的 X 射线结构与设计模型几乎一致 (RMSD 0.4Å)，这些均验证了设计模型的精确性。

David Baker：从上帝之手，到诺奖得主

作为诺贝尔化学奖重磅级得主，David Baker 的名字在蛋白质研究领域无疑是一个响亮的符号。作为人工智能预测蛋白结构的关键人物之一，David Baker 不仅极大地推动了蛋白质结构预测的进展，还在蛋白质设计领域硕果累累。

早在 2003 年，David Baker 的团队就曾设计出了首个非自然界来源的全新蛋白质 Top7，这一成果不仅惊艳了科学界，也代表了人类在从头设计蛋白领域的重要突破。

论文原文：10.1126/science.1089427

尽管 Top7 的设计令人瞩目，但它仅是基于特定结构的设计，并未具备实际功能。David Baker 并未因此止步，他和他的团队继续探索，尝试了各种计算方法，包括计算蛋白质能量的函数、多种骨架和侧链采样方法以及全局优化算法，如蒙特卡洛模拟和连续优化方法。

随着生成式 AI 和机器学习技术的发展，设计出具备特定生物功能的全新蛋白质逐渐成为可能。2024 年 6 月，David Baker 的团队再次取得突破，他们设计了一种全新的环形蛋白，能够调控成纤维细胞生长因子 (FGF) 信号通路并促进血管分化。这项工作不仅拓宽了蛋白质从头设计的应用范围，也可能对该领域的发展产生深远的影响。

论文原文：

https://www.cell.com/cell/fulltext/S0092-8674(24)00534-8

David Baker 的研究极大地推动了蛋白质设计领域的发展，他在从头设计蛋白质方面的突破，预示着我们正站在一个新时代的门槛上，一个人类能够精确操控生命基本构件的时代。这些技术的发展和应用，有望解决一系列全球性挑战。

数据集：靶向 MCL1、MDM2、GABARAP 和 RbtA，挑选用于大环设计的目标蛋白

RFpeptides：一种生成式深度学习管道，针对目标蛋白从头设计大环化合物

准确性近乎完美，RFpeptides 的结合预测功效得到验证

David Baker：从上帝之手，到诺奖得主

推荐阅读

目录