在人类与疾病的漫长斗争中,药物研发一直是科学探索的前沿阵地。其中,小分子药物因其易制备、细胞渗透性强、口服便捷、制造成本低等优势,成为了药物研发的主力军,然而,对于那些缺乏深疏水口袋的蛋白质,小分子药物往往束手无策。随着科学的进步,大环化合物 (Macrocycles) 以其独特的三维结构和高亲和力,能够调节那些传统小分子药物难以触及的分子靶标,为那些「不可成药」的蛋白质提供了新的治疗可能性。
然而,传统药物开发依赖于天然产物的发现或高通量筛选技术,方法耗时、成本高昂,AI 的发展为药物设计带来了新的突破。近期,荣获 2024 年诺贝尔化学奖的杰出计算生物学家、华盛顿蛋白质研究所所长 David Baker 团队,研发了一项创新的基于扩散模型的技术——RFpeptides,用于对多种蛋白靶标设计高亲和力的大环肽结合物。
具体而言,该技术利用修饰的 RoseTTAFold 和具有循环相对位置编码的 RFdiffusion 来生成精确的大环骨架,集成了 ProteinMPNN 和 Rosetta Relax 进行序列优化,可实现靶向和高效的大环设计,为药物开发和诊断技术开辟了新的可能性。该研究以「Accurate de novo design of high-affinity protein binding macrocycles using deep learning」为题,已在 bioRxiv 发表预印本。
研究亮点:
- RFpeptides 擅长设计具有不同二级结构的大环,包括 α-螺旋、β-折叠和环构象,可针对特定蛋白质界面进行定制,推进了治疗和诊断的应用
- RFpeptides 设计的靶向 MCL1、MDM2、GABARAP 和 RbtA 的大环均显示出高结合亲和力
- RFpeptides 能够为未解析结构的蛋白质设计从头结合物,改变了靶向未充分探索或结构未表征的蛋白质设计规则
论文地址:
https://doi.org/10.1101/2024.11.18.622547
开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
数据集:靶向 MCL1、MDM2、GABARAP 和 RbtA,挑选用于大环设计的目标蛋白
研究团队在大环结合物的从头设计研究中,第一个目标蛋白选择了在抗癌治疗中具有关键作用的 MCL1。利用 RFpeptides 技术,该研究生成了 9,965 个多样化的循环肽主链,并通过 ProteinMPNN 和 Rosetta Relax 设计流程,为每个主链设计了 4 个氨基酸序列。经过深度学习和物理基础指标的筛选,最终有 27 个设计被选中进行实验表征。
该研究也针对与肿瘤抑制蛋白 p53 相互作用的 MDM2,生成了 1 万个大环主链,并为每个主链设计了 4 个氨基酸序列。在 AfCycDesign 预测的 4 万个设计中,7,495 个被认为能与 MDM2 有效结合。
在设计 GABARAP 的大环化合物时,研究团队定义了 6 个热点残基,生成了 2 万个大环主链,并设计了氨基酸序列。在 8 万个设计中,335 个大环设计被选中进行研究。
对于 RbtA,研究团队使用 AF2 和 RF2 预测了其结构,并定义了 7 个热点残基,生成了 2 万个主链,为每个主链设计了 4 个氨基酸序列。这一过程中,迭代的 ProteinMPNN 和 Rosetta Relax 被用于设计流程。
RFpeptides:一种生成式深度学习管道,针对目标蛋白从头设计大环化合物
RFpeptides 可实现靶向和高效的大环设计,具体而言,利用修饰的 RoseTTAFold 和具有循环相对位置编码的 RFdiffusion 来生成精确的大环骨架,集成了 ProteinMPNN 和 Rosetta Relax 进行序列优化。
RFpeptides 的设计流程
RFpeptides:基于 RoseTTAFold2 和 RFdiffusion 的进一步扩展
该研究首先评估了 RoseTTAFold2 (RF2) 结构预测网络对已知环肽结构的建模能力,如下图 A 所示,研究人员对 RF2 进行了关键改进,通过引入循环相对位置编码机制,并观察到其实现了对天然环状肽结构的稳健预测。
RF2 结构预测网络的关键改进
鉴于这一成功,研究人员推断由于具有类似的网络架构,循环相对位置编码或许也能够使 RFdiffusion 生成大环肽结构。因此,如上图 B-C 所示,该研究将循环相对位置编码增加到 RFdiffusion 中,并成功观察到多样化大环肽的稳健生成。
受循环相对位置编码可转移的启发,研究团队开始利用 RFdiffusion 进行蛋白质结合大环的从头设计。如下图 D 所示,该研究在 RFdiffusion 蛋白设计流程中使用循环相对位置编码为生成的链提供编码。然后,如下图 E 所示,使用 ProteinMPNN 设计与大环主链匹配的氨基酸序列,从而完成 RFpeptides 的构建。如下图 F 所示, RFpeptides 能够针对目标蛋白快速生成具有多样化二级结构的大环化合物。
RFpeptides 设计蛋白质结合大环的流程
大环化合物:基于 RFpeptides 设计生成物进行精细化筛选
在使用 RFpeptides 针对不同靶点生成多样化大环化合物骨架后,该研究继续采用 ProteinMPNN 和 Rosetta Relax 对生成的主链进行局部更改,以获得氨基酸序列的多样性。
首先,基于 iPAE、模型相似性评估和 RF2 辅助筛选,研究人员使用 AfCycDesign 重新预测了以大环序列和目标结构作为模板设计的蛋白-大环复合物,并选出了具有高置信度的设计。
其次,该研究使用 Rosetta 计算了结合亲和力 (ddG)、设计大环的空间聚集倾向 (SAP)、界面接触的分子表面积 (CMS) 等质量指标,以精细化筛选候选物。
最终,研究人员精选出少数经筛选出的设计,通过化学合成和生化表征,在实验中确定其结合亲和力,并经过对比验证,确保设计的准确性和有效性。
准确性近乎完美,RFpeptides 的结合预测功效得到验证
针对 MCL1 和 MDM2 的大环化合物设计与表征
为了验证 RFpeptides 的有效性,研究人员首先选择髓系细胞白血病蛋白1 (MCL1) 作为第一个目标蛋白,进行了实验表征。如下图 A-B 所示,研究人员发现 MCB_D2 (紫色) 与 MCL1 (灰色表面) 的结合最为紧密,展示出 2μM 的结合亲和力。
为了确认大环是否以设计的方式进行了结合,研究人员确定了 MCB_D2 与 MCL1 结合的 X 射线晶体结构。如下图 C 所示,晶体结构与设计模型几乎完全相同,Cα RMSD 为 0.7 Å。如下图 D 所示,当大环与晶体结构重叠时,Cα RMSD 为 0.4Å,晶体结构中相互作用残基的侧链构象也与设计模型非常接近。在进一步的晶体结构分析中,图 E 和 F 还揭示 MCB_D2 的环区域与 MCL1 存在疏水接触和阳离子-π 相互作用。
MCL1 的大环结合物的从头设计和特性分析
受到 MCL1 结合环状分子实验验证的启发,研究团队随后着手设计 MDM2 的结合物。如下图 G-I 所示,研究人员发现 MDB_D8 是 MDM2 的最佳大环化合物,显示出 1.9μM 的高亲和力。此外,计算模型预测的界面关键接触点与天然 MDM2-p53 复合物结构中观察到的相互作用具有相似性。
MDM2 的大环结合物的从头设计和特性分析
针对 GABARAP 的大环化合物设计与表征
为了进一步分析 RFpeptides,研究人员接下来设计了一个与 MCL1 和 MDM2 的结构具有完全不同结合位点的化合物——γ-氨基丁酸 A 型受体相关蛋白 (GABARAP)。
实验结果表明,如下图 A-B 和 D-E 所示,GAB_D8 和 GAB_D23 均是 GABARAP 的有效化合物,分别显示出 6nM 和 36nM 的亲和力,其中 GAB_D8 是目前发现的 GABARAP 最有效的大环化合物。如下图 C 和 F 所示,X 射线晶体结构分析发现,GAB_D8-GABARAPL1 复合物结构与设计模型高度一致,GAB_D23 与 GABARAP 的复合物结构同样与设计模型非常吻合,这验证了设计模型中关键相互作用的准确性。
针对 GABARAP 的高亲和力大环结合物的从头设计
尽管设计模型与晶体结构在某些区域存在细微差异,但基于多序列比对 (MSA) 的预测显示出与 X 射线晶体结构更高的一致性。如下图 G-I 所示,尽管存在这些细微差异,MSA 预测的结果仍与实验得到的晶体结构更为吻合。
GAB_D8/GAB_D23 与 GABARAP 结合的 X 射线晶体结构
针对未知结构 RbtA 的大环化合物设计与表征
该研究还着手设计了针对未知实验结构的目标蛋白的大环化合物,以推测 RFpeptides 能否有效降低设计风险。以 RbtA 为例,研究人员率先使用 AF2 和 RF2 预测了它的蛋白质结构,两种方法预测了相似的整体结构。在此基础上,研究人员选择用 RFpeptides 针对 AF2 和 RF2 预测几乎相同的区域进行了设计。结果表明,如下图 A-B 所示,RBB_D10 是 RbtA 的有效大环化合物,展示出 9.4nM 的结合亲和力。
针对 RbtA 结构的高亲和力循环肽结合物的精确从头设计
为了确认 RbtA 和 RBB_D10 之间的结合模式,研究人员进一步分析了 apo 和 RbtA 结合的高分辨率 X 射线晶体结构。如上图 C 所示,X 射线晶体学确认了 apo 结构与预测结构具有高度一致性 (RMSD 1.2Å 和 1.1Å),以及上图 D 所示的复合物结构与设计模型的几乎完全匹配(RMSD 1.4Å)。如上图 4E-H 所示,大环化合物的 X 射线结构与设计模型几乎一致 (RMSD 0.4Å),这些均验证了设计模型的精确性。
David Baker:从上帝之手,到诺奖得主
作为诺贝尔化学奖重磅级得主,David Baker 的名字在蛋白质研究领域无疑是一个响亮的符号。作为人工智能预测蛋白结构的关键人物之一,David Baker 不仅极大地推动了蛋白质结构预测的进展,还在蛋白质设计领域硕果累累。
早在 2003 年,David Baker 的团队就曾设计出了首个非自然界来源的全新蛋白质 Top7,这一成果不仅惊艳了科学界,也代表了人类在从头设计蛋白领域的重要突破。
论文原文:10.1126/science.1089427
尽管 Top7 的设计令人瞩目,但它仅是基于特定结构的设计,并未具备实际功能。David Baker 并未因此止步,他和他的团队继续探索,尝试了各种计算方法,包括计算蛋白质能量的函数、多种骨架和侧链采样方法以及全局优化算法,如蒙特卡洛模拟和连续优化方法。
随着生成式 AI 和机器学习技术的发展,设计出具备特定生物功能的全新蛋白质逐渐成为可能。2024 年 6 月,David Baker 的团队再次取得突破,他们设计了一种全新的环形蛋白,能够调控成纤维细胞生长因子 (FGF) 信号通路并促进血管分化。这项工作不仅拓宽了蛋白质从头设计的应用范围,也可能对该领域的发展产生深远的影响。
论文原文:
https://www.cell.com/cell/fulltext/S0092-8674(24)00534-8
David Baker 的研究极大地推动了蛋白质设计领域的发展,他在从头设计蛋白质方面的突破,预示着我们正站在一个新时代的门槛上,一个人类能够精确操控生命基本构件的时代。这些技术的发展和应用,有望解决一系列全球性挑战。