超神经HyperAI · 2 天前

酶动力学参数预测,瓶颈识别……中科院深圳先进技术研究院罗小舟分享AI在酶领域的创新应用

微信图片_20250414173824.png
蛋白质,作为生命的基石,在生命活动中发挥着关键作用,其结构和功能的研究,对创新药物研发、合成生物学、酶制剂生产等领域,有着极其重要的意义。但传统蛋白质设计面临诸多难题,蛋白质结构复杂,序列空间庞大,依赖专家经验和高通量筛选的设计方式,不仅耗时费力,成功率也难以保证。

如今,AI for Science 已成为全球人工智能发展的新前沿,正在深刻改变着科学研究的范式,并在蛋白质设计领域掀起巨大变革。尤其是在 AlphaFold 等革新性成果面世后,相关研究逐渐走进大众视野,得到了更多关注,同时也进一步促进更多的海内外优秀团队投身于此,从技术、应用等不同环节进行攻坚。

中国科学院深圳先进技术研究院研究员罗小舟教授便是其中的一员,他此前深耕合成生物学,自 2019 年回国后,开始投身 AI 蛋白质研究。在中国上海交通大学近期主办的「未来已来」 AI 蛋白质设计峰会上,罗小舟教授对「人工智能驱动的酶工程」主题进行了分享。探讨多模态学习与生成式 AI 在酶设计中的潜在应用,从 UniKP 框架、ProEnsemble 机器等多个角度阐释了 AI 在酶工程领域的创新应用及实践。

在这里插入图片描述

中国科学院深圳先进技术研究院罗小舟教授

HyperAI超神经在不违背原意的前提下,对其深度分享进行了整理汇总,以下为演讲精华实录。

自动化平台搭建 ,AI 解决蛋白质领域难题

天然产物作为药用宝库,具有来源广泛、结构丰富、活性多样的特点。然而,传统从天然资源中提取天然产物的方式效率低下,纯化学合成不仅产率低,还需使用大量有毒有害试剂。例如,青蒿素最初从黄花蒿中提取,但在化学合成时面临诸多问题。后来,通过调控多个基因,在酿酒酵母中实现了青蒿素的表达。这一突破让我们看到生物合成的潜力,所以我开始关注生物领域研究。此外,在酶改造领域,数据的匮乏会严重制约研究进展,这一问题让我们意识到数据的重要性,所以我致力于搭建自动化和数据平台,为后续的 AI 研究奠定基础。

作为生命的基础分子,核酸、小分子脂类、糖类、代谢产物和离子、水等物质均产自蛋白质,基于这一特性,在 2019 年回国后,我将研究重点聚焦到蛋白质领域,并且提出了 3 个科学问题:首先是能否直接从蛋白质的序列预测出其活性和功能?第二是能否按需生成或进化出人们所需要的蛋白质?第三是能否基于通用、标准化策略来优化酶或菌株?

UniKP 框架预测酶的性质结果更优秀

教科书里写道:蛋白质的一级序列决定三级结构及功能,并且一级序列一定包含功能信息。所以,如何萃取序列极为关键。受到 AlphaFold 的启发,我们团队开始探索从序列预测蛋白质功能的方法。在研究中,我们引入了 Transformer 架构,将传统表征方式与机器学习特征融合,构建集成模型。基于融合特征和集成模型的多肽和蛋白质功能预测框架,在 8 个相关的预测任务上达到了 SOTA 性能,精确预测多肽和蛋白质功能, 加速了抗菌肽等抗感染活性物质的筛选过程,降低了实验成本。

在这里插入图片描述

蛋白质功能预测框架工作流程

随后,团队基于 Transformer embedding 的酶学参数预测工具,使用 UniKP 框架尝试预测酶的性质。用 ProtT5 和传统 SMILE Transformer model 将序列向量化,结合简单机器学习模型,取得 SOTA 结果。

研究团队选择了 4 个具有代表性的数据集来验证 UniKP 的性能及价值。

首先是 DLkcat 数据集, 研究人员筛选后得到了 16,838 个样本,包括来自 851 个生物体的 7,822 个独特蛋白质序列和 2,672 个独特底物。数据集按照 9:1 的比例划分为训练集和测试集。

其次是 pH 和温度数据集, 其中 pH 数据集包含 636 个样本,由 261 个独特的酶序列和 331 个独特的底物组成;温度数据集包含 572 个样本,由 243 个独特的酶序列和 302 个独特的底物组成。数据集按照 8:2 的比例划分为训练集和测试集。

第三是米氏常数 (Km) 数据集, 由 11,722 个样本组成,包括酶序列、底物分子指纹图谱和相应的 Km 值。数据集按照 8:2 的比例划分为训练集和测试集。

第四是 kcat/Km 数据集, 包含 910 个由酶序列、底物结构及其相应的 kcat/Km 值组成的样本。

经验证 UniKP 在 kcat 预测显著优于现有模型,首次实现 kcat/Km 预测。 以 kcat 为例,在公开可获得最大数据集上,决定系数相较于目前 SOTA 结果提高了 20 个百分点,同时在不同数据集划分、不同区间划分、 不同酶类别划分等多类任务上,表现也明显突出。

在这里插入图片描述

UniKP 在 kcat 预测中的表现

利用此架构,从 1,000 个 Blast 序列中,找到截至目前酶活性最高的野生型 TAL 酶,并通过预测单位点突变,获得酶活性更高的突变体,极大加速了酶工程改造进程。

在这里插入图片描述

此外,针对蛋白质的热稳定性,我们提出了基于序列的嗜热蛋白质预测模型 Thermal Finer,在 3 个分类数据集上达到了 SOTA 性能,并首次实现了从蛋白质序列出发预测对应的最优催化温度(回归)。换句话讲,我们首次实现从蛋白质序列直接预测最优温度,为酶的挖掘和进化提供有力支持。

ProGPT-2 微调,按需生成或进化蛋白质

当前,针对蛋白质生成,特别是酶生成的模型主要有以下两类:

  • 生成式对抗性神经网络 (GAN):ProteinGAN
  • 预训练生成式大语言模型 (LLM): ProtGPT2、 ProGen

但是,这些蛋白质生成的工具均存在生成序列相似的问题,难以满足生成新颖功能、新颖活性酶的需求。 理论上分析也存在不合理之处:首先,图像的像素点数值是连续的,更适用于梯度优化;其次,文本(氨基酸序列)是不连续的,且梯度优化对 embeddings 的更新没有意义,而且它效率很低。

在这里插入图片描述

对于此类问题,我们深入分析了现有模型的不足,并提出新的优化框架。

我们团队采用 ProGPT-2 进行微调,并使用 CNN 神经网络作为判别器,对生成的序列进行筛选和优先处理。通过实验发现,微调序列仅需要 2000 ,甚至更低,且无需提示词生成的序列更接近天然酶。同时,减少冗余数据可提高生成序列的新颖性。

在这里插入图片描述

不需要提示序列

在这里插入图片描述

微调序列的冗余性会影响生成序列的新颖性

我们想要新颖的、拥有新结构、新功能的酶,所以势必不需要冗余的序列。通过预测性抗菌肽,发现这个模型功能基本完好,接着做了 MDH 的分析后发现:关键位点保守度高;具备标志性域的预测分数更高;分子对接结果与自然界的 MDH 基本上没有差异。 如下图所示:

在这里插入图片描述

随后我们验证,经过模型后生产出来的不像的酶是否具有功能。我们基于 ProteinGAN 的原始数据,基本 80% 相似的酶,经过 prioritized MDHs 模型可以达到相似度 40% 以下。与我们从自然界中随机挑选的 10 个酶相比, 在 insoluble、no expression、soluble 三部分基本一致,但它依然能有非常好的酶活性。换言之,我们团队用此模型生成的酶与天然酶相比相似度低,且大多数酶均具有酶活性。

ProEnsemble 代谢瓶颈识别,优化酶产量

在生物合成过程,代谢通路中多个酶催化效率低与酶之间的上位效应等一系列代谢瓶颈,使得优化过程复杂且不确定,通路酶的过表达往往会影响细胞生长和产物表达,某些酶可能导致负面效应。为此,我提出是否有一个通用、标准化策略来优化酶或菌株?

我们首先验证过表达是否真的不好?团队通过人为降低某些酶的表达量,制造人工代谢瓶颈,从而获得可控的进化空间。

在这里插入图片描述

于是提出了一种通路瓶颈设计与解除策略的方案,以柚皮素为例:

  • 第一阶段,搭载自动化大设施平台技术,让合成柚皮素的相关基因低水平表达(低拷贝数背景),构建一个柚皮素合成的人工代谢瓶颈。
  • 第二阶段,筛选与原始突变体柚皮素产量相当的候选突变体 4CL-11C1 和 CHS-9H9,消除柚皮素途径的瓶颈。
  • 第三阶段,通过人工智能介导的启动子工程,将单个基因的突变体放回原始通路并平衡代谢流。

研究结果表明,在清晰轨迹的范围内,人工瓶颈创造与解除策略可实现代谢途径的高效进化, 也进一步证实了上位效应可能会限制途径进化的边界。

在此基础上,我们设计了自动化流程,包括指令、克隆、筛菌检测。结果显示,它在生长、筛选、产物提取上跟人手工操作均无明显差异。 但是自动化辅助的代谢途径进化方法,多酶平行进化时间大幅缩短,两周内即可完成一轮平行进化。

基于大量的数据积累,团队又开发了一个机器学习的集成模型 ProEnsemble 来优化代谢增量。实验表明,基于机器学习的集成模型平衡代谢通路,柚皮素产量相比未优化提高 5.16 倍,96 孔板 1.21g/L,发酵罐 3.65g/L,达到报道最高水平。仅通过过表达关键性合成基因,各类修饰的化合物底盘产量高于文献报道水平(借助代谢工程策略)。

ProEnsemble 学习策略构建代谢瓶颈识别-优化闭环系统,成功开发高产柚皮素大肠杆菌底盘,数倍超越业界现有水平,为复杂代谢网络平衡提供普适性解决方案。

搭建大型自动化平台,推动产学研合作

最后我向大家介绍一下这些成果的产业落地,我们已建成一个规模庞大的全自动化平台——中国深圳合成生物研究重大科技设施,包含大型自动化平台,涵盖设计学习、合成测试、用户检测等多个平台。该平台具备强大的功能,可在云端进行机器学习标准化数据处理和实验设计,机器人可协助完成实验操作,制谱检测速度快,仅 10 秒钟就能够生成 1 个样品,实现高通量检测。

此外,平台还提供自动化辅助式软件设计,用户可直接在原件库中挑选所需原件,生成实验指令。我们现已与众多产业界、学术界开展合作,是业界首个实现链霉菌自动化全流程的平台,十分欢迎大家找我们合作。

关于罗小舟教授

罗小舟教授是中科院深圳先进技术研究院,研究员,博士生导师,合成生物学研究所所长助理,入选国家重大人才工程专家-青年项目,国家生物制造产业创新中心 CTO,中国深圳市合成生物重大科技技术设施副总工艺师。

他于 2016 年获得美国斯克里普斯研究所化学博士学位(导师 Peter G. Schultz 院士),随后于加州大学伯克利分校完成博士后研究(合作导师 Jay D Keasling 院士),2019 年加入中国科学院深圳先进技术研究院。先后入选国家级青年人才计划、广东省杰青、深圳市优青。

研究领域聚焦合成生物学领域中生命体内生物化学过程相关研究,包括酶的定向进化、蛋白质工程、高通量筛选以及天然及非天然化合物的生物全合成等,以通讯作者身份在 Nature Metabolism, Advanced Science, Nature Synthesis, Nature Communications, Angew. Chem. Int. Ed.等发表论文 20 篇,共计发表 SCI 论文 50 余篇,申请专利 30 余项,授权 6 项。

推荐阅读
关注数
704
文章数
574
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息