过去一年,AI 掀起了全球的变革浪潮,生物医药领域尤为引人注目。
以 AlphaFold 为代表的 AI 系统,能够以前所未有的精度预测蛋白质三维结构,为理解蛋白质功能和开发靶向药物提供了革命性工具。在药物研发领域,AI 不仅可以基于海量药物数据,预测药物特性,还可设计新药,缩短药物从实验室到临床的研发周期。同时,AI 还可从海量基因测序数据中精准挖掘信息,快速识别基因突变,助力科研人员锁定与疾病相关的基因变异。此外,AI 还可优化细胞分化过程、推动细胞大模型的研发......
随着 2024 年诺贝尔化学奖授予计算蛋白质设计与蛋白质结构预测领域,AI 在生物医药领域的革命性作用再次得到全球认可。
本期文章,HyperAI超神经聚焦 AI 在生物医药领域的最新研究,为读者精选了 2023—2024 年间解读的 46 篇前沿论文。这些论文覆盖 CVPR 2024、ICLM 2024、ACL 2024、Nature 等国际知名顶会/期刊,研究单位则遍布国内外顶级高校与机构,包括微软研究院、DeepMind、麻省理工学院、加州大学、中国科学院、清华大学、复旦大学、北京大学、浙江大学、上海交通大学、上海人工智能实验室等。
点击下方论文题目或中文解读,即可跳转论文解读页面,希望对您有所帮助。
更多 AI+生物医药最新成果详见:
https://github.com/hyperai/awesome-ai4s
01
论文题目:Accurate de novo design of high-affinity protein binding macrocycles using deep learning, 2024.11
中文解读:David Baker最新成果!从头设计大环肽结合物框架RFpeptides,为不可成药蛋白质提供新可能性
研究内容:David Baker 团队研发了一项新的基于扩散模型的技术——RFpeptides,专门针对多种蛋白靶标设计高亲和力的大环结合物。
02
论文题目:BIoCLIP: A Vision Foundation Model for the Tree of Life, 2024.02
中文解读:CVPR最佳学生论文!1千万张图像、跨越45万+物种的超大数据集,多模态模型BioCLIP实现零样本学习
研究内容:美国俄亥俄州立大学、微软研究院、加州大学欧文分校、伦斯勒理工学院等发布了迄今最大、最具多样性的适用于机器学习的生物学图像数据集 TreeOfLife-10M,并开发了生命之树的基础模型 BioCLIP,该模型充分利用 TreeOfLife-10M 中植物、动物和真菌的多样化生物图像,在多种细粒度生物学分类任务中,其表现显著优于现有方法。
03
论文题目:Y-Mol: A Multiscale Biomedical Knowledge-Guided Large Language Model for Drug Development, 2024.10
中文解读:首个!四大高校联合推出药物研发大语言模型Y-Mol,性能全面领先LLaMA2
研究内容:湖南大学、中南大学、湖南师范大学、湘潭大学的研究团队联合提出了一种多尺度生物医学知识指导的大语言模型 Y-Mol,它能够在不同的文本语料库和指令上进行微调,增强了模型在药物研发方面的性能与潜力。
04
中文解读:合成生物新突破!中科院罗小舟团队开发 ProEnsemble 机器学习框架:优化进化通路启动子组合
研究内容:中国科学院深圳先进技术研究院合成所,将自动化和 ProEnsemble 机器学习框架结合,攻克了代谢途径进化不确定性的技术壁垒,实现了柚皮素产量从实验室到工业规模生产的跨越,其通用型底盘可成功合成高产量黄酮类化合物。
05
论文题目:Deep Learning-Assisted Automated Multidimensional Single Particle Tracking in Living Cells, 2024.03
中文解读:纳米尺度下的单粒子追踪,厦门大学方宁团队用 AI 奏响「细胞里的摇滚」
研究内容:厦门大学方宁教授团队基于深度学习,研发了一种自动化、高速、多维的单粒子追踪 (SPT) 系统,打破了细胞微环境中纳米颗粒旋转追踪的局限性。
06
论文题目:AlphaFold Meets Flow Matching for Generating Protein Ensembles, 2024.06
中文解读:入选ICML!麻省理工团队基于AlphaFold实现新突破,揭示蛋白质动态多样性
研究内容:麻省理工学院的研究团队选用 AlphaFold 和 ESMFold,并在自定义流匹配 (Flow Matching) 框架下对其进行微调,以获得序列条件的蛋白质结构生成模型,称为 AlphaFLOW 和 ESMFLOW。
07
论文题目:ProSST: Protein Language Modeling with Quantized Structure and Disentangled Attention, 2024.05
中文解读:PLM重大突破!上海交大与上海AI Lab最新成果入选NeurIPS 24,ProSST有效整合蛋白质结构信息
研究内容:上海交通大学团队开发出具有结构感知能力的预训练蛋白质语言模型 ProSST,能够将蛋白质结构和氨基酸序列信息有效融合,在热稳定性预测、金属离子结合预测、蛋白质定位预测、 GO 注释预测等任务中优于现有模型。
08
论文题目:Cytochrome P450 Enzyme Design by Constraining the Catalytic Pocket in a Diffusion Model, 2024.07
中文解读:催化能力提高 3.5 倍!中科院团队基于扩散模型,开发 P450 酶从头设计方法 P450Diffusion
研究内容:中国科学院天津工业生物技术研究所的新酶设计团队,开发了基于扩散模型和口袋设计原则的 P450 酶从头设计方法 P450Diffusion。
09
论文题目:DePLM: Denoising Protein Language Models for Property Optimization, 2024.11
中文解读:入选NeurIPS 24!浙大团队提出全新去噪蛋白质语言模型DePLM,突变效应预测优于SOTA模型
研究内容:浙江大学团队提出了一种针对蛋白质优化的全新去噪蛋白质语言模型 (DePLM),可将蛋白质语言模型捕捉到的进化信息视为与特性相关和无关信息的混合体,其中无关信息被视为「噪音」消除,模型具有强大的泛化能力。
10
中文解读:入选ICML!人大团队将等变图神经网络用于靶蛋白结合位点预测,性能最高提升20%
研究内容:中国人民大学高瓴人工智能学院的研究团队首次将 E(3) 等变图神经网络 (GNN) 应用于配体结合位点预测,提出 EquiPocket 框架,有助于药物发现等各种下游任务。
11
中文解读:实现蛋白质动态对接预测!上海交大/星药科技/中山大学等联合推出几何深度生成模型DynamicBind
研究内容:上海交通大学联合星药科技、中山大学药学院以及美国莱斯大学,提出了为蛋白质「动态对接」设计的几何深度生成模型 DynamicBind,该方法在国际药物筛选大赛 CACHE 上被湿实验验证,可为治疗帕金森疾病的难成药靶点筛选出具有竞争力的苗头化合物。
12
中文解读:韩国版AlphaFold?深度学习模型AlphaPPIMd:用于蛋白质-蛋白质复合物构象集合探索
研究内容:延世大学及其合作者将深度学习与生成式 AI 结合,构建 AlphaPPIMd 模型,通过分子动力学模拟揭示出蛋白质相互作用的奥秘。
13
论文题目:UniIF: Unified Molecule Inverse Folding, 2024.05
中文解读:入选NeurIPS 2024!西湖大学提出通用分子逆折叠模型UniIF,对AlphaFold 3形成进一步补充
研究内容:西湖大学未来产业研究中心的团队提出了 UniIF 模型,用于所有分子的逆折叠,该模型在蛋白质设计、RNA 设计和材料设计等多个任务上都达到了最先进的性能。
14
中文解读:权威期刊Cell Discovery新成果!上海交大洪亮团队提出CPDiffusion模型,超低成本、全自动设计功能型蛋白质
研究内容:上海交通大学团队设计了一种扩散概率模型框架 CPDiffusion,该框架能够以非常低的训练成本、数据成本学习蛋白质的序列、结构与功能之间的隐含映射关系,从而生成多样化的蛋白质序列。
15
论文题目:ProtT3: Protein-to-Text Generation for Text-based Protein Understanding, 2023.05
中文解读:入选ACL 2024!实现蛋白质数据与文本信息跨模态解读,中科大王翔团队提出蛋白质-文本生成框架ProtT3
研究内容:中国科学技术大学,联合新加坡国立大学、北海道大学研究团队提出了一个全新的蛋白质-文本建模框架 ProtT3,该框架通过跨模态投影器,将具有模态差异的 PLM 与 LM 结合,在蛋白质字幕、蛋白质问答、蛋白质-文本检索任务中均取得了优异性能。
16
论文题目:InstructProtein: Aligning Human and Protein Language via Knowledge Instruction, 2023.10
中文解读:入选ACL2024主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言
研究内容:浙江大学研究团队提出 InstructProtein,利用知识指令对齐蛋白质语言与人类语言,展示了将生物序列整合到大语言模型的能力。
17
论文题目:ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling, 2024.06
中文解读:入选顶会ICML,清华AIR等联合发布蛋白质语言模型ESM-AA,超越传统SOTA
研究内容:清华大学、北京大学、南京大学的联合研究团队提出了一种多尺度的蛋白质语言模型 ESM-AA,在靶点-配体结合等任务上的性能显著提升。
18
论文题目:Sequence modeling and design from molecular to genome scale with Evo, 2024.11
中文解读:抢先体验Demo!基因组基础模型Evo登Science封面,实现从分子到基因组尺度的预测与生成
研究内容:Evo 模型可预测、生成和设计基因组序列,有望被应用于基因编辑、药物发现、疾病诊断、农业等领域,HyperAI超神经教程版块现已上线「Evo:从分子到基因组规模的预测和生成」,一键克隆即可快速体验!
19
论文题目:Large-scale foundation model on single-cell transcriptomics, 2024.06
中文解读:1亿参数的细胞大模型来了!登Nature子刊,清华大学团队发布scFoundation:对2万基因同时建模
研究内容:清华大学自动化系生命基础模型实验室和电子系/AIR 合作开展研究,构建了拥有 1 亿参数的 scFoundation 细胞大模型,能够同时处理约 2 万个基因,在细胞测序深度增强、细胞药物响应预测和细胞扰动预测等任务中,表现出显著的性能提升。
20
中文解读:20个实验数据创造AI蛋白质里程碑!上海交大联合上海AI Lab发布FSFP,有效优化蛋白质预训练模型
研究内容:上海交通大学联合上海人工智能实验室,提出了一个基于蛋白质预训练模型的微调训练方法 FSFP,能在只利用 20 个随机湿实验数据的情况下,高效训练蛋白质预训练模型,且大幅提高模型的单点突变预测阳性率。
21
论文题目:Protein Engineering with Lightweight Graph Denoising Neural Networks, 2024.04
中文解读:无实验数据指导蛋白质定向进化,上海交大洪亮课题组发表微环境感知图神经网络 ProtLGN
研究内容:上海交通大学研发了一种名为 P(ROT)LGN 的微环境感知图神经网络,能够从蛋白质三维结构中学习并预测有益的氨基酸突变位点,指导具有不同功能白质单位点突变和多位点突变设计。
22
中文解读:登 Cell 子刊!清华大学张强锋课题组开发 SPACE 算法,组织模块发现能力领先同类工具
研究内容:清华大学生命科学学院/结构生物学高精尖创新中心/清华-北大生命科学联合中心开发了基于图自编码器深度学习框架的人工智能算法 SPACE,能够从单细胞分辨率的空间转录组数据中识别空间细胞类型和发现组织模块。
23
中文解读:西湖大学利用 Transformer 分析百亿多肽的自组装特性,破解自组装法则
研究内容:西湖大学团队利用基于 Transformer 的回归网络,对百亿种多肽的自组装特性进行了预测,并分析得到了不同位置氨基酸对自组装特性的影响,为自组装多肽的研究提供了强力的新工具。
24
论文题目:IMN4NPD: An Integrated Molecular Networking Workflow for Natural Product Dereplication, 2024.02
中文解读:全面挖掘天然药物的药效成分,中南大学刘韶教授团队构建 IMN4NPD 平台
研究内容:中南大学团队通过整合两个不同的分子网络,构建了 IMN4NPD 平台,可用于全面挖掘微量且结构特异性的天然药物药效成分。
25
论文题目:AlphaProteo generates novel proteins for biology and health research, 2024.09
中文解读:DeepMind新成果被批像广告?AlphaProteo可高效设计靶蛋白结合物,亲和力提高300倍
研究内容:DeepMind 发布用于新型蛋白质设计的 AlphaProteo,只需要通过一轮中等通量筛选,无需进一步优化,即可生成「即用型」蛋白质结合剂。
26
论文题目:Fast, sensitive detection of protein homologs using deep dense retrieval, 2024.08
中文解读:灵敏度提高56%,港中文/复旦/耶鲁等联袂提出全新蛋白质同源物检测方法
研究内容:香港中文大学联合复旦大学智能复杂体系实验室、上海人工智能实验室、耶鲁大学提出了一种超快速、高灵敏度的蛋白质同源物检测框架。
27
论文题目:Generating All-Atom Protein Structure from Sequence-Only Training Data, 2024.12
中文解读:LeCun转发,UC伯克利等提出多模态蛋白质生成方法PLAID,同时生成序列和全原子蛋白结构
研究内容:加州大学伯克利分校、微软研究院等提出了一种多模态蛋白质生成方法 PLAID ,可以从更丰富的数据模态 (例如序列) 生成较稀缺的模态 (例如晶体结构) 来实现多模态生成。
28
论文题目:Accurate proteome-wide missense variant effect prediction with AlphaMissense, 2023.09
中文解读:DeepMind 利用无监督学习开发 AlphaMissense,预测 7100 万种基因突变
研究内容:DeepMind 开发了 AlphaMissense,并对人类可能出现的 7,100 万种基因错义突变进行预测发现,其中 32% 可能为致病性突变,57% 可能为良性突变,这些结果将极大促进分子生物学、基因组学、临床医学等学科的发展。
29
中文解读:可抑制癌细胞增殖!慧湖药学院联手天津医科大,研发新型肿瘤抑制蛋白降解剂 dp53m
研究内容:西交利物浦大学慧湖药学院联合天津医科大学总医院,研发了一种具有选择性的 p53-R175H 降解剂——dp53m,该降解剂可以特异性识别突变 p53-R175H 蛋白,实现目标蛋白的靶向降解,抑制突变 p53 蛋白的功能性表达。
30
中文解读:上海交大余祥课题组发布可迁移深度学习模型,鉴定多类型 RNA 修饰、显著减少计算成本
研究内容:上海交通大学,联合上海辰山植物园团队,开发了可迁移深度学习模型 TandemMod,实现了在直接 RNA 测序 (DRS) 中鉴定多种类型的 RNA 修饰。
31
论文题目:Drug repositioning with adaptive graph convolutional networks, 2024.01
中文解读:老药新用,中南大学团队发布 AdaDR,基于自适应图卷积网络进行药物重定位
研究内容:中南大学研究团队提出了一种名为 AdaDR 的自适应 GCN 方法,通过深度集成节点特征和拓扑结构来进行药物重定位。
32
中文解读:千万耐药细菌感染病患福音!麦马联手斯坦福,用生成式 AI 开发新型抗生素
研究内容:麦克马斯特大学和斯坦福大学的研究人员,开发了一种生成式 AI 模型 SyntheMol,可以基于近 300 亿个分子的化学空间,设计出易于合成的新型化合物。
33
论文题目:Viruslmmu: a novel ensemble machine learning approach for viral immunogenicity prediction, 2023.11
中文解读:疫苗研发新突破:北航团队提出病毒抗原免疫原性预测新方法 VirusImmu
研究内容:北京航空航天大学团队,开发了一种用于病毒抗原免疫原性预测的机器学习集成方法 (Viruslmmu),在预测病毒蛋白片段的免疫原性方面表现出巨大的潜力,为疫苗开发人员提供一个工具。
34
论文题目:UniKP: a unified framework for the prediction of enzyme kinetic parameters, 2023.12
中文解读:中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数
研究内容:中国科学院深圳先进技术研究院团队提出了,基于酶动力学参数预测框架 (UniKP),实现多种不同的酶动力学参数的预测。
35
论文题目:Mosaic integration and knowledge transfer of single-cell multimodal data with MIDAS, 2024.01
中文解读:自主研发!军事医学研究院团队提出 MIDAS,可用于单细胞多组学数据马赛克整合
研究内容:军事医学研究院团队,提出了一种用于单细胞多组学数据马赛克式整合及知识迁移的计算工具 MIDAS,首次实现了通用的单细胞多组学马赛克数据的模态对齐、数据补全、批次校正等整合功能。
36
中文解读:比最优技术快 8 倍:浙大侯廷军等人提出 ResGen,基于蛋白质口袋的 3D 分子生成模型
研究内容:浙江大学与之江实验室研究团队提出了一种基于蛋白质口袋的 3D 分子生成模型——ResGen,与以往最优技术相比,速度提升 8 倍,成功地生成了具有更低结合能和更高多样性的类药物分子。
37
论文题目:A principal odor map unifies diverse tasks in olfactory perception, 2023.08
中文解读:Google 基于 GNN 开发气味识别 AI,工作量相当于人类评价员连续工作 70 年
研究内容:Google Research 的分支 Osmo 公司基于图神经网络开发了一种气味分析 AI。它可以根据化学分子的结构,对该分子的气味进行描述,在 53% 的化学分子、55% 的气味描述词判断中优于人类。
38
论文题目:Machine learning enhances prediction of plants as potential sources of antimalarials, 2023.05
中文解读:英国皇家植物园采用机器学习预测植物抗疟性,将准确率从 0.46 提升至 0.67
研究内容:英国皇家植物园及圣安德鲁斯大学的研究人员证明了机器学习算法能够有效预测植物抗疟性,准确率为 0.67,相较传统试验方法的 0.46,有明显提升。
39
论文题目:Machine learning models to accelerate the design of polymeric long-acting injectables, 2023.01
中文解读:横向对比 11 种算法,多伦多大学推出机器学习模型,加速长效注射剂新药研发
研究内容:多伦多大学研究人员开发了一个机器学习模型,可预测长效注射剂药物释放速率,提速药物整体研发流程。
40
中文解读:华东理工李洪林课题组开发 Macformer,加速大环类药物发现
研究内容:华东理工大学团队基于 Transformer 开发了 Macformer,成功将无环药物菲卓替尼大环化,得到了药效更强的新化合物,为药物开发提供了新方法。
41
中文解读:北京大学研发基于机器学习的多能干细胞分化系统,高效、稳定制备功能性细胞
研究内容:北京大学联合北京交通大学团队研发了一个基于活细胞明场动态图像和机器学习的分化系统,能够实时智能调节和优化多能干细胞分化过程,实现对功能性细胞的高效、稳定性生产。
42
论文题目:Predicting pharmaceutical inkjet printing outcomes using machine learning, 2023.12
中文解读:药物 3D 打印新突破:圣地亚哥大学用机器学习筛选喷墨打印生物墨水,准确率高达 97.22%
研究内容:圣地亚哥德孔波斯特拉大学以及伦敦大学学院的研究人员将机器学习模型应用于预测生物墨水可打印性,成功地提高了预测率。
43
论文题目:Deep learning-guided discovery of an antibiotic targeting Acinetobacter baumannii, 2023.05
中文解读:AI 对抗超级细菌:麦克马斯特大学利用深度学习发现新型抗生素 abaucin
研究内容:麦克马斯特大学以及来自麻省理工学院的研究人员利用深度学习筛选了大约 7,500 个分子,找出了抑制鲍曼不动杆菌的新型抗生素。
44
论文题目:Discovery of Senolytics using machine learning, 2023.05
中文解读:拒绝细胞衰老、远离老年疾病,爱丁堡大学给细胞开出 3 张「AI 抗衰处方」
研究内容:爱丁堡大学联合坎塔布里亚大学利用机器学习发现了三种抗衰药—— Ginkgetin, Periplocin 及 Oleandrin,并验证了其在人类细胞系中的抗衰作用。
45
论文题目:Rules and mechanisms governing G protein coupling selectivity of GPCRs, 2023.09
中文解读:佛罗里达大学利用神经网络,解密 GPCR-G 蛋白偶联选择性
研究内容:佛罗里达大学的研究者测定了 GPCRs 和 G 蛋白的结合选择性,并开发了预测二者选择性的算法,对这一选择性的结构基础进行了研究。
46
论文题目:Discovery of a structural class of antibiotics with explainable deep learning, 2023.12
中文解读:「超级细菌」魔咒或将打破,MIT 利用深度学习发现新型抗生素
研究内容:MIT 的研究者们利用图神经网络 Chemprop 从大型化学库中识别潜在的抗生素,并发现了一类新型抗生素。
以上就是本期汇总的 AI+生物医药前沿论文,更多最新成果详见: