细胞形态学是单细胞生物学领域的核心研究方向之一,其价值在于通过高通量图像分析技术,系统解析遗传扰动或药物扰动下细胞形态的动态变化规律。该研究不仅能显著提升对化合物作用机制(Mechanism of Action, MOA)的预测精度,还可增强对化合物生物活性的评估准确性,最终为表型药物研发(Phenotypic Drug Discovery)中的候选化合物筛选、作用机制验证等关键环节提供数据支撑,有效加速研发进程。
然而,对遗传扰动或药物扰动下细胞形态变化的观测与解析并非一件简单的事情,可筛选的化合物分子规模达百万级以上,可编辑的基因数量亦有成千上万,若采用传统实验手段逐一验证,不仅效率极低,还会导致高昂的时间与经济成本。尽管当前已有多种计算方法被提出并用于细胞形态预测,但其精度与保真度仍无法满足实际研究需求。
具体而言,现有方法的局限性主要体现在两点 :其一,如以 IMPA (IMage Perturbation Autoencoder)为代表的先进模型,其性能高度依赖已知生物学知识或特定数据集,导致模型泛化能力较弱,缺乏广泛的适用性;其二,细胞形态数据易受批次效应、孔位效应等实验干扰因素影响,呈现出较高的噪声水平,这使得真实的细胞形态特征难以被有效捕捉,进而直接影响数据的稳定性和可靠性,制约后续分析结果的准确性。
针对上述挑战,中国香港中文大学、穆罕默德·本·扎耶德人工智能大学等机构的研究人员提出了一个可扩展的转录组引导扩散模型—— MorphDiff,专门用于高保真模拟细胞形态对扰动的响应过程。该模型基于 Latent Diffusion Model(LDM)架构构建,以 L1000 基因表达谱作为条件输入进行去噪训练。
研究结果证实,MorphDiff 的核心优势在于能够精准生成「未见过扰动条件下」的细胞形态, 这一能力使其具备双重关键价值:一方面可助力科研人员高效探索广阔的表型扰动筛选空间,显著降低对大规模实体实验的依赖,从而减少实验成本、提升筛选效率;另一方面又能辅助解析结构多样的药物分子的作用机制,为化合物作用机制的验证提供关键支撑。因此,MorphDiff 可作为一款高性能工具,为表型药物研发提速。
研究成果以「Prediction of cellular morphology changes under perturbations with a transcriptome-guided diffusion model」为题,发表于 Nature Communications。
研究亮点:
- 研究首次将扩散模型创新地应用于细胞形态的预测,为表型药物研发开辟了新途径,提供了新工具*
- 广泛的基准测试表明 MorphDiff 的有效性,尤其在 MOA 检索方面,可达到与基准事实形态学相当的精度,比基线方法分别高出 16.9% 和 8%
论文地址:
https://www.nature.com/articl...
关注公众号,后台回复「转录组引导扩散」获取完整 PDF
更多 AI 前沿论文:
https://hyper.ai/papers*
数据集:大规模多组学数据集验证其有效性
为系统验证 MorphDiff 模型在扰动条件下细胞形态预测的有效性和泛化性,本次研究围绕「遗传扰动-药物扰动」双维度构建了多细胞系、多源数据集体系。 实验中每个样本均采集两类数据——L1000 基因表达谱和细胞形态图像,形成配对数据。前者作为「分子特征输入」,后者作为「表性特征输入」。该方法确保了基因层面扰动信号与形态层面表型响应之间的关联性,仅由目标扰动驱动,从而可排除细胞系差异、实验批次等无关变量干扰。
MorphDiff 模型数据集的处理
在细胞形态学图像数据集方面, 研究采用了 3 个大规模细胞形态学图像数据集,用于对模型进行训练、评估和分析,涵盖 1 个遗传扰动的数据集和 2 个药物扰动的数据集。其中,遗传扰动的数据集来自基于 U2OS 细胞系构建的 JUMP 数据集,包含 130 个遗传扰动;2个药物扰动的数据集分别来自基于 U2OS 细胞系构建的 CDRP 数据集和基于 A549 细胞系构建的 LINCS 数据集,各包含了 1,028 个药物扰动和 61 个药物扰动。
3 个细胞形态图像数据集均进行了预处理和分割,通过 CellProfiler 4.2.5 对大容量级细胞板图像进行分割,得到单细胞级图像,以便进行更小粒度的分析。经过 Cell Painting 技术获取的细胞形态图像均包含 5 个核心通道, 即 DNA(细胞核)、RNA(核仁和细胞质)、ER(内质网)、AGP(高尔基体/细胞膜/肌动蛋白骨架)和 Mito(线粒体)。
除此之外,实验还进一步规划了「无相应形态学图像」的 L1000 数据集, 该数据集主要是为进一步探索模型在「仅获得基因表达数据」场景中的应用,可为后续机制验证、药物筛选等仅提供「数据驱动」假说奠定基础。
模型架构及方法:将基因表达数据与细胞形态图像关联起来
MorphDiff 的核心目标是通过转录组引导的潜在扩散模型框架,实现从 L1000 基因表达谱到细胞形态图像的端到端精准映射。 简单来说,就是设计并训练一个模型,它就像是一座「桥梁」——输入某个「扰动」对应的 L1000 基因表达数据,就能输出这个扰动下细胞该有的形态图像或扰动形态。
MorphDiff 模型的核心由两大模块构成: 形态学变分自编码器(Morphology VAE,MVAE)和潜在扩散模型(Latent Diffusion Model,LDM),如下图 b 所示。
MorphDiff 框架概述
其中,MVAE 是模型的「图像压缩引擎」,负责将多通道、高分辨率的细胞形态图像转化为低维、可解释的潜在表示, 能够解决直接对高维图像训练扩散模型导致的计算成本过高、训练不稳定等问题。从结构层面来看,MVAE 由编码器和解码器两部分组成,编码器将复杂的 5 通道形态图像压缩成简单的低维表示;解码器能根据低维表示还原出原来的形态图像。
LDM 主要负责将「基因表达」和「压缩后的形态特征」进行绑定,帮助模型完成「从基因到形态特征」的关系。 LDM 包括一个加噪和一个去噪过程,加噪过程是先给压缩后的形态特征逐步加「高斯噪声」,直到完全变成随机噪声;去噪过程是让模型在「已知 L1000 基因表达」的条件下,把随机噪声一步步还原成原来的形态特征。模型采用了 U-Net 的网络结构,同时加入了注意力机制,能更精准地关联基因和形态的关键信息。
下图 c 中展示了预训练 MorphDiff 模型的两种应用方式,分别是 G2I 和 I2I。前者以 L1000 基因表达为条件,对随机噪声分布中相应的细胞形态图像进行降噪,从而生成对应的细胞形态图像;后者以特定扰动下的 L1000 基因表达为条件,将形态学图像从对照细胞形态学转换为预测的扰动形态学图像,实现了「从正常到扰动形态」的预测能力。
MorphDiff 通过两种方式生成具有扰动的细胞形态图像
下图 d 展示了 MorphDiff 模型在实际应用中的价值。首先,该模型能够预测训练过程中未遇到的「未见扰动」所引起的细胞形态变化, 这使得研究者不必进行实体实验,仅通过计算机便可模拟如新药物扰动下细胞变化的状态,从而帮助其快速、低成本探索更多可能;其次,该模型框架结合了 CellProfiler 和 DeepProfiler 等工具, 能够帮助识别药物的 MOA ,从而促进表型药物的研发。
MorphDiff 下游应用示意图
研究人员称,MorphDiff 是当前唯一一款支持从基因表达到形态图像生成,且从未扰动形态到扰动形态转化的工具。
实验结果:性能超越 IMPA,可为表型药物研发提速
为了对 MorphDiff 模型的有效性进行验证,研究人员设计了一系列针对不同目的而设置的实验, 并通过与先进工具的实验比较,系统性验证了 MorphDiff 的有效性和实用性。
首先,实验就遗传扰动预测进行了验证。 研究人员在 JUMP OOD 数据集上进行了基准测试,并与多种基线方法进行了比较,包括 MorphNet、DMIT(Disentanglement for Multi-mapping Image-to-Image Translation)、DRIT++(Disentangled Representation for Image-to-Image Translation)、StarGANv1、IMPA、VQGAN (Vector Quantized Generative Adversarial Network)以及 MDTv2(Masked Diffusion Transformers)。
MorphDiff 在遗传扰动预测中的表现
结果显示,MorphDiff 两种模式生成的结果在视觉质量、结构形态等方面,与真实基线都更加接近。 在定量指标方面,包括 FID、IS(Inception Score)、CMMD 以及密度和覆盖率,MorphDiff 两种模式在泛化性、保真度和多样性方面均优于基线方法,输出的质量更高。在预测细胞形态变化方面,MorphDiff(G2I)的输出更加多样化,接近真实基线;MorphDiff(I2I)生成的特征与真实基线特征之间有更高的重叠,说明其预测精度与真实扰动形态显著一致。
之后,实验就药物扰动预测进行了验证。研究人员首先使用 CDRP OOD 数据集对所有方法进行了基准测试,MorphDiff 在多数指标上都取得了优于其他基线方法的亮眼表现,展示了其更强大、更稳定的综合生成能力。 随后,研究人员继续在 LINCS 数据集上对模型进行了更严格的评估,通过将所生成的结果与 CellProfiler 特征比对,进一步研究了细胞形态对小分子化合物的反应。
MorphDiff 在药物扰动测试中的表现
结果显示,MorphDiff 两种模式均显著优于基线, G2I 下 87.6% 的样本评分大于 0.5,16.2% 的样本超过 0.8;I2I 下 89% 的样本评分大于 0.5,27.2% 超过 0.8。作为对比,IMPA 的 78.3% 的样本评分超过 0.5,但没有样本超过 0.8。在对 CDRP OOD 数据集和 LINCS leave-one-out 数据集进行相同分析后,发现 MorphDiff 两种模式均优于基线方法,其 p 值均小于 0.0001,这表明了该方法具有可推广性。
在 DeepProfiler 嵌入分析中, MorphDiff(G2I)能最可靠、最精准地捕捉微扰特异性的细胞形态模式,在药物层面上来看, G2I 模式生成的输出比 I2I 具有更高的扰动特异性。这些证明也进一步说明了 MorphDiff 在药物筛选中的潜力。
最后,实验还验证了 MorphDiff 在药物研发中的能力。研究人员选择了 CDRP Target_MOA 数据集对 MorphDiff 两种应用模式和 IMPA 进行了基准测试。
MorphDiff 在药物研发测试中的表现
结果显示,MorphDiff 生成的扰动形态与真实基线高度一致, 证明了其能够捕捉靶点相关的多样性,证实了其有效学习药物扰动和形态之间复杂关系的能力。在 MOA 检索任务中, MorphDiff 生成的结果的平均准确率比基于 IMPA 和基于基因表达的检索分别高出了 16.9% 和 8%。除此外,实验还证明了 MorphDiff 能够发现细胞形态包含互补信息,可以识别具有相同 MOA 但结构不同的药物,这有助于加速表型药物的研发。
「硅基模拟」方法成主流,为下游药物研发提速
表型药物研发与基于靶点的药物研发有着不同的药物发现方式,其通过观察药物对整体生物系统或细胞表型的影响来发现和开发药物,在发现新的作用机制和靶点、治疗复杂疾病等方面有着巨大优势。围绕这一课题,不少实验室和研究机构都纷纷倾注心血,通过计算机技术与生物医学交叉融合,开创表型药物研发的新篇章。
如在论文中提到的 IMPA 模型,这是由德国慕尼黑工业大学和英国牛津大学团队提出的一种深度生成式模型,采用风格迁移方法,将细胞图像分解为「风格」(扰动/批次表示)和「内容」(细胞表示),能预测细胞对扰动的响应并去除批次效应。 文章以「Predicting cell morphological responses to perturbations using generative modeling」为题,同样发表于 Nature Communications 上。
此外,在密歇根大学的团队发表的题为「MorphNet Predicts Cell Morphology from Single-Cell Gene Expression」的文章中,提出了一种名为 MorphNet 的计算方法,它可以根据细胞的基因表达谱绘制其形态图像。 该方法利用成对的形态学和分子数据来训练神经网络,使其能根据基因表达预测细胞核或整个细胞的形态。
总而言之,通过观测和分析遗传扰动或药物扰动下细胞状态变化,促进表型药物的研发和生物学研究已经是一项重要的课题。关于 MorphDiff,虽然其仍存在诸多不足之处,比如面对训练数据以外的大量新扰动,其对未见扰动的预测仍存在挑战,但可见的是,MorphDiff 在「先辈」的基础上正不断完善,从实用性到泛化性,从易用性到推广性,均在超越。