最近,视觉语言模型(VLMs)如 CLIP 在视觉任务的自监督表示学习方面取得了显著成功。然而,有效地将 VLMs 应用到下游任务仍具有挑战性,因为它们的准确性通常依赖于耗时且需要专业知识的时间密集型 Prompt 工程,而全模型微调则成本高昂。
这在生物医学图像中尤为明显,因为与自然图像不同,生物医学图像通常具有有限的标注数据集、不直观的图像对比和细微的视觉特征。为了解决这些问题,最近的一些 Prompt 学习技术,如上下文优化(CoOp)旨在应对这些挑战,但普遍性仍有限。
同时,对生物医学图像分析的 Prompt 学习探索仍然非常有限。
在本工作中,作者提出了一种名为 BiomedCoOp 的新颖 Prompt 学习框架,该框架可以有效地将 BiomedCLIP 应用于准确且高度泛化的少量生物医学图像分类。作者的方法通过利用大型语言模型(LMs)的平均 Prompt 集成和基于统计学的 Prompt 选择策略进行语义一致性以及知识蒸馏,实现了有效的 Prompt 上下文学习。
作者在 9 种医学数据集(涵盖 10 个器官)和 11 个类别上进行了全面验证,与现有的最先进方法进行了对比,结果显示在准确性和泛化性方面都取得了显著的改进。
1 Introduction
视觉语言模型(VLMs)的最新突破为利用多种模态数据在各种应用中开辟了新的可能性。与传统监督学习(关注闭合集合视觉概念)不同,像对比语言图像预训练(CLIP)[37]这样的模型,通过对比预训练将视觉和文本信息对齐,借助自然语言监督,可以探索开放集合视觉概念。然而,这些模型的成功往往依赖于指导其预测的文本 Prompt 的质量,而大规模 VLMs 的全模型微调则是不切实际的。为了缓解这些问题,优化视觉语言模型中的文本 Prompt [25, 50, 51]的学习成为了一种关键的技术,在不进行大量微调的情况下提高性能。值得注意的是,Context Optimization(CoOp)[51]为 CLIP 开创了这种方法,将文本 Prompt 视为可学习的上下文向量,并保留预训练模型权重。同时,其他方法[16, 47, 19]则关注于通过 Adapter [18]和线性 Prob [37]实现轻量级的少样本适应,以提供参数高效的模型适应解决方案。
与自然图像不同,生物医学图像包括广泛的对比度和成像模式,这取决于成像设备和参数。这些图像(如 MRI 和超声)通常具有独特的视觉外观,比典型照片更具挑战性。此外,与生理和病理变化相关的图像特征(如颜色、纹理、形状和解剖学背景)更为精细和复杂,且在不同成像模式之间可能存在差异。最后,由于隐私问题和临床专业知识的严格要求,高质量的标注生物医学图像数据集在开发临床深度学习模型时较为稀缺。尽管变分自编码器(VLMs)及其相关 Prompt 学习技术在自然图像数据集和基准测试中取得了成功,但其在生物医学成像领域(如诊断)的应用,由于存在独特的挑战,目前尚处于未被充分探索的阶段。
由于生物医学图像领域知识的独特性, prompt 学习的视觉语言模型的基础可能需要针对性的预训练才能达到最佳效果。如 BiomedCLIP [48] 这样的生物医学专用 VLMs(在互联网资源上预训练了 150 万对生物医学图像-文本配对),更适合生物医学任务[49]。尽管最近的一些工作 [3, 6, 15] 通过使用自然图像训练的 CLIP Backbone 网络对生物医学图像分类进行 prompt 学习进行了研究,但他们的探索仍局限于具有较大数据集的任务(如胸片和皮肤病学),这些数据集可能并不适用于其他临床任务。值得注意的是,这些方法要么使用完整的训练数据集 [3, 15],要么通过额外的基础模型(如 MedSAM [33])进行域控制 prompt 学习,从而降低了它们的计算效率。此外,在现有的 prompt 学习方法中,还需要进一步提高准确性和泛化能力,以适应未见过的类别。因此,探索基于生物医学专用 VLMs(如 BiomedCLIP)的更高效、更可靠的新的 prompt 学习技术,并在生物医学图像的多样化的基准数据集上进行大规模验证,具有很高的实用价值和迫切性。
在这项工作中,作者提出了一种创新性的 Prompt 学习框架,名为 BiomedCoOp,该框架基于 CoOp [51],以促进 CLIP 类似 VLMs(如 BiomedCLIP)在少样本生物医学图像分类中的有效适应。作者的方法不仅专注于文本 Prompt 优化的有效策略,而且主要依赖大型语言模型(LLMs),从而不仅减少了计算开销,而且保留了预训练模型的基础知识。具体而言,由于成像模式(例如,超声与 MRI)之间的巨大差异,作者假设在生物医学领域应用的少样本学习策略将有助于解决数据限制,同时应对人类设计的 Prompt 模板在上下文学习中的局限性。此外,LLMs 可以帮助减轻人类设计的 Prompt 模板在上下文学习中的局限性。
作者的四个关键贡献包括:
- 作者提出了一种新颖的 Prompt 学习方法,通过从大型语言模型(例如 GPT-4)派生出 Prompt 子集并采用有效的知识蒸馏策略,来增强上下文向量学习中的语义一致性。
- 为了应对 LLM 在上下文学习过程中产生的异常 Prompt 挑战,这可能导致过度专业化并阻碍泛化,作者采用了一种基于统计的剪枝策略,以降低“遗忘”重要生物医学模式的风险,同时保持对多种疾病表现形式的敏感性。
- 作者首次采用 BiomedCLIP [48]进行 Prompt 学习,并在下游临床任务中展示了相对于通用知识 CLIP 的优势。
- 作者对提出的方法在现有 CLIP Prompt 学习技术进行了全面的评估,使用 11 个不同的生物医学图像分类数据集,跨越 9 种模态和 10 个器官,在少样本和从基础到新的一般化基准测试中。作者的结果突显了 BiomedCoOp 在各种医学条件和成像模态的广泛适用性和鲁棒性。
2 Related Work
Vision-Language Models
视觉语言模型如 CLIP [37]和 ALIGN [21]将多模态学习与自监督的视觉和文本表示相结合,在共享特征空间中实现了显著的性能,包括零样本分类和跨模态检索。在生物医学领域的最新扩展包括 BioViL [4],PubMedCLIP [14]和 BiomedCLIP [48],它们使用数百万生物医学图像-文本对将视觉语言模型适应到生物医学数据。然而,尽管这些模型有效,但仍然需要额外的任务特定适应,以捕捉临床应用中至关重要的细微差别,如疾病特定 nuances [42, 49]。这些限制突显了需要进一步针对目标临床任务进行领域特定适应的方法的需求。
Prompt Learning
Prompt 学习作为一种强大的替代传统模型微调方法,正在成为视觉语言模型的有力选择,例如 Coop [51]和 CoCoOp [50]将文本 Prompt 视为主要的可学习组件,引导 VLMs 执行特定任务。在生物医学应用中, Prompt 学习已经展示出初步潜力,可以在不改变预训练权重的情况下实现少样本适应 [13]。近年来,自然视觉领域的方法如 MaPLe [24]同时适应了 CLIP 的视觉和语言组件,而 PromptSRC [26]则应用了自我调节技术以提高 Prompt 的泛化能力,而不会牺牲先验知识。补充这些方法,KgCoOp [43]和 ProGrad [53]分别使用知识和梯度指导来优化文本 Prompt ,以提高模型泛化能力。此外,ProText [27]从 LLM 生成的文本数据中进行深度 Prompt 学习,可以实现跨数据集和跨类别的转移,而无需需要 Token 图像。然而,这些方法可能不适合生物医学应用,因为存在先前的挑战,特别是在解剖学和病理特征描述方面存在跨模态差异。最近,包括 ViP [15]和 XCoOp [3]在内的一些生物医学特定方法,通过集成疾病特定的术语和上下文 Token ,增强了 VLMs 在临床任务中的适应性。
域控制 Prompt 学习(DCPL)[6]进一步通过集成域特定的偏见,使视觉和语言分支都具有适应性,特别是在诸如遥感和医学影像等专用领域,自然领域 Prompt 存在缺陷。尽管有一些针对生物医学任务的定制解决方案,但这些方法通常需要对视觉和语言组件进行更重的适应,并需要临床专家的干预,从而可能限制其性能、实现简便性和对更广泛任务的泛化能力。正如 Khattak 等人[27]所建议的,在 LLM 中建立可学习上下文和知识之间的强健映射,可以有利于 VLMs 的性能和适应性。最近,如 GPT-4 在诊断报告中实现了人类 Level 的性能和稳定性升级[17, 30],结合最新的 LLM(如 GPT-4),以及生物医学特定的 VLMs(如 BiomedCLIP),可能提供一种更便捷的方式,将生物医学领域的专业知识集成到 VLMs 中,以实现数据高效的 Prompt 学习解决方案,适合各种临床需求。然而,这仍然需要探索,作者打算利用这些进步来改进作者的方法。
Few-shot Adaptation of VLMs
少样本自适应技术使得视觉语言模型可以在极少 Token 数据的情况下实现任务专业化,以平衡泛化和特定域的专属性。除了基于少样本的 Prompt 学习外, Adapter 方法如 CLIP-Adapter [16]和 Tip-Adapter [47] 引入了轻量级模块,在保持零样本能力的同时调整视觉特征。具体而言,CLIP-Adapter 通过紧凑的 MLP 修改视觉嵌入。Tip-Adapter 使用基于相似度的机制,直接将支持集的视觉特征混合到模型的预测器中,以在极少数据的情况下增强准确性,但需要仔细调整。增强的线性检测方法,如 LP++ [19],通过混合视觉和文本特征并使用数据驱动的隐式学习率实现竞争少样本性能,而无需广泛的超参数优化。最后,CLAP [38] 通过使用适应性惩罚来保持适应性接近原始零样本原型,从而进一步限制适应性。这些方法通常在 VLMs 的最后几层调整视觉嵌入,专注于调整模型特征。相比之下,针对优化文本 Prompt 输入的 Prompt 学习方法可能在计算效率和未见类别的适应性方面更具优势,特别是在生物医学成像领域。
3 Methodology
如图 1 所示,作者提出了一个名为 BiomedCoOp 的框架。通过利用 BiomedCLIP Backbone 网络来编码丰富的图像和文本特征,作者的方法提出了两个主要组件,以实现有效 Prompt 上下文学习的联合。具体而言,_Semantic Consistency by Contextual Mapping_(SCCM)组件通过最小化它们到特定类别 Prompt 的距离,将文本嵌入与普通生物医学知识对齐。作者设计了一个 Knowledge Distillation with Selective Prompting (KDSP)组件,通过基于统计的 Prompt 选择来优化上下文映射。统一的学习目标将交叉熵损失、 SCCM 的均方误差(MSE)损失和 KDSP 的 Kullback-Leibler(KL)散度损失相结合,以确保准确和鲁棒的模型表示。
Contrastive Language-Image Pre-training
LLM Prompt Ensembling
虽然 Prompt 集合并(prompt ensembling)表明通过引入多种文本表示(text representations)[46]可以促进 Prompt 学习,但之前在自然视觉任务[32]中采用的人为设计的 Prompt 模板在生物医学领域中可能面临获取相关临床知识和描述多样性不足的障碍。值得注意的是,最近的研究[17, 30]表明 GPT-4([1])在与临床案例报告相关任务上的性能得到了验证。
Selective Prompting via Outlier Exclusion
在 KDSP 组件中,作者进一步通过考虑 LLM 生成的 Prompt 的概率分布来优化学习的上下文。过具体的 Prompt 可能导致模型在特定的疾病状态上过度拟合,而不适用的低分 Prompt 与相关生物医学特征不匹配,可能损害准确性。因此,作者提出了一种选择性 Prompt 集成和异常修剪的方法。通过移除这些异常值, Prompt 的分布得到优化,确保选择的文本 Prompt 分布反映更广泛的生物医学见解,帮助模型在保留 BiomedCLIP 模型灵活性的同时避免“遗忘”关键的一般知识。这使得模型在生物医学图像中处理不同疾病表现时的典型和异常特征保持敏感。
最后,为了使来自图像嵌入的 logits 与可学习上下文 Prompt (学生 logits)以及来自图像嵌入的具有选择性 LLM 生成文本嵌入的 logits(教师 logits)的分布对齐,作者在 KDSP 组件中最小化这两个分布之间的 KL 散度:
λ1,和 λ2 是损失平衡权重。
4 Experiments and Results
Experimental Setup
作者评估了作者的 BiomedCoOp 框架在多个用于测试各种少样本图像分类任务中的准确性和泛化能力的多项基准生物医学成像数据集上的有效性。
为了评估模型在有限监督下的性能,作者进行了少量示例实验,每类标签的示例数不同( k = 1, 2, 4, 8, 和 16 个示例)。这对于评估模型从稀疏数据中学习有效性的能力至关重要,这在生物医学应用中是一种常见情况,同时保留任务特定和通用领域的知识。
从基础到新类泛化: 为了评估作者技术模型的泛化能力,每个数据集都被分为基础和新型类别。模型在基础类别上使用 16 个样本进行训练,然后在其上进行评估,同时也在基础和新型类别上进行评估。这种设置测试了模型在同一数据集内泛化到未见过的类别的能力,展示了其识别新型疾病表现的能力,而无需进行额外的微调。
作者在 11 个不同的医学影像数据集上进行实验,涵盖 10 个不同的器官和 9 种成像模式:计算机断层扫描(CT,如 Kidney CT [20]),皮肤镜检查(如 DermaMNIST [10, 40]),内窥镜检查(如 Kvasir [35]),眼底摄影(如 RETINA [31, 36]),病理学(如 LC25000 [5],CHMNIST [22]),磁共振成像(如 BTMRI [34]),光学相干断层扫描(如 OCTMNIST [23]),超声(如 BUSI [2]),以及 X 射线(如 COVID-QU-Ex [39],KneeXray [7])。这个选择包括复杂的 dataset,如脑 MRI 和超声,以确保模型在广泛的生物医学影像环境下的性能得到充分评估。实验的详细数据划分和任务包括在_Supplementary Materials_中。
Few-shot Evaluation
作者将 BiomedCoOp 与四种文本 Prompt 学习方法(CoOp、CoCoOp、ProGrad、KgCoOp)、三种 CLIP 基于的 Adapter 方法(CLIP-Adapter、Tip-Adapter、Tip-Adapter-F)和两种线性检测方法(标准线性检测、LP++)进行了比较。在本研究中,作者关注的是仅优化文本 Prompt 的学习技术,排除同时学习文本和图像 Prompt 的方法(如 MaPLe、DCPL)。此外,作者将比较限制在浅层 Prompt 学习技术,而不是需要额外参数的深层 Prompt 方法。此外,作者还测试了零样本和 LLM Prompt 的零样本 BiomedCLIP 配置。所有模型都使用 BiomedCLIP 作为基础模型,并调整到其最佳设置。如表 1 所示,BiomedCoOp 始终优于这些 Baseline ,尤其是在低样本设置中,它超过了第二好的方法 ProGrad 的 5.2%和 4.6%在 1-和 2-shot 场景中。这种改进归因于 BiomedCoOp 使用特定于类的、选择性集成的 LLM Prompt ,增强了对于不同生物医学条件的泛化性和敏感性,即使标签数据很少。随着样本数的增加,BiomedCoOp 继续领先,证明了其在不同数据可用性场景下的鲁棒性。BiomedCoOp 在所有 K-shot 设置上的持续性能支持其在 Prompt 基础的生物医学适应的有效性,确保了可靠的跨数据集精度提升。
Base-to-Novel Generalization
作者通过在基类和 novel 类之间的准确率来评估 BiomedCoOp 的基础到新颖泛化能力,使用了调和平均值(HM)进行平衡泛化。_请注意,由于 BUSI 数据集的类多样性不足,因此未进行实验。_表 2 中报告的结果表明,BiomedCoOp 始终优于其他方法,在具有挑战性的数据集如 CTXidney 和 Kvasir 上,其准确率比其他方法高出 5-10%。这表明 BiomedCoOp 在医学领域中具有强大的泛化能力,因为疾病模式在不断演变。此外,其 LLM 增强的 Prompt 进一步有助于保留基础知识,同时有效适应新颖类别,减少遗忘。
Ablation Experiments
Effect of Different Components
表 3 展示了 BiomedCoOp 组件的关键贡献。没有进行集成或使用 BiomedCoOp 组件的 Baseline BiomedCLIP 模型在准确性上有限,尤其是对于新类。仅添加 SCCM 可以显著提高适应性,通过嵌入上下文医学信息,提高低样本性能。KDSP 单独使用,通过过滤低质量和特定案例的 Prompt ,在新类中提高了准确性。然而,使用仅包含 CLIP 的设置的 KDSP 会阻碍泛化,因为模型缺乏处理异常值所需的领域知识(灰色高亮)。SCCM 和 KDSP 的组合使用产生了最佳结果(绿色高亮),在少量数据和基到新任务中,平衡了泛化和适应性,特别是证实了这两个组件在处理有限数据生物医学场景中的关键作用。
4.4.2 Effect of Number of LLM Prompts
Prompt 多样性与 LLM 生成的 Prompt 数量之间的关系可能会影响上下文映射的质量。为了研究这一点,表 4 展示了在少样本设置(K = 0, 1, 2, 4, 8 和 16 次)下,BiomedCoOp 性能随着 LLM 生成的 Prompt 数量增加的影响。在较低的样本 Level (K = 0 和 1)中, Prompt 数量较高显著提高了准确率,当 Prompt 从 10 增加到 50 时,提高了 5-6%。这表明,在有限的 Token 数据下, Prompt 多样性对于泛化至关重要。在中间样本设置(K = 2 和 4)中,随着 Prompt 数量的增加,性能继续改善,但速度较慢,随着 Token 信息的可用性增加,边际收益逐渐降低。在较高的样本 Level (8 和 16)中,准确率稳定,额外 Prompt 带来的微小改进。正如其他研究[45]所显示的, Prompt 多样性通过提供多样的语义线索来指导模型向生物医学关键特征的方向发展,从而增强模型性能。每个 Prompt 都引入了一个独特的上下文视角,使模型能够构建一个更强大、更灵活的医学概念理解。这种多样性有助于模型关注共享的、关键的特征,从而提高其识别细微变化和有效泛化的能力,尤其是在低数据场景中。
4.4.3 Effect of Different CLIP-based Models
为了更好地理解 Backbone CLIP 模型对所提出的 BiomedCoOp 方法的影响,作者使用四种 CLIP 模型进行了性能测试,包括 CLIP(ViT-B/16)、PubMedCLIP(ViT-B/32)、PMCCLIP(RN50)和 BiomedCLIP(ViT-B/16)。图 2 中的 Pillar 图比较了 BiomedCoOp 变体的少样本分类准确率与这些 CLIP Backbone 。值得注意的是,BiomedCLIP 在所有设置下都实现了最高的准确率,展示了其有效地捕捉医学领域特定特征的能力。随着样本数增加,所有模型都有所提高,其中 BiomedCLIP 在 16 个样本时达到 72.42%的准确率,明显优于其他模型。CLIP 和 PMC-CLIP 的结果相似,而 PubMedCLIP 保持竞争力,但仍然落后于 BiomedCLIP。这些结果证实了作者选择 BiomedCLIP 作为 VLM Backbone 的重要性,并突出了改善少样本生物医学图像分类性能所需的专业化生物医学 VLMs 的重要性。
4.4.4 Visual Interpretability
在本次实验中,gScoreCAM [8]被用来评估不同的文本 Prompt 如何影响生物医学图像的视觉显著性图。图 3 中的每一列代表了一种不同的 Prompt 类型: "手动 Prompt "(列 b)使用一个[CLASS]的照片,这通常会使模型专注于全局特征(即扫描模式),而不是感兴趣的区域; " Prompt 组合"(列 c)平均多个由 LLM 生成的 Prompt ,可能引入冲突信号,导致模型专注于背景;而 CoOp,CoCoOp 和 BiomedCoOp(列 d,e,f)使用带有[CLASS]标签的优化、学习到的上下文 Prompt 。在 BUSI(乳腺癌超声)、COVID-QU-Ex(肺部 X 光)、脑肿瘤[9]和 ISIC [11, 12, 41](皮肤病学)数据集上进行测试,BiomedCoOp(列 f)始终与各模态的 GT 区域最佳对齐,准确突出临床相关区域,尤其是在复杂模态如 MRI 和超声中,尽管在皮肤病学方面由于与自然图像的相似性而导致显著改善,但仍存在较少的假阳性率和假阴性率。这种精确的局部化提高了可解释性,对于医疗应用特别有价值,其中解释性至关重要。这一观察进一步验证了作者提出的方法的效用。
5 Conclusion
作者提出的 BiomedCoOp 框架是对仅针对少数样本适应性进行 Prompt 学习的首个大规模探索,适用于跨多种生物医学数据集。
通过从 LLM 中提炼出特定领域的洞察,BiomedCoOp 丰富了 Prompt 表示,并提高了模型在各种生物医学影像背景下的泛化能力。作者的方法将通用的生物医学知识与选择性 Prompt 精炼相结合,以提高分类准确性和泛化性。
本研究强调了将 LLM 生成的 Prompt 与 BiomedCLIP 集成实现准确、高效生物医学诊断的潜力,这是朝着更广泛地采用可适应的 VLMs 在临床应用中的基础性一步。
参考文献
[0]. BiomedCoOp: Learning to Prompt for Biomedical Vision-Language Models.
END
来源:集智书童
推荐阅读
- MoE 之年的总结和 MoE 推理优化的一些认识
- DeepSeek-V3 FP8 量化浅析
- 基于 YOLO 的检测,YOLOv8、v9、v11 及混合模型深度剖析 !
- YOLO 家族大对决:YOLOv11 与 Transformer 称霸两类目标检测 !
欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。