微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调 - 极术社区

本文首发于 CVHub，白名单账号转载请自觉植入本公众号名片并注明来源，非白名单账号请先申请权限，违者必究。
Title: LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
PDF: https://arxiv.org/pdf/2306.00890v1.pdf
Code: https://aka.ms/llava-med

导读

单模态文本在生物医学领域的研究已经取得了显著的成果，而多模态对话人工智能则通过利用来自公共网络的数十亿个图像-文本对取得了快速进展。然而，这些通用领域的视觉-语言模型在理解和对话生物医学图像方面仍然缺乏复杂性。 因此，本文提出了一种成本效益高的方法，用于训练一种能够回答生物医学图像开放性研究问题的视觉-语言对话助手。

其关键思想是利用从PubMed Central提取的大规模、广覆盖的生物医学图题数据集，使用GPT-4从图题中自我指导生成开放性指令遵循数据，并使用一种新颖的课程学习方法对大型通用领域的视觉-语言模型进行微调。具体而言，该模型首先通过图题对齐学习生物医学词汇，然后使用GPT-4生成的指令遵循数据来掌握开放性对话语义，广泛模拟外行人逐渐习得生物医学知识的过程。 这使得我们能够在不到15小时的时间内（使用八个A100显卡）训练出一种用于生物医学的大型语言和视觉助手（LLaVA-Med）。

LLaVA-Med表现出优秀的多模态对话能力，并能根据开放性指令辅助回答关于生物医学图像的问题。在三个标准生物医学视觉问答数据集上，微调LLaVA-Med在某些指标上优于先前的监督式最先进方法。为了促进生物医学多模态研究，我们将发布我们的指令遵循数据和LLaVA-Med模型。

引言

在通用领域中，图像-文本数据非常丰富，例如网络图像及其相关的标题。生成式预训练已经被证明是利用这种平行数据进行自监督视觉-语言建模的有效方法，例如多模态GPT-4 和开源项目LLaVA 。通过根据多模态输入的人类意图调整模型，所得到的大型多模态模型（LMMs）在各种以用户为导向的视觉-语言任务（如图像理解和推理）中表现出强大的零样本任务完成性能，为开发通用的多模态对话助手铺平了道路。

然而，虽然在通用领域取得了成功，但是这样的LMMs在生物医学领域的效果较差，因为生物医学图像-文本对与通用网络内容截然不同。 结果是，通用领域的视觉助手可能表现得像一个外行人，不会回答生物医学问题，或者更糟糕的是产生错误的回答或完全的虚构。生物医学视觉问答（VQA）已经取得了很大进展，但以前的方法通常将问题建模为分类（例如，在训练集中观察到的不同答案之间的分类），并且对于开放性指令遵循的任务准备不足。因此，尽管生成式对话AI已经展示了在生物医学应用方面的巨大潜力，但当前的研究通常仅限于单模态文本。

在本文中，我们提出了用于生物医学领域的大型语言和视觉助手（LLaVA-Med），这是首次尝试将多模态指令调整扩展到生物医学领域，进行端到端的训练以开发生物医学多模态对话助手。 已经证明，针对生物医学自然语言处理（NLP）应用和生物医学视觉-语言（VL）任务进行领域特定的预训练是有效的。最近，通过创建来自PubMed Central的1500万个生物医学图像-文本对的广泛覆盖数据集PMC-15M，大规模的生物医学VL学习已成为可能。该数据集比下一个最大的公共数据集MIMIC-CXR大两个数量级，并且涵盖了多种类型的图像。受最近的指令调整工作的启发，LLaVA-Med使用GPT-4根据PMC-15M中的图像-文本对生成多样的生物医学多模态指令遵循数据，并使用一种新颖的课程学习方法对大规模生物医学领域的VL模型进行微调。具体来说，本文贡献如下：

生物医学多模态指令遵循数据。我们提出了一种新颖的数据生成流程，通过从PMC-15M中采样生物医学图像-文本对，并使用GPT-4仅使用文本生成指令（作为预期输出）来创建多样的（图像、指令、输出）实例。这不需要任何手动注释，并且通过依赖于PMC-15的数据集，创建了一个极其多样化的视觉指令遵循数据集，涵盖了生物医学图像的完整研究结果的全谱。
LLaVA-Med。我们提出了一种新颖的课程学习方法，将LLaVA调整到生物医学领域，使用我们自动生成的生物医学多模态指令遵循数据进行微调。具体而言，我们首先使用图像-文本对（使用通用指令简单要求图像的描述）对LLaVA进行微调以对齐生物医学词汇。然后，我们使用自动生成的指令遵循数据继续训练模型以学习开放性对话语义。通过这种方式，我们能够在不到15小时的时间内使用八个A100显卡训练出LLaVA-Med。我们的实证研究验证了领域特定指令调整的有效性，并揭示了将多模态对话助手应用于高价值垂直领域的最佳实践和有趣的发现。在已建立的生物医学VQA数据集上，微调LLaVA-Med的性能通常优于监督式最先进方法。
开源。为了促进生物医学多模态学习的研究，我们将向公众发布以下资源：生物医学多模态指令遵循数据集以及数据生成和模型训练的代码库。

生物医学视觉指令数据

为了使模型能够遵循多样的指令，我们通过仅使用语言的GPT-4来生成多轮关于所提供的生物医学图像的对话指令。具体而言，给定一个图像标题，我们设计了一个提示，要求GPT-4生成多轮的问题和回答，语气上表现得好像它能够看到图像（尽管它只能访问文本）。有时候，图像标题太短，GPT-4无法生成有意义的问题和答案。为了提供关于图像的更多上下文，我们还创建了一个提示，除了标题外，还包括提到图像的原始PubMed论文的句子。我们还手动攥写了一些少样本示例，以演示如何根据提供的标题和上下文生成高质量的对话。从中，我们从五种最常见的成像模态（胸部X射线，计算机断层扫描，磁共振成像，组织病理学和宏观病理学）中抽样了6万个图像文本对。

GPT-4生成的指令遵循数据实例。上图：该图和标题是从PubMed Central的全文文章中提取的，同时还提取了对该图的引用（在文章中提到该图的地方）。下图：使用仅文本（标题和引用）由GPT-4生成的指令遵循数据。

生物医学多模态指令遵循数据的数据统计：(a,b) 指令和回复的根动词-名词对，图中的内圈表示输出回复的根动词，外圈表示直接名词。(c) 图像和问答对在五个领域上的分布，每个领域展示一张图像。

上图1显示了指令遵循数据的一个示例，上图2显示了数据统计。在不断改进数据质量的过程中，我们生成了三个版本的指令数据：(i) 60K-IM。考虑内联提及（IM）作为上下文的数据集。 (ii) 60K。与60K-IM大小相似（60K个样本），但在自我生成指令时不考虑IM。 (iii) 10K。一个较小的数据集（10个样本），没有IM。它们用于实验中对我们的数据生成策略及其对经过训练的LLaVA-Med的影响进行消融实验分析。

方法

本文使用LLaVA作为初始的通用领域多模态对话模型，并将模型连续训练到生物医学领域。本文采用相同的网络架构，其中线性投影层连接视觉编码器和语言模型。对于LLaVA-Med模型的训练，采用了两阶段训练过程，如上图3所示。

生物医学概念特征对齐-stage1

为了在概念覆盖率和训练效率之间取得平衡，我们从PMC-15M中筛选出了60万个图像文本对。通过一种简单的扩展方法，这些对被转换为了指令跟随数据：指令只是简单地描述图像的任务。对于每个样本，给定语言指令和图像输入，我们要求模型预测原始标题。在训练中，我们保持视觉编码器和语言模型权重冻结，只更新投影矩阵。通过这种方式，可以将大量新颖的生物医学视觉概念的图像特征与预训练语言模型中的文本词嵌入对齐。这个阶段可以理解为将匹配的图像-文本标记的词汇扩展到生物医学领域。

端到端指令微调-stage2

我们只保持视觉编码器权重不变，继续更新投影层和语言模型的预训练权重。为了训练模型以跟随各种指令并以对话方式完成任务，我们在收集的生物医学语言-图像指令跟随数据上对模型进行微调，开发了一个生物医学聊天机器人。正如后面将要描述的实验所示，此阶段的LLaVA-Med模型不仅能够作为生物医学视觉助手与用户互动，还能在评估已建立的生物医学VQA数据集时实现良好的zero-shot任务转移性能。

微调至下游任务

对于一些特定的生物医学场景，需要开发高度准确且特定于数据集的模型，以提高模型性能。在两个阶段的训练之后，我们对LLaVA-Med进行微调，使用了三个生物医学VQA数据集，涵盖了不同的数据集大小和多样化的生物医学主题。给定一个生物医学图像作为上下文，提供多个自然语言问题，模型针对闭集和开集问题以自由文本形式进行回答，并为每个闭集问题的提示构建了一个候选答案列表。

实验结果

生物医学视觉聊天性能评估

仅进行第一阶段训练的LLaVA-Med作为聊天机器人是不够的，因为它失去了理解多样化指令的能力，尽管在生物医学概念覆盖方面有所改进。经过完整的两阶段训练的LLaVA-Med持续优于一般领域的LLaVA，并且使用更大的指导数据（从10K到60K样本）会导致更高的性能。当在自我指导中考虑内联提及时，生成的数据60K-IM稍微提高了聊天能力。结果证明了生物医学指令跟随数据收集策略的有效性以及数据集的价值。总体而言，对于最佳的LLaVA-Med，它与GPT-4的50.2%性能相匹配。需要注意的是，GPT-4通过考虑真实标题和黄金内联提及来生成回答，而不理解图像。尽管LMM（大型多模态模型）和GPT-4之间不是公平的比较，但GPT-4是一个一致可靠的评估工具

LLaVA-Med以生物医学知识准确回答问题，而LLaVA则像一个普通人一样产生错误的幻想。由于多模态GPT-4不可公开获得，我们使用仅限于语言的GPT-4进行比较。我们将标题和内联内容作为上下文输入到GPT-4中，它通过重新组织对话方式中的信息来生成有知识的回应。

基准性能评估

与先前的最先进监督方法的比较。对于开放式问题，先前的方法仍然将问题表述为在训练集中的不同答案之间的分类，这可能会高估它们的泛化能力，因为这些数据集的特殊之处在于测试答案几乎总是出现在训练中。加粗表示LLaVA-Med达到了新的最优结果。

不同阶段训练中使用不同训练轮数的实验研究。“FT”代表微调（Fine-Tuning）。60K-IM表示使用inline生成的指令数据。灰色行是使用不同指令数据训练的LLaVA-Med的zero-shot性能，它们被选择在子表(a)中显示。

zero-shot中的中文问题示例。尽管LLaVA-Med的训练数据本身不包括中文，但它能够正确理解中文问题。

结论

本文提出了一个用于生物医学领域的大规模语言和视觉模型LLaVA-Med。为了创建这个模型，本文使用自我指导self-instruction的方法创建了高质量的生物医学语言-图像指导数据集。LLaVA-Med展示了强大的领域知识和出色的聊天能力，并在某些指标上优于先前的有监督方法在三个VQA数据集上的性能。虽然LLaVA-Med是朝着构建一个有用的生物医学视觉助手迈出的重要一步，但LLaVA-Med在幻觉和深入推理方面仍然存在局限性，这是许多LMMs共同的弱点。

作者：派派星
文章来源：CVHub

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

微软发布医学多模态大模型LLaVA-Med | 基于LLaVA的医学指令微调

导读

引言