InstructionGPT-4 | 200个数据集微调，高于MiniGPT-4 - 极术社区

多模态大型语言模型通过一个两阶段的训练过程获取其遵循指令的能力：在图像文本对上进行预训练，然后在监督视觉语言指令数据上进行微调。最近的研究表明，即使只有有限数量的高质量遵循指令的数据，大型语言模型也可以获得令人满意的结果。
在本文中介绍了InstructionGPT-4，它是在仅包含200个示例的小型数据集上进行微调的，这大约相当于MiniGPT-4的对齐数据集中用于遵循指令的数据的6%。首先，提出了几个用于评估多模态指令数据质量的度量标准。基于这些度量标准，提出了一个简单而有效的数据选择器，可以自动识别和过滤低质量的视觉语言数据。
通过采用这种方法，InstructionGPT-4在各种评估中（例如，视觉问答，GPT-4偏好）表现优于原始的MiniGPT-4。总的来说，研究结果表明，较少但高质量的遵循指令微调数据足以使多模态大型语言模型生成更好的输出。

1、简介

GPT-4展示了其在生成高度详细和精确的图像描述方面的强大能力，标志着语言和视觉处理的新时代。因此，像GPT-4这样的多模态大型语言模型（MLLMs）最近已经成为一个突出的研究领域，利用强大的大型语言模型（LLMs）作为进行多模态任务的认知框架。MLLMs所展示的卓越而意想不到的能力超越了传统方法，表明了通向人工通用智能的潜在路径。为了实现这一目标，已经采用了大量的图像文本对和视觉语言微调数据来训练连接器（例如，MiniGPT-4、LLaVA、LLaMA-Adapter V2），用于将冻结的LLMs（例如LLaMA和Vicuna）与视觉表示（例如CLIP和BLIP-2）连接起来。

MLLMs通常分为两个阶段进行训练：预训练和微调。预训练帮助MLLMs获得大量的知识，而微调则教导模型更好地理解人类意图并生成准确的响应。最近，针对大规模数据集的指导微调已经成为一种强大的微调技术，可以赋予MLLMs增强的视觉语言理解和遵循指令的能力。它有助于将模型与人类偏好对齐，使其能够根据各种指令生成所需的输出。发展指导微调的一种有益方向是在微调阶段引入图像标题、视觉问答（VQA）和视觉推理数据集。先前的研究，包括InstructBLIP和Otter，通过利用一系列视觉语言数据集进行视觉指导微调，已经展示了有希望的结果。

然而，人们观察到，常用的多模态指导微调数据集中令人惊讶地包含了大量低质量的实例，其响应不正确或不相关。这样的数据可以误导并对模型的性能产生负面影响。这个问题促使研究人员探讨是否可以使用少量高质量的遵循指令数据来实现稳健的性能。

令人鼓舞的是，最近的研究已经证实了这种方法的有希望潜力。Zhou等人引入了LIMA，这是一个由人类专家精心筛选的高质量数据进行微调的语言模型。该研究表明，即使只有有限数量的高质量遵循指令数据，大型语言模型也可以获得令人满意的结果。然而，识别用于微调多模态语言模型的合适高质量数据的过程缺乏明确的指导原则。

基于这些基础，作者提出了一个强大而有效的数据选择器，可以自动识别和过滤低质量的视觉语言数据，确保作者的模型在最相关和信息丰富的样本上进行训练。作者的研究的重点在于探索减少但高质量的指导微调数据在微调多模态大型语言模型中的有效性。

此外，作者的工作还引入了一些专为评估多模态指导数据质量而量身定制的新指标。数据选择器在对图像进行谱聚类后，计算每个视觉语言数据的CLIP分数、GPT分数、奖励分数和答案长度，并将它们的加权得分相结合。通过将此选择器应用于用于微调MiniGPT-4的原始3.4K数据，作者发现大多数数据存在低质量问题。使用数据选择器，InstructionGPT-4在一个远小于原始规模的、经过精心筛选的200个数据子集上进行了微调，这相当于原始规模的6%，并采用了与MiniGPT-4相同的训练配置。这一发现令人鼓舞，因为它证明了视觉语言指导微调中的数据质量可以超越数量。此外，这种将数据质量置于首要位置的转变提出了一种新的更有效的范式，可以通常改进MLLMs的微调。

在接下来的章节中，作者将详细介绍实验设置。作者对微调后的MLLMs进行评估，重点关注了七个各种各样且复杂的开放领域多模态数据集，包括Flick-30k、ScienceQA、VSR等。通过严格的实验，作者通过比较使用数据选择器、随机抽样数据集和整个数据集进行微调的模型之间的推理性能，展示了InstructionGPT-4在这些不同的多模态任务中的优越性。此外，作者还将GPT-4用作作者的评判标准。

具体来说，作者使用提示将GPT-4变成一个评判者，比较InstructionGPT-4和原始MiniGPT-4在LLaVABench的测试集上的响应。尽管只对MiniGPT-4中使用的原始指令数据的6%进行微调，但InstructionGPT-4在73%的情况下生成相等或更好的响应。

作者的贡献总结如下：

在本文中，作者首次展示了通过选择200个（近6%）高质量的遵循指令数据来训练InstructionGPT-4，少量的指令数据可以实现更好的模型对齐。
作者提出了一个数据选择器，利用简单且可解释的原则来选择高质量的多模态遵循指令数据进行微调。这种方法在数据子集的评估和筛选方面追求有效性和可移植性。
作者证明了这种简单的技术在不同任务中表现良好。全面的结果显示，在6%的筛选数据上微调的InstructionGPT-4在各种任务中的性能优于原始的MiniGPT-4。

2 相关工作

2.1、视觉指令微调

指令微调是一种学习范式，它在自然语言指令描述的数据集上微调预训练的LLMs。通过这种训练方法，LLMs的零射击能力可以得到显著增强。许多研究，包括InstructGPT、ChatGPT和FLAN，已经证明了指令微调的有效性。

受此启发，最近的一些工作旨在通过视觉指令微调来使LLMs能够处理多模态任务，如MiniGPT-4、LLaVA、LLaMA-Adapter和InstructBLIP。这些工作选择线性投影层作为图像编码器和LLMs之间的桥梁，并在自我指导数据集或现有的多模态数据集上执行视觉指令微调。

2.2、指令筛选

为了在指令微调后改进模型性能，一些相关工作设法在微调阶段过滤低质量的指令数据或构建精心策划的示例，从而提高模型的能力。Polite Flamingo被训练来从其自动失真的对应物中重建高质量的响应，然后应用于大量的视觉语言数据集进行响应重写。LIMA表明，对少量经过策划和高质量示例进行微调，可以在广泛的提示上产生出色的竞争性结果。

因此，最近的一些工作开发了指令质量评估方法，用于衡量指令数据集的质量，例如使用奖励模型、计算指令的长度以及获取ChatGPT的评分来过滤低质量的数据以进行对齐。与依赖人工注释的最近工作（如LIMA）或需要重写响应的Polite Flamingo相比，作者的工作旨在为选择来自在微调期间使用的原始数据的适当数据提供一个多模态数据质量评估原则。

3 方法学

作者的目标是提出一个简单且易于迁移的数据选择器，以自动从原始微调数据集中策划一个子集。因此，作者定义了一个选择原则，重点关注多模态数据集的多样性和质量，并简化了选择过程如下。

3.1 选择原则

选择有用的多模态指令数据对于有效训练MLLMs至关重要。作者提出了选择最佳指令数据的两个关键原则：多样性和质量。为了实现多样性，作者使用图像嵌入的聚类机制将数据分类为不同的组。为了评估质量，作者采用了几个关键指标来高效评估多模态数据。

多样性

由于大多数知识是在MLLMs的预训练阶段获得的，因此通过在多样的视觉语言指令数据上进行训练来获得更好的对齐能力是必要的。作者采用了基于CLIP [7]编码的图像嵌入的谱聚类来将数据分为十个类别。谱聚类是一种在图像分析和计算机视觉中广泛使用的技术，用于了解和分析数据集中图像的多样性。它是一种无监督学习方法，旨在根据图像的视觉特征将相似的图像分组在一起，方法是构建相似性矩阵，将特征投影到低维空间，并应用K均值聚类。作者的消融研究在第5.3节中详细介绍。

质量

视觉语言指令数据教会了多模态模型与用户互动时遵循某种模式。因此，这些遵循指令数据的质量可以被视为其有效引导多模态语言模型学习以特定方式生成响应的能力。最近，Cao等人提出了一个线性质量规则和一组用于评估遵循指令数据质量的指标。作者进一步提出了作者的多模态指令选择原则如下。用于定量评估数据质量的相关指标列在表1中。

3.2、 Data Selector

给定一个视觉语言指令数据集D，其中包含三元组x = (image, instruction, answer)，，并且有一个预训练的MLLM（例如，MiniGPT-4和LLaVA），作者的最终目标是识别一个子集，当用于微调时，能够提高预训练的MLLM性能。

为了从D中选择S并确保其多样性，作者首先使用聚类算法（例如，谱聚类和）将D中的图像分为K个类别。假设D的总量是，第i个集群的数量是。作者将α设置为目标子集的大小。

为了确保所选多模态指令数据的质量，作者制定了一个在表1中进行评估的一组指标。对于每个集群中的三元组x，作者使用来自预训练的CLIP模型的CLIP分数来衡量图像和答案之间的匹配程度。作者还考虑了响应的长度，即L(x)，因为较长的输出可以包含更多信息。

此外，作者还应用来自训练过的奖励模型的奖励分数，该模型用于预测在给定问题时，哪个生成的答案更好。作者使用强大的LLM（例如GPT-3.5-turbo和GPT-4）作为自动评分员，使用GPT分数对D中的每个样本x进行评分，其中是评分指令。作者基于Alpagasus的GPT提示设计了，如下所示。

4、实验

4.1、Datasets

为了证明作者的数据选择器的有效性，作者还从包含3439条用于对齐的原始微调数据集中随机选择了α个视觉语言指令数据。

作者在经历了使用三种不同数据集进行微调的模型之间进行了比较分析：未经处理的原始数据集，随机抽样的子集以及数据选择器精心制作的数据集。在消融研究中，作者首先从数据选择器中删除了聚类机制，并直接根据每个三元组的最终得分进行选择。这种删除允许作者孤立和审查聚类组件对整体性能的具体影响。

此外，作者评估了使用基于单独评分指标选择的子集进行微调的模型。具体来说，作者分别评估了根据CLIP分数、答案长度、奖励分数和GPT分数选择子集进行微调的模型。

4.2、Fine-Tuning Settings

视觉语言数据集被分类为K = 10个群集进行数据选择。作者在表2中手动设置了每个单独得分的权重，并根据最终分数F(x)选择了多样化且高质量的多模态数据。从数据选择器中获得的最终子集包含α个视觉语言指令数据，占原始数量的6%。作者在预训练的7B MiniGPT-4上进行了所有指令微调，并使用与原始MiniGPT-4相同的微调超参数。每个微调模型都在第5.1节提到的评估数据集上进行评估。

4.3、Evaluation

MLLMs能够捕获各种多模态模式和关系。大多数是在公开可用的数据集上进行评估，或者由GPT-4评价。

LVLM-eHub是一个综合评估平台，用于评估公开可用MLLM的性能。基于这个平台，作者通过调查它们在各种任务上的零样本性能，评估MLLMs在图像字幕生成、视觉空间推理、视觉常识推理、知识驱动的图像描述和视觉问答方面的能力。

作者选择Flickr-30k、NoCaps、ScienceQA、OKVQA、VSR、VCR对象计数和VCR多类别识别来评估MLLMs的零样本能力，以推广到新任务而不对模型进行训练，这对于大规模评估是有竞争力的。表3提供了评估数据集的概述。

LLaVA-Bench收集了一组多样化的24张图像，总共有60个问题，包括室内和室外场景、迷因、绘画、素描等。它将每个图像与高度详细和手动策划的描述以及适当的问题选择关联起来。作者选择GPT-4作为评委，以比较LLaVA-Bench中的图像和指令提供的MiniGPT-4和InstructionGPT-4的响应。

问题分为三个类别：对话（简单QA）、详细描述和复杂推理。通过将MLLM的输出与参考答案进行比较来衡量得分。这种设计评估了模型对不同提示的稳健性。

5、实验结果

5.1 基准分数

表4显示了MiniGPT-4基线模型、从随机抽样数据微调的MiniGPT-4以及使用数据选择器的InstructionGPT-4之间的性能比较。作者观察到，InstructionGPT-4在平均性能上表现出色。

具体来说，InstructionGPT-4在ScienceQA上的性能比基线模型提高了2.12%，在OKVQA上提高了2.49%，在VCR-OC上提高了4.19%。

此外，除了VSR外，InstructionGPT-4在所有其他任务上均优于从随机样本训练的模型。通过在各种任务中评估和对比这些模型，作者旨在辨别它们各自的能力，并确定作者提出的数据选择器的有效性，该选择器可以有效地识别高质量的数据。这种全面的分析揭示了在增强各种任务的零样本性能方面，有信息的数据选择的好处。

5.2 GPT-4 评估

鉴于LLMs作为评估器存在固有的位置偏差，即某些位置优于其他位置，作者已采取措施来解决这一问题。为了减轻这种偏差，作者使用了两种响应顺序进行评估——将InstructionGPT-4生成的响应放在MiniGPT-4的响应之前和之后。

为了建立明确的判断标准，作者引入了“Win-Tie-Lose”框架，具体如下：

Win：如果InstructionGPT-4在两个情况下获胜，或者赢得一次并获得一次平局；
Tie：如果InstructionGPT-4两次获得平局，或者在一次胜利和一次失败的情况下获胜；
Fail：如果InstructionGPT-4在两个情况下失败，或者在一次失败和一次平局的情况下获胜。

这种评估方法的结果如图1所示。在这个图表的背景下，Win、Fail和Tie表示InstructionGPT-4的生成结果与MiniGPT-4的生成结果进行评估时的比较结果。在60个问题中，InstructionGPT-4在29个情况下获胜，16个情况下失败，15个情况下平局。这一证据强调了InstructionGPT-4的响应质量相对于MiniGPT-4的显着优势。

5.3 消融研究

聚类分析

在数据选择器机制中应用谱聚类确保了所选的视觉语言指令数据的多样性。为了分析聚类的贡献，作者进行了一个排除聚类机制的消融研究。这里的目标是评估聚类在微调过程中发挥的作用。

这个分析的结果显示在表5的左侧，突出了聚类在增强微调过程中的重要性。通过比较这些变化，作者阐明了聚类和不同评分指标对数据选择方法的整体有效性的贡献。这个分析为数据选择过程中这些组件的重要性以及它们对模型性能的后续影响提供了有价值的见解。

不同分数的分析

为了全面评估不同评分指标对数据选择过程的影响，作者进行了另一项消融研究。每个单独的评分指标都被孤立出来，并对数据选择的影响进行了审查。如表5的右侧所示，使用基于CLIP分数、答案长度、奖励分数和GPT分数选择数据的模型始终优于通过随机抽样生成的模型。值得注意的是，从数据选择器中获得的模型，这是多种评分指标的综合体现，实现了最高水平的性能。

5.4 展示

为了进一步探讨InstructionGPT-4在理解视觉输入和生成合理响应方面的能力，作者对InstructionGPT-4和MiniGPT-4之间的图像理解和对话能力进行了比较评估。这一分析涵盖了表6中概述的一个重要的图像描述和进一步理解示例。InstructionGPT-4在提供全面的图像描述和识别图像内引人入胜的方面表现出色。与MiniGPT-4相比，InstructionGPT-4展示出更高的能力，能够识别图像中的文本。

值得注意的是，InstructionGPT-4能够正确指出图像中的短语“Monday, just Monday”。其他示例（表7和表8）在附录A中显示。

这些示例被精心选择，要求具有深入的图像理解水平。尽管使用了一个相对较小的多模式指令跟随数据集进行微调，但InstructionGPT-4在这些示例的推理能力方面明显优于MiniGPT-4。这一结果强调了InstructionGPT-4在高级推理方面的卓越能力，从而突显了其在图像理解和有效执行指令跟随任务方面的增强能力。

6 结论和未来工作

在本文中，作者对所提出的数据选择器进行了全面分析，评估了其在筛选有价值的指令数据方面的有效性。作者的研究总结了对InstructionGPT-4在多个基准数据集上的性能进行了广泛评估，确认了其在生成上下文连贯和准确输出方面的卓越性。最终，这项研究有助于更广泛地理解指令调整以及其在为各种实际应用训练高效的多模式大型语言模型方面的潜力。

作者研究的核心观点基于这样一种观念，即使用经过合理选择的高质量指令数据的子集可以显著提高多模式大型语言模型的性能。InstructionGPT-4的成功证明了通过合理选择引入指令数据可以在多模式语言处理领域取得重大进展，促进了改进的指令理解和生成能力。

在未来的研究中，将分析扩展到包括不同大小的其他模型，如MiniGPT-4-13B和LLaVA，可能会提供更多的见解。此外，开发更通用版本的数据选择器是另一个潜在的探索方向。此外，进行多模式指令挖掘可能会提供更多的见解，并在这一领域揭示新的机会。这可以实现对这一领域的更广泛和全面的理解。

7、参考

[1].InstructionGPT-4: A 200-Instruction Paradigm for Fine-Tuning MiniGPT-4.

作者：AI视界引擎
文章来源：AI视界引擎

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

InstructionGPT-4 | 200个数据集微调，高于MiniGPT-4