革新文本-图像检索，视觉 Prompt 预测+轻量训练性能超 BLIP2

导读

本文的目标是提升文本到图像检索的性能。为此，作者提出了一种新的框架，该框架能够提升大规模预训练视觉语言模型的表现，使其能够用于文本到图像的重排序。该方法，增强语言-图像预训练（ELIP），利用文本 Query 来预测一组视觉 Prompt ，以条件化 ViT 图像编码。ELIP 可以轻松应用于常用的 CLIP/SigLIP 以及最先进的 BLIP-2 架构。为了在有限的计算资源下训练架构，作者开发了一种“学生友好型”的最佳实践，包括全局硬样本挖掘以及大规模数据集的选择和整理。在评估方面，作者建立了两个新的分布外基准，即遮挡 COCO 和 ImageNet-R，以评估模型对不同领域的零样本泛化能力。得益于新颖的架构和数据整理，实验表明，作者的增强网络显著提升了 CLIP/SigLIP 的性能，并在文本到图像检索方面优于最先进的 BLIP-2 模型。

1. 引言

在本文中，作者考虑了经典的文本到图像检索问题，该问题旨在根据图像实例与文本 Query 的相关性对其进行排序。有效的检索通常包括两个阶段：第一阶段以快速高效的方式提供初始排序，而第二阶段——称为重排序——通过使用更昂贵的重排序模型重新计算文本 Query 与每个高排名候选者之间的相关性分数来细化这个排序。

近年来，文本到图像检索的进展主要集中在第一阶段。一些显著的模型，如 CLIP [65] 和 ALIGN [40]，通过在大规模图像-文本对上应用对比学习 [60] 来学习联合表示，展示了在跨模态检索任务中令人印象深刻的泛化能力。

本文的主要贡献集中在检索流程的第二阶段，即重排序。具体而言，作者的目标是提升现有视觉-语言基础模型的表现，使其能够重新用于从快速检索过程中重排序前k个候选结果。作者开发的方法称为增强语言-图像预训练（ELIP），它仅需要少量可训练参数，并且可以使用“学生友好”的资源和数据高效地进行训练。作者证明了 ELIP 可以提升预训练的 CLIP[65]、SigLIP[93]和 BLIP-2[47]图像-文本模型的表现。

为实现这一目标，首先，作者引入了一个轻量级的文本引导视觉 Prompt 模块。如图 1 所示，在 ELIP 中， Query 文本被映射到一组视觉 Prompt 向量[41]，然后与图像编码器的[CLS]和 Patch 嵌入进行拼接。这些增强嵌入随后被传递到冻结的视觉编码器中以重新计算图像表示。生成的图像嵌入能够感知文本条件，这增强了其在重排序中的性能。

作为第二项贡献，作者解决了模型训练的问题。在训练大型视觉-语言模型时存在两个主要挑战：首先，数据规模——为了实现强大的泛化能力，需要在数百万或数十亿张图像上进行训练，但这成本高昂；其次，批量大小——为了增强模型的判别能力，需要在较大的批量大小下进行训练，但这需要大量的 GPU。在这里，作者通过引入策略来选择和整理具有最大信息量的训练数据集，并在批量中将困难样本分组，以使小批量训练有效，从而提出了一种最佳实践。

为了评估 ELIP 模型的重排序性能，作者使用了标准的 COCO [50] 和 Flickr30k [63] 文本到图像检索基准。作为一个进一步的挑战，作者还评估了 ELIP 增强模型在分布外域的泛化能力。为此，作者将 Occluded COCO [44] 和 ImageNet-R [33] 数据集重新用于文本到图像检索基准。

总结如下，做出了以下四项贡献：

首先，提出了一种新颖的架构，旨在提升基于文本的图像检索在大规模预训练视觉语言模型上的性能，包括最流行的 CLIP/SigLIP 架构以及最先进的 BLIP-2 架构。
其次，提出了一种最佳实践，以有限的资源高效地训练作者的架构。
第三，为了评估文本到图像检索模型对不同分布外域的泛化能力，作者建立了两个新的文本到图像检索基准，即 Occluded COCO 和 ImageNet-R。
第四，证明了 ELIP 在标准基准 COCO 和 Flickr 上，以及在新的 OOD 基准上，显著提升了 CLIP/SigLIP，并超越了最先进的 BLIP-2 模型。

2. 相关工作

文本到图像检索是跨模态学习中的一个基本且研究广泛的任务[11-16, 19, 20, 22, 25,28,35,38,39,42,43,45,46,48,52,53,65,72,75,79- 85, 89, 91, 92, 95-99]。然而，具有强大零样本能力的如 CLIP[36, 65]、SigLIP[93]、ALIGN[40]和 BLIP-2[47]等大规模预训练视觉语言模型，现已成为开放式文本图像检索的事实方法。最新的工作[71]通过结合目标检测器的输出或检测边界框的标注，在 BLIP-2 的基础上略有改进。这成功地克服了模型未能正确理解图像中虽小但语义上重要的物体的情况。作者与该模型进行了比较，并超越了其性能。

检索后重排序。对于单模态图像检索，其中 Query 项为图像，已有一系列工作通过经典计算机视觉算法对初始排名中的前k个图像进行重排序，例如“ Query 扩展”、“几何验证”或两者的结合[3, 17, 18, 37, 62, 77]，以及通过基于学习的算法[4, 8, 21, 32, 74]。在文本到图像检索中，重排序算法相对较少被探索[54, 64, 90]。[57]介绍了一种通过估计文本在图像条件下的对数似然来计算图像与文本 Query 之间相似度得分的方法。虽然这种方法表现出强大的性能，但在训练和推理过程中都计算成本较高，使得整个过程较慢。作者的论文也专注于重排序阶段——开发一个更强大的视觉-语言基础模型版本，以对原始检索模型难以区分的图像给出更好的排序。

多模态数据集。为了获得具有强大泛化能力的多模态基础模型，在大型多模态数据集上对其进行训练至关重要。因此，近年来，提供图像-文本对的多模态视觉-语言数据集的数量和规模显著增加，例如 COCO [50]、SBU [61]、概念性标题 [69]、LAION [67]、DataComp [27]。多模态数据集规模的增加使得训练更强大的视觉-语言基础模型成为可能。最近，DataCompDR [78] 利用大规模预训练图像标题模型的知识来为 DataComp 图像生成合成标题，从而比从网络收集的数据集（如原始 DataComp 数据集）生成的标题噪声更少。在作者的论文中，作者尝试使用概念性标题 [69] 和 DataCompDR [78] 训练 ELIP。

多模态数据整理。对多模态数据集进行数据整理至关重要，因为它能够使训练更加高效和有效，尤其是在资源有限的情况下。在数据整理方面已经进行了持续的努力，例如离线示例级数据修剪[6, 9, 26, 27, 34, 40, 56, 87]、离线聚类级数据修剪[1, 2, 7, 30, 73]以及基于模型的评分的在线数据整理[23, 51, 55, 58]。最近的工作 JEST[24]利用一对学习模型和参考模型来选择模型能够学习但尚未学习的批量数据。这启发作者选择最有效的批量数据来训练 BLIP-2 架构。与作者相关的一系列工作还包括困难负样本挖掘，该技术既在经典度量学习[5, 31, 59, 70, 86, 88]中得到了探索，也在现代对比学习中得到了应用[66, 76]。

高效视觉语言预训练。为了更高效地从零开始预训练视觉语言基础模型，[29, 49] 在预训练过程中删除图像 Token ，以实现更快的训练速度，并训练包含更多样本的批次。

3. 预备知识

视觉 Prompt 微调（VPT）[41]是一种通过在 Transformer 层中插入额外的可学习 Prompt 来改进 ViT 图像编码器的方法。它使得 ViT 的适应变得高效，仅需训练少量可学习 Prompt 的参数。VPT 有两种不同的变体——VPT-Shallow 和 VPT-Deep。VPT-Shallow 仅将额外的视觉 Prompt 插入到第一个 Transformer 层，而 VPT-Deep 则在每个 Transformer 层的输入空间引入 Prompt 。作者将生成的视觉 Prompt 向量集插入到 ViT 的第一个 Transformer 层，这与 VPT-Shallow 类似。

4. ELIP 架构

在本节中，作者描述了 ELIP 文本到视觉 Prompt 映射网络，该网络可以高效地应用于适配常用的 CLIP/SigLIP 架构以及最先进的 BLIP-2 架构以进行重排序。作者首先在 4.1 节中介绍网络的架构，然后在 4.2 节和 4.3 节中分别介绍在 CLIP/SigLIP 和 BLIP-2 上的训练/推理策略。作者将应用于 CLIP 的网络称为 ELIP-C，应用于 SigLIP 的称为 ELIP-S，应用于 BLIP-2 的称为 ELIP-B。

4.1 文本引导的多层感知器映射网络

在本工作中，作者提出了一种映射网络，该网络将文本 Query 的嵌入投影到视觉嵌入空间中的一组 Prompt 向量中。然后，这组 Prompt 向量被纳入视觉 Transformer（ViT）图像编码器的第一层，作为额外的 Token 用于重新计算视觉嵌入。

架构如图 2 和图 3 所示。

4.2 使用 ELIP-C/ELIP-S 进行训练和推理

推理时的重新排序。在推理时，对于每个文本 Query ，作者首先计算由原始 CLIP 模型计算出的视觉-语言嵌入之间的相似度得分，以获得所有图像的初始排序。然后，作者选择前k个候选图像进行进一步的重新排序，其中，视觉特征通过结合映射网络中的 Prompt 向量重新计算。最终的排序是通过重新计算后的图像特征与文本特征的点积获得的。

4.3 ELIP-B 的训练与测试

推理时的重新排序。在推理时，对于每个文本 Query ，作者首先计算由原始 BLIP-2 图像和文本编码器计算出的视觉-语言嵌入之间的相似度得分，以获得所有图像的初始排序。然后，作者选择前k个候选图像进行进一步的重新排序，其中，通过结合映射网络中的 Prompt 向量重新计算视觉特征。最终的排序是通过初始计算的相似度得分与基于重新计算的图像特征和文本 Query 由 ITM 头预测的得分之和得到的。

5. 数据整理与训练的最佳实践

近期视觉语言基础模型通常在大量（数十亿）成对图像-文本样本上训练，需要大量的计算资源。相比之下，作者探索了一种“学生友好”的数据整理最佳实践，以有限的资源提升大规模视觉语言模型。存在两个主要挑战：(i)由于 GPU 内存的限制，使用大批次训练具有挑战性；(ii)由于计算成本高昂，难以在数十亿个样本上训练。在这里，作者将在第 5.1 节讨论全局硬样本挖掘策略，以小批次提高训练效率，并在第 5.2 节讨论如何正确寻找和整理大规模图像-文本训练数据集以实现最大信息增益。

5.1 全局硬样本挖掘

训练 CLIP 和 BLIP-2 通常需要较大的批量大小，因为这样可以增加获得困难训练样本的机会，并提高模型的对比度和判别能力。在这里，作者采用全局困难样本挖掘策略，将困难样本分组以批量处理，使小批量训练更加有效。

5.2 大规模数据集的选择与整理

在文献中，已经引入了多个大规模图像-文本训练数据集，例如 CC3M [69]、DataComp [27] 等。最近的一项努力 [78] 利用大规模预训练的图像标题模型为 DataComp 图像生成合成标题，为训练提供了更多信息。实验 [78] 表明，在生成的 DataCompDR12M 数据集上训练 CLIP 比在 DataComp1B 上训练取得了更好的性能，尽管只使用了 1% 的数据样本。然而，在作者的情况下，即使使用 DataCompDR12M 来训练 ELIP，在 12M 数据上使用 2 个 A6000/A40 GPU 训练 ELIP-B 仍然需要过长的时间。

为了加速 ELIP-B 的训练，作者采用了基于可学习性的批量选择策略，该策略受到 JEST [24]的启发。具体来说，作者使用第 5.1 节中描述的全局硬样本挖掘策略，对分组批次同时运行 ELIP-B（学习器）和预训练的 BLIP-2 模型（参考模型）。因此，作者选择了可学习性最高的前 10% 的批次，其中批次的可学习性计算为 ELIP 损失与参考模型损失的差值。

6. 评估数据集

作者在标准文本到图像检索基准 COCO [50] 和 Flickr [63]（第 6.1 节）上评估了 ELIP，以及作者新设置的分布外基准（第 6.2 节）。

6.1. 标准基准

COCO 是一个大规模的目标检测、分割和标题数据集。在标题方面，每张图片都标注了 5 个不同的标题。先前的工作使用了 5,000 张图像和 25,010 个标题的测试分割进行文本到图像检索的评估。

Flickr30k 数据集包含从 Flickr 收集的图像，以及由人工标注员提供的 5 个参考句子。其用于文本到图像检索的测试集包括 1,000 张图像和 5,000 个标题。

评估指标。作者使用标准指标来评估检索性能：召回率 @1，召回率 @5 和召回率 @10。召回率 @k 评估的是每个文本 Query 的前k个检索结果中成功检索到的相关图像的比例，即表示真实图像在检索算法返回的前k个排序图像中出现的频率，其中真实图像是与数据集中 Query 文本描述相关联的图像。

6.2 分布外基准

为了评估模型在分布外场景中进行文本到图像检索的能力，作者建立了两个新的 OOD 文本图像检索基准，它们作为 Flickr 和 COCO 等标准基准的补充。更具体地说，Occluded COCO 专注于遮挡目标的检索，而 ImageNet R 则强调从卡通、素描等不同不寻常领域检索目标。

遮挡 COCO 是通过使用[44]中的标注，按照[94]中描述的方法生成的，重点关注模型在检索包含遮挡目标目标的图像与不包含目标目标的图像方面的能力。

ImageNet-R 使用[33]中的标注生成，旨在检验模型在不同领域（如艺术、卡通、deviantart、涂鸦、刺绣、图形、折纸、绘画、图案、塑料物品、毛绒玩具、雕塑、素描、纹身、玩具和视频游戏）中将目标类别的图像排在其他类别图像前面的性能。

评估指标。与使用 COCO/Flickr 标题进行文本到图像检索不同，在 Occluded COCO 和 ImageNet-R 上，每个文本 Query 可能对应多个正例图像。因此，受图像检索领域评估方法的启发[62]，作者采用 mAP 作为评估指标。

7. 实验

实现细节。由于计算资源有限，作者使用批大小为 40 训练 ELIP-C/ELIP-S 模型，使用批大小为 12 训练 ELIP-B 模型。作者将初始学习率设置为 1e-3 以训练 ELIPC/ELIP-S，以及 1e-5 以训练 ELIP-B。默认情况下，作者在 DataCompDR 上训练模型，但也使用较小的 CC3M 进行消融研究。模型在 2 个 A6000/A40 GPU 上训练。在重新排序方面，对于 ELIP-C/ELIP-S，作者对 COCO/Flickr 的前 100 个样本、Occluded COCO 的前 500 个样本和 ImageNet-R 的前 1000 个样本进行重新排序；对于 ELIP-B，作者对 COCO/Flickr 的前 20 个样本、Occluded COCO 的前 100 个样本和 ImageNet-R 的前 200 个样本进行重新排序。k 的值选择使得在原始排序中该 k 的召回率较高，同时推理速度也快。更多细节请参阅附录。

7.1 COCO 和 Flickr 基准测试结果

消融研究。在表 1 中，作者评估了 ELIP 框架中不同组件对 CLIP 的益处。设置 A 与设置 B 之间的比较显示了 ELIP-C 增强相对于原始 CLIP 的有效性。比较设置 B 和设置 C，作者可以观察到在小批量训练模型时进行硬样本挖掘是至关重要的。比较设置 C 和设置 D，作者可以看到在较大数据集上训练模型且噪声标题较少时的益处。比较设置 D 和设置 E，可以观察到生成多个视觉 Prompt 比生成一个 Prompt 更有益。在本次实验中，作者生成了 10 个 Prompt ，并在附录中进行了关于生成 Prompt 数量的消融研究。

与现有技术的比较。表 2 比较了 ELIP（ELIP-C、ELIP-S 和 ELIP-B）与先前模型。可以观察到，在训练 DataCompDR12M 数据集时，ELIP 在 COCO 和 Flickr 基准测试中实现了 CLIP、SigLIP 和 BLIP-2 的零样本提升。因此，作者的 ELIPB 在 BLIP-2 Backbone 网络上超越了最新的工作[71]，为文本到图像检索设定了新的基准。

召回率 Top-k 曲线。图 6 展示了原始 CLIP/SigLIP 模型和作者的 ELIPC/ELIP-S 在 COCO 基准上的召回率 Top-k 曲线。召回率 Top-k 曲线是通过在不同 Top-k 值下收集召回率值来绘制的。作者可以注意到，这两个模型之间存在显著的差距，这表明 ELIP-C/ELIP-S 重新排序在各个 K 值上持续提升文本到图像检索的召回率。

定性结果。如图 7 所示，作者展示了在应用 ELIP-C 对 COCO（左侧）和 Flickr（右侧）进行重排序后，CLIP 模型的初始排名与重排序结果的定性比较。模型显著提升了排名——在这两种情况下，真实图像（用虚线框突出显示）的排名从低于前 5 名提升至第 1 名。更多定性结果请参阅附录。

注意力图可视化。图 8 展示了 CLIP 和作者的 ELIP-C 在 COCO 上对[CLS] Token 在图像块 Token 上的交叉注意力图。可以观察到，如果图像与文本匹配（图 8 左侧），作者生成的视觉 Prompt 向量可以有效提高与文本 Query 相关的图像特征的选择。由于作者的 ELIP-C 在图像编码器的非常早期就融合了文本特征，作者假设这种早期融合方法使得模型能够生成与 Query 文本更加对齐的图像嵌入，从而提高检索准确性。可视化结果支持了这一假设。

7.2 OOD 基准测试结果

表 3 展示了在分布外基准上的结果。可以观察到，在 Occluded COCO 和 ImageNet-R 等 OOD 基准上进行测试时，ELIP 实现了零样本改进，这证明了 ELIP 模型具有良好的泛化能力。在 COCO 和 ImageNet（非 OOD 版本）上进行微调后，模型的性能进一步得到提升，这证明了 ELIP 的有效性。有关微调的详细信息，请参阅附录。

本文提出了一种增强语言-图像预训练（ELIP）方法，旨在提升基于文本的图像检索的视觉-语言基础模型，并在 CLIP/SigLIP 上实现了显著提升，同时超越了最先进的 BLIP-2 模型。

8. 结论

作者的架构，一个简单的 MLP 映射网络，生成一组视觉 Prompt 向量，这有助于提高与文本 Query 相关的图像特征的选择，从而提升视觉语言基础模型的表现。

作者也探索了一种“学生友好型”的最佳实践来用有限的资源训练作者的架构，这涉及到在训练批次中分组困难样本和选择信息量最大的训练数据。

此外，为了补充现有的文本到图像检索基准，作者建立了两个新的基准来评估不同模型在分布外场景下的能力，并观察到作者的 ELIP 模型在性能上优于 CLIP 和 BLIP-2。

参考

[1]. ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval

END

作者：小书童
来源：集智书童

推荐阅读

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

导读