在多模态的浪潮之巅，如何“精雕细琢”图文对齐？

导读

近年来，多模态预训练模型如雨后春笋般涌现，其中 OpenAI 的 CLIP 凭借其简洁的对比学习框架和强大的零样本迁移能力，无疑是里程碑式的存在。它成功地将图像和文本映射到共享的语义空间，为诸多下游任务奠定了坚实的基础。然而，正如“月有阴晴圆缺”，CLIP 在展现其强大通用性的同时，也暴露了其在细粒度理解 (fine-grained understanding) 上的短板。

面对日益复杂的视觉场景和更精细化的交互需求——例如，在海量商品中通过“一件带有复古印花的丝质 V 领连衣裙”的描述精确检索，或让机器人理解“拿起桌子左边那个裂了纹的蓝色马克杯”这类指令——仅仅识别出“连衣裙”或“马克杯”是远远不够的。我们需要模型具备洞察细微差别、理解物体属性、捕捉空间关系的能力。这正是 FG-CLIP[1] 试图攻克的难题。

CLIP 的“阿喀琉斯之踵”：为何难以“细致入微”？

要理解 FG-CLIP 的价值，首先需要明晰 CLIP 在细粒度任务上的局限性，其根源主要在于：

训练数据的“粗放性”：CLIP 主要依赖于从互联网收集的大规模图文对进行训练。这些数据虽然量大，但文本描述往往较为简短、概括，更侧重于图像的全局核心内容，而缺乏对图像中物体具体属性、相互关系以及非显著性区域的细致刻画。例如，一张包含“一只小狗在草地上玩飞盘”的图片，其文本描述可能就是“小狗与飞盘”，而忽略了小狗的品种、毛色，草地的状态等细节。
隐式的全局对齐机制：CLIP 通过对比学习拉近匹配的图文对在嵌入空间的距离，推远不匹配的图文对。这种机制本质上学习的是图像整体与文本整体之间的宏观语义对应关系，而没有显式的机制去引导模型关注和对齐图像中的特定区域与文本中的具体描述片段。
缺乏对“相似但不同”的辨别力：当面对语义上非常接近但存在关键细微差异的图文对时（例如，“红色的车”vs“深红色的车”），CLIP 可能难以有效区分，因为它缺乏针对这类“难样本”的专项训练。

这些因素共同导致了 CLIP 在需要精细区分和定位的任务上表现不尽如人意。

FG-CLIP 的“精益求精”之道：三板斧与组合拳

针对 CLIP 的痛点，FG-CLIP 提出了一套组合拳，从数据构建到训练策略进行了全方位的“精细化升级”。其核心可以概括为“三大数据创新”和“两阶段训练范式”。

三大数据创新：为细粒度理解注入“源头活水”

众所周知，高质量、信息丰富的数据是训练出强大模型的基石。FG-CLIP 在数据构建上下足了功夫：

全局语义的“精炼”：16 亿长文本-图像对

针对原始 CLIP 文本描述简短的问题，FG-CLIP 利用先进的大型多模态模型 (LMMs)，如 CogVLM2-19B，为 LAION-2B 数据集中的图像生成了包含丰富全局语义和上下文细节的长文本描述。

这些长描述（平均长度远超原始短标题）能够提供更全面的场景信息、物体属性和潜在关系，引导模型学习更深层次的语义对应。

这与近年来利用 LLM/LMM 增强图文数据质量的趋势不谋而合，例如 ShareGPT4V 等工作也致力于构建高质量的长描述数据集。

通过引入 16 亿 这样的长文本-图像对，FG-CLIP 在训练的第一阶段就为模型打下了坚实的全局细粒度理解基础。

2. 局部对齐的“基石”：1200 万图像与 4000 万区域-文本对

要实现真正的细粒度理解，仅仅依赖全局描述是不够的，模型必须学会将文本中的具体指称（如“红色的苹果”、“戴帽子的男人”）与图像中的特定区域精确关联起来，这就是视觉基座 (Visual Grounding) 的核心。

FG-CLIP 构建了一个大规模、高质量的视觉基座数据集。他们首先利用 LMM 生成详细的图像描述，然后使用 SpaCy 解析这些描述，提取指代表达式 (referring expressions)，再结合预训练的开放词汇检测模型 Yolo-World 来获取这些表达式对应的边界框 (bounding boxes)。最终产出了一个包含 1200 万张图像和 4000 万个带有精细化区域描述的边界框的数据集。

这一做法呼应了如 GLIP、RegionCLIP 等工作强调显式区域-文本对齐重要性的思想。与它们不同的是，FG-CLIP 的区域描述直接来源于 LMM 生成的更自然、更丰富的上下文，而非局限于简单的物体类别或短语。

3. 辨别能力的“磨刀石”：1000 万难细粒度负样本

对比学习的成功在很大程度上依赖于高质量的负样本。为了让模型能够区分那些“差之毫厘”的细节，FG-CLIP 精心设计了难细粒度负样本 (hard fine-grained negative samples)。

具体做法是，针对视觉基座数据中的每个区域及其对应的“正向”文本描述，他们利用大型语言模型 (Llama-3.1-70B) 对描述中的物体属性进行修改，而保持物体名称不变，从而生成语义上极为相似但存在关键差异的负样本。例如，对于正样本“a red wooden chair”，可能生成“a blue wooden chair”或“a red metal chair”作为难负样本。

这种策略使得模型在训练过程中，必须关注到这些细微的属性差异才能正确区分正负样本，从而显著提升其在细粒度辨别任务上的性能。这种对难负样本的精细化构造，是提升模型鲁棒性和表征能力的关键环节，也是度量学习和对比学习研究中的一个重要方向。

两阶段训练范式：从全局到局部，层层递进

FG-CLIP 采用了循序渐进的两阶段训练策略：

第一阶段：全局对比学习与长文本对齐

在这一阶段，模型主要利用前述的 16 亿长文本-图像对进行训练。目标是让模型初步建立对图像全局内容和丰富文本描述之间的细粒度语义理解。

同时，为了兼容不同长度的文本输入，FG-CLIP 对文本编码器的位置编码进行了扩展，使其能够处理更长的文本序列（从 77 扩展到 248 tokens）。

第二阶段：区域对比学习与难负样本学习的精调

在第一阶段预训练的基础上，第二阶段引入了包含 4000 万区域-文本对的视觉基座数据以及 1000 万难负样本。

这一阶段的目标是进一步精炼模型对图像局部细节的感知和定位能力，并增强其区分细微语义差异的辨别力。

损失函数同时包含了全局对比损失、区域对比损失以及针对难负样本的损失项，确保模型在多个层面上都能得到优化。

实验效果的“庖丁解牛”：FG-CLIP 究竟“行不行”？

FG-CLIP 在一系列细粒度理解、视觉基座以及开放词汇检测等任务上都取得了令人瞩目的成绩，充分证明了其设计的有效性。

细粒度理解 (FG-OVD Benchmark)：在专门为评估细粒度理解能力构建的 FG-OVD 基准上，FG-CLIP 相比原始 CLIP 及其他强基线模型（如 EVA-CLIP, Long-CLIP, FineCLIP）取得了显著提升，尤其是在“hard”和“medium”难度子集上优势明显。这直接印证了其在捕捉和区分细微语义特征方面的强大能力。

边界框分类 (Bounding Box Classification)：在 COCO, LVIS 等数据集上的零样本边界框分类任务中，FG-CLIP 同样展现出优异性能。这得益于其第二阶段训练中引入的区域-文本对齐学习，使得模型能够更好地理解给定边界框内的具体内容。

开放词汇目标检测 (Open-Vocabulary Object Detection)：将 FG-CLIP 作为视觉骨干网络应用于开放词汇检测器 F-ViT 时，在 OV-COCO 基准上也取得了领先结果。这表明 FG-CLIP 学习到的细粒度特征对于下游更复杂的视觉基座任务同样具有积极作用。

图文检索 (Image-Text Retrieval)：无论是在基于长文本的 ShareGPT4V、DCI 数据集，还是基于短文本的 MSCOCO、Flickr30K 数据集上，FG-CLIP 都表现出色，显示了其对不同长度和风格文本的良好适应性。

如上表，从消融实验的结果我们不难得出以下三点结论：

长文本描述是基础：仅使用全局长文本进行第一阶段训练（FG-CLIP Stage1）就已经比原始 CLIP 有了显著提升。
全局与区域协同发力：在第二阶段同时引入全局对比学习 (L_global) 和区域对比学习 (L_regional) 能进一步提升模型在边界框分类和部分细粒度理解任务上的表现。
难负样本是“杀手锏”：加入难负样本学习 (L_hard) 后，模型在 FG-OVD 基准的“hard”和“medium”子集上实现了大幅性能飞跃，充分证明了其在提升模型辨别细微差异能力上的关键作用。

关于 FG-CLIP 在多模态版图中的定位与启示

FG-CLIP 的出现，为解决多模态预训练模型在细粒度理解方面的瓶颈提供了一个清晰且有效的范例。虽然它并非颠覆性的框架创新，而是对现有 CLIP 范式的一次深刻“精益求精”的改良。

数据驱动的极致追求：FG-CLIP 再次印证了数据在深度学习，尤其是大规模预训练模型中的核心地位。但它更强调数据的“质量”而非仅仅是“数量”。通过 LMM 生成高质量长文本、构建精细化的视觉基座数据、以及设计巧妙的难负样本，FG-CLIP 将数据工程的价值发挥到了新的高度。
从“感知”到“精细理解”的跨越：如果说原始 CLIP 主要解决了让模型“看懂”图像大概内容的问题（即基础感知），那么 FG-CLIP 则推动模型向“看清”、“看细”图像细节（即精细理解）迈出了重要一步。这对于实现更高级的人工智能应用（如精准问答、复杂指令遵循、细粒度内容生成等）至关重要。
对下游任务的潜在赋能：FG-CLIP 学习到的更具辨别力的细粒度特征，有望作为更强大的视觉骨干网络，赋能各种下游视觉和多模态任务，提升其在复杂场景下的表现。

然而，笔者此处也有一些疑问。首先我们看下 FG-CLIP 的核心创新之一在于利用大型多模态模型和检测模型来生成高质量的训练数据。具体而言：

长文本描述生成：使用了 CogVLM2-19B。
指代表达式边界框获取：使用了 Yolo-World。
难负样本文本生成：使用了 Llama-3.1-70B。

为何不考虑使用当前性能显著超出一个量级的模型，例如 GPT-4o、Gemini Pro、QwenVL，或是在 OVD 领域表现更佳的 Grounding DINO Pro 1.6 等？当然可能是考虑到成本问题和效率问题，但这样构建出来的数据个人感觉质量应该很一般。

此外是关于负样本的边界的处理，即能否有效处理“缺失”与“否定”case？举个简单的例子，例如匹配图像中“未”佩戴安全帽的人。

遗憾的是，目前来看，貌似很少有人关注这方面的研究。如果感兴趣的话可以看下 ICLR 2023 Oral 发表的 NegCLIP[2] 以及 CVPR'25 新提出的一个 NegBench [3]

最后，关于 FG-CLIP 的一些优化点主要有以下三点考量：

如何更有效地利用 LLM/LMM 的知识来指导视觉特征学习和数据构建？
如何在不显著增加模型复杂度的前提下，进一步提升对物体间复杂关系、时序动态以及组合泛化能力的理解？
如何设计更高效的训练策略，以充分利用这些高质量的细粒度数据？

总结

FG-CLIP 通过在数据层面引入全局长文本描述、局部区域-文本对齐和难细粒度负样本，并结合两阶段训练策略，成功地提升了 CLIP 模型在细粒度图文理解方面的能力。它不仅在多个基准测试中取得了优异的性能，更重要的是，它为如何在现有强大预训练模型的基础上进一步“精雕细琢”，以满足日益增长的精细化应用需求，提供了宝贵的经验和启示。

在多模态技术飞速发展的今天，我们有理由相信，随着研究者们对“细微之处”的不断探索和突破，未来的 AI 系统必将拥有更加敏锐的“洞察力”和更深刻的“理解力”。