精简阅读版本
本文主要解决了什么问题
本文的核心创新是什么
结果相较于以前的方法有哪些提升
局限性总结
深入阅读版本
导读
对比语言图像预训练(CLIP)在图像文本检索和零样本分类等多模态任务中表现出色,但由于其专注于粗粒度的短文本描述,因此在细粒度理解方面存在不足。为解决这一问题,作者提出了细粒度CLIP(FGCLIP),通过三项关键创新增强细粒度理解能力:
- 首先,作者利用大型多模态模型生成16亿个长文本图像对,以捕捉全局语义细节。
- 其次,构建了一个包含1200万张图像和4000万个与详细文本描述对齐的区域特定边界框的高质量数据集,以确保精确且富含上下文的表示。
- 第三,引入了1000万个硬细粒度负样本,以提高模型区分细微语义差异的能力。针对这些数据,作者精心设计了相应的训练方法。
大量实验表明,FGCLIP在细粒度理解、开集目标检测、图像文本检索以及通用多模态基准测试等多种下游任务中,均优于原始CLIP及其他最先进方法。这些结果突显了FGCLIP在捕捉细粒度图像细节和提高整体模型性能方面的有效性。
相关数据、代码和模型可在 https://github.com/360CVGroup... 获取。
1. 引言
视觉与语言的融合一直是人工智能领域的一项长期目标,旨在开发能够在视觉和语言方面丰富理解与推理的模型。多模态预训练的最新进展,如CLIP,通过对比学习学习图像和文本的联合表征,在这一方向上取得了显著进展。这些模型在各种下游任务中实现了最先进的性能,包括图像-文本检索、图像描述和视觉问答。然而,尽管这些模型具有令人印象深刻的性能,但它们在处理细粒度细节方面仍存在困难,特别是在识别物体属性及其关系时。
近期研究指出了CLIP在细粒度学习能力方面的两个主要限制原因。首先,原始CLIP模型的文本编码器仅支持最多77个token,这限制了其处理详细描述的能力,并阻碍了其捕捉微妙文本信息的能力。其次,CLIP将整个图像与相应的文本描述进行对齐,这使得从视觉特征中提取有价值的区域特定表示变得困难。因此,模型难以在图像区域与其对应的文本属性之间实现细粒度对齐,从而限制了其在复杂识别场景中的有效性。
为解决这些问题,研究行人提出了将位置编码扩展以支持更长的token序列以及将目标检测数据集整合到CLIP训练中。通过将边界框与类别标签对齐,这些方法旨在增强区域特征提取。尽管这些方法显示出一些改进,但它们在细粒度视觉识别和开集目标检测方面仍存在不足。现有方法通常引入相对较少的长文本描述,通常在百万量级,这对于有效学习细粒度细节是不够的。此外,将图像区域与类别标签对齐限制了语义多样性,限制了模型在开放世界场景中的泛化能力。此外,缺乏硬细粒度负样本限制了模型区分同一类别但属性不同的目标的能力。在这项工作中,作者引入了细粒度CLIP(FG-CLIP),这是一种通过三项关键创新来增强CLIP细粒度理解能力的新方法。
首先,作者通过使用最先进的超大多模态模型(LMMs)生成长文本描述,显著增强了全局语义对齐。这一过程引入了16亿个长文本描述-图像对,提供了前所未有的数据规模,使得FG-CLIP能够在全局语义层捕捉到细微的细节,从而提升其感知复杂和详细信息的能力。
其次,为提升图像与文本之间的细粒度对齐,作者开发了一个高质量的视觉定位数据集。该数据集包含1200万张图像中4000万个边界框的详细描述,确保每个区域都使用富含上下文的文本进行精确标注。通过构建这样一个规模庞大且标注丰富的数据集,作者使模型能够学习到精确且上下文丰富的表征,显著提升了其在需要细粒度理解的任务上的性能。
第三,为了进一步增强模型的鲁棒性和区分能力,作者引入了一个包含1000万个硬细粒度负样本的大规模语料库。通过将这些具有挑战性的负样本纳入训练过程,FGCLIP学会了区分语义相似但不同的样本对之间的细微差异,从而在各种下游任务中显著提升了其性能。
与先前方法相比,FG-CLIP在广泛的基准任务中展现出显著改进。作者的全面增强使模型在捕捉精细视觉细节方面实现了卓越性能,这体现在作者在细粒度理解、边界框分类、长描述图像文本检索和开集目标检测等任务上的最先进结果。此外,当作为LMMs的主干时,FG-CLIP在属性分析、目标定位和减少输出幻觉等任务中也表现出性能提升。作者在附录C中提供了可视化结果,以展示在细粒度理解方面的改进。这些结果突显了FG-CLIP在捕捉图像细节和提升整体模型性能方面的有效性。
模型、数据集和代码:https://github.com/360CVGroup...
2. 相关工作
2.1. 对比语言图像预训练
对比学习已成为多模态预训练领域的一种强大范式,显著推动了图像-文本对齐领域的发展。CLIP等模型通过利用大规模图像-文本对来学习丰富的表示,无需显式监督,从而革新了这一领域。CLIP通过双编码器架构将图像及其对应的文本描述映射到共享的嵌入空间中,在该空间中,语义相似的图像对被拉近,而语义不相似的图像对被推远。这种方法不仅简化了数据标注,还实现了下游任务的零样本迁移,在图像分类和图像-文本检索等多种基准测试中展现出令人印象深刻的性能。
2.2. 细粒度理解
尽管取得了成功,CLIP在处理细粒度视觉细节方面仍存在局限性。其文本编码器被限制在77个token,这限制了它处理详细和复杂描述的能力。此外,CLIP将整个图像与相应的文本进行对齐,这使得提取有价值的区域特定表示变得困难。为了解决这些局限性,像LongCLIP这样的模型扩展了文本编码器的最大token长度,使其能够处理更长、更详细的文本信息。GLIP和RegionCLIP引入了 grounding 数据,增强了模型将图像中的特定区域与相应文本对齐的能力,从而提高了下游检测任务的性能。然而,即使有了这些改进,现有模型仍然难以在不同的数据集上完全捕捉和对齐细粒度特征。
2.3. 图像-文本数据集
图像-文本数据集在多模态模型的性能中发挥着关键作用。虽然现有的数据集如LAION、COCO、Flickr30K和Conceptual Captions提供了宝贵的资源,但它们通常侧重于一般场景描述,忽视了对于High-Level应用至关重要的细粒度细节。研究行人已采用多种策略来缓解这些局限性。一种方法涉及利用先进的超大多模态模型通过重新配对文本描述来精炼和丰富文本描述。例如,LongCLIP利用ShareGPT4V中的100万长文本-图像对,而FineCLIP构建了一个包含250万长文本-图像对的数据集。
尽管这些努力增强了数据的丰富性,但与图像-文本领域的海量数据相比,其规模仍然有限。另一种策略是使用预训练的目标检测模型实施伪标签流程,自动为区域框生成细粒度的伪标签,类似于Kosmos-2中使用的GRIT数据集。这些方法有助于提高区域特定的对齐,但由于自动标注可能会引入噪声。
另一个重要挑战是硬细粒度负样本的稀缺性。现有数据集主要由相对容易区分的正例构成,这限制了模型学习微妙变化的能力。缺乏硬负样本阻碍了真正的细粒度理解,因为模型难以辨别视觉和文本特征中的微小但具有意义的差异。弥补这一空白对于开发能够可靠执行细粒度识别和匹配任务的模型至关重要,从而使其能够处理High-Level应用所需的细微差别。
3. 方法
3.1. 细粒度CLIP
全局对比学习。全局对比学习旨在通过引入一种利用大型多模态模型(LMMs)增强长文本对齐的方法来提升模型的细粒度理解能力。该方法生成额外的长文本,提供更丰富的上下文和更细粒度的描述。长文本的引入使模型能够感知并匹配全局 Level 的语义细节,从而增强细粒度理解和上下文感知能力。此外,作者保留了短文本-图像对的对齐。长文本补充了这些短文本,确保模型能够从详细、微妙的长文本中学习复杂语义信息,以及从简洁、直接的短文本中学习基本概念。这种双重方法提高了模型捕捉更广泛视觉信息范围的整体性能。
在FG-CLIP中,短句和长句均通过与文本编码器提取的用于文本的[CLS] Token 特征和图像编码器提取的用于图像的[CLS] Token 特征对齐图像。为了适应更长、更详细的句子,同时保持短句的对齐,FG-CLIP文本编码器的位置嵌入被扩展。具体而言,对于长度小于或等于20个 Token 的序列,作者直接使用原始位置嵌入。对于更长的序列,作者对20个 Token 之外的位置应用线性插值,插值因子为4,将最大长度从77扩展到248个 Token 。这一修改确保模型能够有效处理更长、更具描述性的文本,同时保持计算效率。
3.2. 精心策划的数据集
在本节中,作者详细描述了为作者的FG-CLIP模型整理数据集的严谨过程,强调规模和质量,以解决现有模型在细粒度理解方面的局限性。
使用详细重描述增强LAION-2B数据集。在训练的第一阶段,作者采用LAION-2B数据集的增强版本,该版本中的图像由大型多模态模型,即CogVLM2-19B生成详细描述进行重描述。这种方法能够生成更详细且上下文丰富的描述,这对于捕捉视觉内容的细微差异至关重要。原始的LAION-2B数据集往往存在过于笼统或不精确的描述问题,导致在细粒度任务中的表现不佳。例如,一张鸟类的图像可能被描述为“一只鸟”,而未指明其种类或环境。此类笼统的描述限制了模型识别细节的能力。
通过利用先进的超大多模态模型,作者生成了详细的描述,这些描述不仅能够识别物体,还能提供丰富的上下文信息,包括其属性、动作和场景中的关系。例如,作者改进后的标题描述为“一只停泊在公园树枝上的红翅黑鸟”,而不是泛泛的“一只鸟”。利用一个包含160×910 B NPU的集群,数据处理在30天内完成。第4.5节详细阐述的消融研究评估了使用这些高质量、详细的标题描述的影响。结果表明,在各项任务中模型性能均显著提升,突显了大规模高质量文本标注在提高模型准确性和上下文理解能力中的关键作用。
创建高质量视觉定位数据。在训练的第二阶段,作者开发了一个包含精确区域特定描述和具有挑战性的负样本的高质量视觉定位数据集。作者基于GRIT图像来构建整个数据集。该过程首先使用CogVLM2-19B生成详细的图像描述,确保全面且细致的描述,以捕捉每张图像的完整上下文。随后,使用SpaCy对描述进行解析并提取指代表达式。接着,将图像和指代表达式输入预训练的目标检测模型,即Yolo-World,以获取相关的边界框。应用非极大值抑制来消除重叠的边界框,仅保留预测置信度得分高于0.4的边界框。该过程最终生成1200万张图像和4000万个具有细粒度区域描述的边界框。作者在附录A中提供了图像及其对应描述的示例。
接下来,为创建具有挑战性的细粒度负样本,作者修改边界框描述的属性,同时保持物体名称不变。为此,作者采用开源大语言模型Llama-3.1-70B为每个正样本生成10个负样本。为确保清晰性,作者从生成的描述中移除了分号、逗号和换行符等特殊符号。对3000个负样本的质量检查显示,98.9%的样本符合要求,仅有1.1%被视为噪声——这一水平在无监督方法的预期容差范围内。该过程生成了细微变化,更真实地反映了现实场景中物体可能相似但在特定细节上存在差异的情况。作者在附录B中展示了细粒度负样本的示例。
生成的数据集包含1200万张具有细粒度描述的图像、4000万个带有详细区域描述的边界框,以及1000万个硬负样本。数据处理流程使用了一个由160×910 B NPU组成的集群,并耗时7天完成。这个综合数据集增强了模型捕捉细粒度细节的能力,为训练FG-CLIP以区分视觉和文本特征中的细微差异提供了坚实的基础。
4. 实验
4.1. 实现细节
在第一阶段,作者采用160台ASCEND 910B NPU进行训练,并在一个包含16亿张图像的数据集上进行训练,每张图像都与短文本和长文本配对。模型使用原始CLIP的权重进行初始化。对于ViT-B和ViT-L配置,每个NPU的批处理大小设置为384。可学习温度参数τ初始化为0.07。作者使用学习率为1e-4、权重衰减为0.05、β₁为0.9、β₂为0.98的AdamW优化器,并在前200次迭代中进行预热步骤。整个训练过程采用DeepSpeed的Zero-2优化技术和Bfloat16精度来加速训练,模型训练一个epoch。
4.2. 细粒度区域级任务比较
在本节中,用于比较的主要方法包括CLIP、EVA-CLIP、Long-CLIP和FineCLIP。参与开集检测的其他方法包括OV-RCNN、RegionCLIP、Detic、VLDet、RO-ViT、CFM-ViT、F-ViT和CLIPSelf。
细粒度理解。基于细粒度基准FG-OVD,作者评估开源图像文本对齐模型。与依赖全局信息进行匹配的先前基准(如MSCOCO和Flickr)不同,此基准专注于识别图像中的特定局部区域。每个区域有一个对应的正描述和十个负描述,负样本从正文本中派生。此基准主要包含四个难度等级不同的子集:困难、中等、简单和琐碎。这些子集之间难度的递增体现在待匹配文本之间的区分程度。在困难、中等和简单子集中,分别替换了一个、两个和三个属性词。在琐碎子集中,文本完全无关。
在测试阶段,遵循FineCLIP的方法,作者首先通过移除模型中最后的一个自注意力层来提取模型的密集特征。随后,作者将基准测试提供的边界框信息与ROIAlign相结合,以获取具有代表性的特征。这些特征用于计算与正负样本描述的相似度分数。采用Top-1准确率作为评估指标。
如表1所示,FG-CLIP在现有模型上取得了显著改进,特别是在具有挑战性的硬和中等子集上,这得益于其硬细粒度负样本学习策略。不同模型性能的示例可以在附录D.1中找到。
边界框分类。为评估模型的局部信息识别能力,作者在 COCO-val2017、LVIS和 Open Images 数据集上开展零样本测试。此评估重点关注模型仅利用文本描述对边界框内物体进行分类的能力。类似于细粒度理解,作者将基准测试中的已知边界框信息与 ROIAlign 集成,以获得局部密集表示。使用所有类别作为文本输入,作者对每个边界框进行匹配和识别,评估 Top-1 准确率。
如表2所示,FG-CLIP在边界框分类任务中借助区域对比学习策略取得了领先性能。值得注意的是,LongCLIP通过使用长文本对CLIP进行微调,其性能显著下降,表明长文本影响了区域信息的粒度。此外,FineCLIP使用区域对齐数据,并结合实时自蒸馏方案,带来了显著的改进。虽然FineCLIP取得了显著进展,但FG-CLIP通过整合区域和全局信息超越了它。这种方法增强了FG-CLIP准确识别和分类图像内区域的能力,突显了FG-CLIP训练策略的有效性。
4.3. 图像级任务比较
长/短文本图像-文本检索。为了全面评估检索性能,作者在长文本和短文本图像-文本检索任务上进行了实验。对于长文本检索,作者遵循Long-CLIP的协议,并使用ShareGPT4V提供的1K子集作为测试集。此外,作者还纳入了来自DCI的一个更具挑战性的长文本图像-文本对数据集,该数据集包含7,805对,用于评估。对于短文本检索,作者采用了经典的MSCOCO 5K和Flickr 1K评估集,这两个评估集是评估图像-文本对齐模型的广泛使用的基准。如表4所示,FG-CLIP在长/短文本图像-文本检索任务中均实现了显著的性能提升。该模型处理不同长度文本的能力突出了其在多模态对齐方面的通用性和鲁棒性。
零样本图像分类。作者在ImageNet1K和ImageNet-v2上评估了FG-CLIP的零样本分类性能。如表4所示,尽管FGCLIP在训练数据集更大的EVA-CLIP之后稍显落后,但与原始 Baseline CLIP相比,FGCLIP在区域和文本理解能力上有所增强,表现出稳定的分类性能。此外,与旨在提升细粒度识别能力的Long-CLIP和FineCLIP相比,FG-CLIP在分类准确率上展现出显著优势。
4.4. 在通用多模态基准上的比较
作者将FG-CLIP作为多模态大语言模型的视觉特征提取器与作者的 Baseline CLIP进行比较。具体而言,作者使用LLaVA-v1.5-7B进行实验,该模型本身是使用CLIP训练的。为确保公平比较,所有参数配置均与原始LLaVA保持一致,并使用LLaVA提供的数据进行训练。作者的评估重点关注与属性分析、物体定位和输出幻觉相关的基准数据集,分别为GQA、RefCOCO和POPE。
如表5所示,FG-CLIP在涉及属性型问答的GQA以及评估输出幻觉的POPE上均取得了显著改进。此外,它在涉及属性分析和目标定位的基准数据集RefCOCO上也表现出显著提升。这些结果表明FG-CLIP的训练策略和数据构建的有效性,这些策略和数据均专门设计用于增强细粒度识别和区域对齐。作者在D.3节提供了更多结果。
4.5. 消融研究
为了系统地评估作者FG-CLIP模型中不同组件的贡献,作者进行了消融研究,结果总结在表6中。
5. 结论
在这项工作中,作者介绍了细粒度CLIP(FG-CLIP),这是一种显著提升细粒度理解能力的新方法。通过将先进的对齐技术与大规模、高质量数据集和困难负样本相结合,FG-CLIP能够捕捉全局级和区域级的语义细节,并更有效地区分细微差异。
广泛的下游任务实验验证了该模型的优越性能。作者发布数据、代码和模型旨在促进该领域的进一步研究和创新。
展望未来,探索更复杂的多模态模型的集成以及扩展数据集的多样性对于推动细粒度理解的边界至关重要。
参考
[1]. FG-CLIP: Fine-Grained Visual and Textual Alignment
END
作者:小书童
来源:集智书童
推荐阅读
- HMPE革新Transformer检测,小目标mAP飙升1.9%,解码器砍掉5层,推理速度翻倍
- YOLOv13震撼发布 | 超图高阶建模+轻量化模块,保证实时性的情况下,检测精度再创新高!
- 学习用于通用代码优化的编译器世界模型,超越内置编译器优化标志和最先进方法!
- 小目标检测新标杆,SimAM无参数注意力+NWD指标完胜YOLOv7
欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。