腾讯提出M2CLIP | TED-Adapter增强视觉编码+Text-Adapter增强语义学习 - 极术社区

最近，大规模视觉语言预训练模型（如CLIP）的兴起，以及参数高效的微调（PEFT）技术的应用，在视频动作识别领域引起了广泛关注。然而，当前的方法通常优先考虑在迁移过程中牺牲模型的泛化能力，以换取强大的监督性能。
在本文中，作者提出了一种名为M-CLIP的新颖多模态、多任务CLIP适应框架，以解决这些挑战，同时保持高度的监督性能和强大的泛化能力。首先，为了增强每个模态架构，作者引入了多模态 Adapter ，用于视觉和文本分支。具体来说，作者设计了一种新的视觉TED-Adapter，它通过全局时间增强和局部时间差异建模来提高视觉编码器的时序表示能力。此外，作者还采用了文本编码器 Adapter 来加强语义标签信息的学习。其次，作者设计了一个多任务解码器，具有丰富的监督信号，以适应多模态框架中强大的监督性能和泛化能力的需求。
实验结果验证了M-CLIP的有效性，表明在监督学习中取得了出色的性能，同时保持了零样本场景下的强大泛化能力。

Introduction

近年来，大规模视觉语言预训练模型（VLM）如CLIP，ALIGN和Florence的兴起，使得研究行人积极寻求将这些大规模模型有效地适应到其特定领域。因此，作者在这篇论文中关注将影响深远的CLIP模型转移到视频动作识别领域，强调它在推动该领域发展中的关键作用。

无疑，从强大的CLIP模型中转移知识具有巨大的潜力，因为它具有强大的表示能力和出色的泛化性能。最直观的方法是直接将时间建模添加到CLIP的图像编码器中，然后微调整个网络。然而，微调具有很高的计算成本，可能潜在地影响CLIP的原生泛化能力。随着PEFT的出现，研究行人开始探索冻结原始CLIP参数并引入各种 Adapter 或提示，只训练新增参数。

值得注意的是，PEFT促使对传统单模态视频分类框架进行重新评估。通过直接利用CLIP的视觉分支与添加的 Adapter 相结合，再加上线性分类层，这些方法在监督场景中取得了令人印象深刻的结果。然而，这些方法在排除文本分支时可能会失去CLIP的泛化能力，这是CLIP本身的一个基本吸引力。

PEFT也可以应用于多模态CLIP迁移框架，直接影响视觉分支或文本分支，甚至可以同时影响两者。它显著提高了效率并减少了可学习参数的数量。然而，冻结多模态 Backbone 会导致监督准确性的下降，与单模态框架的性能相比存在差距，即使包括了强大的单模态 Adapter 也是如此。

作者通过实验进一步验证这一观察，如图2左所示。将CLIP的文本分支引入，将ST-Adapter作为单模态框架的代表，将ST-Adapter转换为多模态框架。正如预期，通过在学习 Adapter 的同时冻结CLIP参数，作者确实观察到监督性能明显下降。原因在于CLIP的文本分支缺乏足够的判别特征，特别是对于动作动词，如图2右所示。此外，CLIP本身的对比学习损失使其在相对较小的数据集（与原始训练集相比）训练时学习视频的判别特征变得困难，尤其是在文本数据稀缺的情况下。

为缓解性能退化并确保泛化性，作者提出了一种新的多模态、多任务CLIP迁移框架，称为M-CLIP。首先，作者专注于多模态适应以构建更强的架构，向文本和视觉分支添加 Adapter 。具体来说，为了更好地表示视频的时间信息，作者设计了一种新的TED-Adapter，能够同时集成全局时间增强和局部时间差异建模。

此外，作者还引入了一种简单的 Adapter 到文本分支，以捕获与动作标签相关的额外语义信息，这显著改善了第一个问题。其次，作者设计了一个多任务解码器，以挖掘更大的学习潜力。解码器由四个组件组成：

第一个是原始对比学习 Head ，旨在对视频-文本表示进行对齐；
第二个 Head 是跨模态分类 Head ，可以突出跨模态特征的判别能力；
第三，在文本分支的最后一层设计了一个跨模态掩码语言建模 Head ，以促进视觉特征对动词的识别关注；
最后，在视觉分支的末端添加了一个视觉特征分类器，以方便在不同的类别之间区分视觉特征。

总之，作者的贡献有三个方面：

提出了一种新颖的多模态、多任务适配框架，将强大的CLIP模型转移到视频动作识别任务。这种方法在实现强大的监督性能的同时，确保了最先进的零样本转移能力，如图1所示。
设计了一种新的视觉TED- Adapter ，通过时间增强和差异建模来增强视频编码器的表示能力。同时，作者引入了文本编码器的 Adapter ，使标签表示可学习且可调整。
引入了一个多任务解码器，以提高整个框架的学习能力，适当地实现监督性能和泛化性的平衡。

Method

Architecture Overview

如图2(a)所示，作者的框架包括三个关键组件：视频编码器、文本编码器和多任务解码器。在本节中将介绍整个架构的概述，并将多模态 Adapter 和多任务解码器的详细信息留在接下来的两个部分中。

解码器：一旦从两个编码器中获得的输出特征被获取，它们将被输入到作者专门设计的多任务解码器中。在训练过程中，解码器的作用是限制编码器生成的特征表示，促进两个模态之间的语义对齐，并使不同类别的特征区分开来。一旦模型完成训练，解码器非常灵活，可以生成有监督学习的分类分数，并进行零样本分类。解码器的详细结构设计将在下一节中详细阐述。

Visual and Textual Adapters

为了更好地将CLIP转移到这个任务并增强标签中动作动词的语义表示，作者为视觉和文本分支引入了 Adapter 来提高它们各自的表示能力。

视频TED- Adapter ：将CLIP的图像分支适应到视频分支需要额外的时序建模模块，可以从全局时序增强和局部时序差异建模两个角度来处理。前者是直观的全局时序聚合，称为时空特征，其中时序注意力或时序卷积应用于多个帧的特征，以聚合相似的动作主体。这在CLIP的迁移中得到了广泛探索。后者是短时帧间特征差异学习，它试图捕捉相邻帧之间的局部运动模式和动力学。这种特征在早期的计算高效卷积算法中已经提到，但在CLIP的迁移背景下尚未探索。为了在统一的结构中探索两种时序建模，作者设计了一种新颖的TED- Adapter ，同时学习时空增强和时序差异。

默认情况下，TED-Adapter会放在多头自注意力（MHSA）之前，除非另有说明。通过结合时间增强和时间差操作，作者提出的TED-Adapter可以捕获时空特征和局部更精细的运动模式，这两者对于这个任务都是至关重要的。

文本 Adapter ：在动作识别中，描述动作的文本标签通常很短且简洁，强调动作本身，例如“展开某物”和“跨栏”。然而，作者观察到CLIP的文本编码器单独可能无法有效区分这些标签文本特征，如图2所示。

为了解决这个问题，在文本分支中引入了 Adapter 来学习更好的动作标签语义表示。作者直接在这里使用基本 Adapter 结构如图2(b)所示。具体来说，给定文本 Adapter 层的输入文本标记，执行文本 Adapter 如下：

其中Act表示非线性激活函数，作者在这里使用GeLU。

默认情况下，文本 Adapter 插入在 Transformer 层的Feed-Forward Networks（FFN）之前。通过包含文本 Adapter ，模型可以增强对动作标签的理解，捕获更判别性的语义信息。这使得文本和视觉表示之间的对齐得到改善，从而实现更准确和有效的视频动作识别。

Multi-Task Decoder

正如前面所述，作者观察到在利用CLIP的多模态框架时，仅使用对比学习的效果并不如等价配置的单模态框架。为了应对这个问题，作者提出了一种配备四个独立学习任务的解码器，每个任务对应一个单独的头，如图2(a)右部分所示。这种方法旨在利用多个任务约束来提高多模态框架的联合表示能力。

多模态对比学习 Head （对比度）。这是CLIP的原始训练目标。为了使视频表示和标签表示之间的相似性接近，定义了两个模态之间的对称相似性：

其中cos表示余弦相似度，是一个温度参数，是训练配对的数目。对于负样本，定义真实的标签为0，对于正样本，定义真实的标签为1。作者使用Kullback-Leibler散度作为视频-文本对比损失来优化这个 Head ，以实现ActionCLIP。

当模型被训练时，它将准备好零样本分类。在实践中，文本输入可以提示为“一个视频的”，其中是类别名称，共有C个类别。预测某个视频的的过程就是找到通过以下计算得出的最高相似度分数：

跨模态分类 Head （CMC）。由于动作标签在给定的集合（个类别）内定义，作者可以在每次迭代中计算每个迭代完整的标签特征集，从而进行跨模态特征分类。在本工作中，作者采用了直接计算余弦相似度的简单参数无关跨模态融合方法，该方法使用公式（11）直接计算。

请注意，这与公式（10）不同，后者考虑了训练批次内的视频-文本匹配，并无法覆盖所有动作标签的代表。在获得这些相似度后，目标是确保视频表示与其对应标签的文本表示相似，而不是其他类别的文本表示。为了实现这一点，作者巧妙地将问题转化为1-in-分类任务，并使用交叉熵损失将分类约束添加到跨模态相似度分数中。

跨模态掩码语言建模 Head （CMLM）。与原始CLIP主要处理图像-文本配对数据不同，作者的动作标签主要关注动词。

为了增强CLIP文本分支对动作相关词汇更好 representations 的表示，并帮助文本 Adapter 的学习，引入了一个额外的CMLM Head ，该 Head 促使文本分支从其他文本和视频标记中预测Mask。具体来说，给定帧间视频特征和文本特征，作者执行一个跨注意力操作以获得跨模态特征。由于文本数据的有限性，直接学习这个注意力层的参数可能具有挑战性。

作者解决这个问题的方法是使用文本分支中最终 Transformer 层参数初始化这个注意力层参数，然后冻结这些参数并在 Transformer 层FFN之前添加一个等式（9）的文本 Adapter 。然后作者只学习这个文本 Adapter 的参数。这个过程可以表示为：

其中CA，LN和MLP分别表示交叉注意力层、层规范化和平行层，如图2(a)所示。然后，将BERT MLM Head [17]附加到预测Mask上，并使用交叉熵损失，如图2(a)所示。

视觉分类 Head （VC）。此外，在视频分支中引入了一个简单的分类 Head ，以增强视频特征中不同类别之间的区分。对于视频特征，作者直接附加了一个线性层进行分类，并使用交叉熵损失进行训练。

值得注意的是，通过包括这个分类 Head ，作者可以直接使用其输出进行监督分类任务。对于零样本实验，作者仍然使用公式（11）。添加这个分类 Head 使模型能够更有效地学习区分不同动作类别之间的视频特征。

总之，通过引入这四个学习任务，作者可以利用更丰富的监督信号，引导模型更好地对齐视觉和文本模态，同时捕捉各种语义信息方面。这种多任务方法不仅缓解了监督学习中的性能差异，而且保留了CLIP出色的泛化能力。

Experiments

Experimental Setup

作者在两个主要的监督数据集上评估M-CLIP：Kinetics-400（K400）和Something-Something-V2（SSv2）。

对于泛化评估，在UCF101和HMDB51上测试作者的模型。作者使用基于ViT-B/16的CLIP作为作者的 Backbone ，并使用稀疏帧采样策略，在训练和推理时使用8、16或32帧。

Fully-Supervised Experiments

作者在表1和表2中分别呈现了在K400和SSV2上的结果，与使用各种迁移方法训练的SOTAs进行了比较，包括全模型微调、单模态和多模态PEFT（从冻住的CLIP中）。

Zero-shot Experiments

Ablation and Analysis

在本节中，除非另有说明，使用ViT-B/16作为 Backbone 并在K400上的所有消融实验中使用8个输入帧。

在表4中，首先构建了一个CLIP冻结 Baseline ，并使用其零样本性能作为作者的 Baseline 。然后，逐步引入基于这个 Baseline 的贡献。当引入可学习的时间建模模块TED-Adapter时，观察到性能显著提升，证明了其有效性。然后，添加了Text-Adapter，它形成了与TED-Adapter结合的多模态 Adapter ，从而进一步提高了性能。

最后，通过添加Multi-task decoder，形成了最终的M-CLIP，并集成了多个学习目标，从而取得了显著的改进。总之，提出的多模态 Adapter 和Multi-task decoder都是高度有效和模块化的组件，可以轻松地集成到CLIP迁移框架中，作为即插即用的模块。

作者接下来在图3(a)中进行了视频TED-Adapter的消融实验。作者使用瓶颈宽度为384的ST-Adapter。首先，作者将TED-Adapter添加到网络的前半部分和后半部分。

作者观察到，尽管添加更多的TED-Adapter通常会导致更好的结果，但是将它们添加到更深层的好处超过了浅层。其次，由于作者的TED-Adapter包括时间增强（TE）和时间差（TD），作者进行了单独的实验，发现TE的改进更加明显，但两者的组合产生了最佳性能。最后，作者发现并行添加组件略优于顺序添加。

作者逐步从深处到浅处添加了一个变量的数量的Text-Adapters。在图3(b)中展示了性能的变化，并给出了在UCF101上的零样本转移性能。可以观察到，随着Text-Adapter数量的增加，模型的性能首先提高，然后开始略微下降，当添加一个Text-Adapter时，性能达到最佳。

零样本结果也呈现相似的变化趋势。作者认为这是因为文本数据只包含标签信息，并且添加过多的Text-Adapter可能会使模型在这些标签上过度拟合，最终影响整体性能和泛化能力。因此，M-CLIP包括一个Text-Adapter，平衡性能和泛化。

在图3(c)中评估了解码器中各个头的贡献。很明显，作者模型中的每个头都对结果产生了积极的影响。通过在原始CLIP的对比学习之上加入CMC，作者在性能上实现了0.7%的额外改进，而且值得注意的是，这个改进是无需调整参数的。

此外，CMLM的引入进一步提升了结果。最后，VC头的加入将性能提升到了83.4%。这一全面的分析证明了多任务解码器在增强多模态框架的整体学习方面的有效性。

Conclusion

在本文中，作者提出了一种新颖的多模态、多任务适应方法，解决了将大规模视觉语言模型CLIP转移到视频动作识别领域这一具有挑战性的任务。作者的核心创新在于将多模态 Adapter 和多任务解码器集成到多模态框架中。多模态 Adapter ，特别是为处理视觉和文本分支而设计，使作者的模型能够有效地利用这些模态中的丰富信息，并有助于更好的特征提取和理解。

另一个关键组件的多任务解码器引入了多种学习目标，通过同时解决各种任务促进性能提升。在各种数据集上的全面实验表明，M-CLIP展示了出色的零样本性能，同时保持具有前景的监督结果，且可调整参数数量很少。

参考

[1].M-CLIP: A Multimodal, Multi-task Adapting Framework.

作者：AI视界引擎
文章来源：AI视界引擎

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

腾讯提出M2CLIP | TED-Adapter增强视觉编码+Text-Adapter增强语义学习