CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式 - 极术社区

作者丨西湖大学李子青实验室（Stan Z. Li）
整理丨小书童
本文被CVPR官方评选为Highlight，录用率仅为2.57%

1、导读

该方法适配性强，目前已被作者应用到了多个领域，例如蛋白质设计、计算免疫学等应用领域。请持续关注西湖大学李子青（Stan Z. Li）组的AI for Science相关工作。
基于本文的手语识别（Sign Language Recognition, SLR）方法，或可推广应用于手语翻译（Sign Language Translation，SLT）任务。
本文作者还整理和公开了一系列AI手语研究的论文集合，方便感兴趣的读者以全面了解和入门该领域。见文末参考链接。

2、文章概要

手语识别（Sign Language Recognition, SLR）是一项弱监督的多模态学习任务，它将手语视频注释为文本词汇。最近的研究表明，由于缺乏大规模可用的手语数据集而导致的训练不足成为SLR的主要瓶颈。因此，大多数SLR工作采用了预训练的视觉模块，并开发了两种主流解决方案：1）多流架构扩展了多线索的视觉特征，产生了目前的SOTA性能，但需要复杂的设计，并可能引入潜在的噪音；2）先进的单线索SLR框架在视觉和文本模态之间使用显式的跨模态对齐，简单而有效，有潜力与多线索框架竞争。在这项工作中，作者为SLR提出了一种新的对比性的视觉-文本转换（Contrastive Visual-Textual Transformation, CVT），即CVT-SLR，以充分发掘视觉和语言模态的预训练知识。基于单线索跨模态对齐框架，我们为预训练的语境知识提出了一个变分自编码器（variational Autoencoder, VAE），同时引入完整的预训练语言模块。VAE隐含了视觉和文本模式的对齐，同时受益于预训练的语境知识。同时，设计了一个对比性的跨模态对齐算法，以显式地加强一致性约束。在公共数据集（PHOENIX-2014和PHOENIX-2014T）上进行的大量实验表明，作者提出的CVT-SLR不仅优于现有的单线索方法，甚至优于SOTA多线索方法。

3、Introduction

作为一种特殊的视觉自然语言，手语是聋人群体的主要交流媒介。随着深度学习的发展，SLR作为一项多模态学习任务出现，旨在将手语视频注释成文本手语词汇。然而，SLR的一个窘境是缺乏公开可用的手语数据集。例如，最常用的PHOENIX-2014和PHOENIX-2014T数据集只包括大约10K对手语视频和词汇注释，这远远不能像典型的视觉-语言跨模态任务那样训练一个具有完全监督的SLR系统。因此，容易导致训练不足或过度拟合问题的数据限制是SLR任务的主要瓶颈。

弱监督SLR的发展见证了大部分的改进工作都集中在视觉模块（如CNN）上。从人类动作识别的通用领域转移预训练的视觉网络，成为缓解低资源限制的共识。主流的多流SLR框架用多线索视觉信息扩展了预训练的视觉模块，包括全局特征和独立流中的手和脸等区域特征。这种方法的理论支持来自手语语言学，手语利用多种互补的渠道（如手形、面部表情）来传达信息。多线索机制本质上是利用了对关键信息的硬性关注，产生了目前的SOTA性能。然而，多线索框架很复杂（例如，裁剪多个区域，需要更多的参数），而且多个数据流的融合可能会引入额外的潜在噪声。

另一个主流的先进解决方案是单线索跨模态对齐框架，它包括一个预训练的视觉模块，然后是一个上下文模块（如RNN，LSTM，Transformer）和一个基于连接主义时间分类（CTC）的对齐模块，用于生成手语词汇，如图2（a）所示。显示的跨模态对齐约束进一步改善了特征的相互作用，这可以被视为两种不同模态之间的一种一致性，促进视觉模块从上下文模块学习长期时间信息。跨模态对齐框架简单而有效，有潜力与多线索框架竞争。尽管带有预训练视觉模块的复杂多线索架构性能更先进，但跨模态一致性是一个更优雅的设计，适合实际使用。它还意味着先前的上下文语言知识的潜力，这一点被现有的SLR工作所忽视。

在这项工作中，作者提出了一个新颖的SLR的对比性视觉-文本转换框架，称为CVT-SLR，以充分发掘视觉和语言模态的预训练知识，如图2（b）所示。基于单线索跨模态对齐框架，CVT-SLR保留了预训练的视觉模块，但用一个VAE取代了传统的上下文模块。由于使用了完整的编码器-解码器架构，VAE负责学习基于伪翻译任务的预训练语境知识，同时引入完整的预训练语言模块。此外，由于自编码器的形式，VAE保持了输入和输出模式的一致性，起到了隐性的跨模态对齐作用。此外，受对比学习的启发，还引入了一种对比对齐算法，该算法专注于正反两方面的样本，以加强显式的跨模态一致性约束。

在公共数据集PHOENIX-2014和PHOENIX-2014T上进行的广泛的定量实验证明了所提出的CVT-SLR框架的先进性。通过消减研究和定性分析，进一步验证了引入预训练的语言知识和新的一致性约束机制的有效性。

本文的主要贡献如下：

提出了一个新颖的基于视觉-文本转换的SLR框架，它首次引入了完全预训练的语言知识，并为其他跨模态任务提供了新的思路。
围绕跨模态一致性约束提出了新的对齐方法：a）利用自编码器的特殊属性，隐含地对齐视觉和文本模态；b）引入显式的对比性跨模态对齐方法。
提出的单线索CVT-SLR框架不仅大幅度超过了现有的单线索基线，甚至超过了SOTA的多线索基线。

4、Methods

本文提出为CVT-SLR的新颖架构，用于解决手语识别（SLR）任务，并充分利用视觉和语言模态的预训练知识。CVT-SLR框架的训练管线可以分为两个主要步骤，如图3所示。

第一步是通过变分自编码器（Variational Autoencoder，VAE）网络对文本模态进行预训练。VAE采用了完整的编码器-解码器架构，并通过无监督的方式构建了预训练的语境知识。由于自编码器的特殊形式，VAE能够保持输入和输出模态之间的一致性，从而实现隐性的跨模态对齐。这样的预训练过程引入了完整的预训练语言知识，并为后续任务提供了有用的先验信息。

第二步是将现有的视觉模块（通常是在Kinetics/ImageNet上训练而来的公开可用的CNN）和来自第一步预训练的文本模块转移到CVT-SLR框架中。为了实现这种迁移，作者引入了一个称为Video-Gloss Adapter的桥接模块，它本质上是一个多层感知机（MLP）层，用于将两个不同模态的预训练模块连接起来。此外，受先前跨模态学习和对比学习的启发，作者设计了一种内部跨层的跨模态对比对齐算法，其专注于正、负样本的构造，以显式地加强两个模态编码器的一致性约束，如图3中的Contrastive Alignment Loss所示。

5、主实验

WER和DEL/INS指标越低越好。每组的最佳结果和SOTA基线分别被标记为粗体和下划线。

图4展示了CVT-SLR和基线模型的在流行的SLR数据集PHOENIX-2014上进行主要实验比较。实验结果表明，CVT-SLR不仅优于现有的其他单线索（输入仅手语视频）基线方法，甚至优于多线索（输入包括视频和其他辅助信息）的最先进方法。这一结果验证了在多模态框架中有效引入先验的源端和目标端模态知识能够改善跨模态任务的性能。

6、实例和可视化分析

此外，作者还展示了四个可视化分析例子，如图5所示，每个例子都显示了对齐矩阵、一系列的显著图，以及图中生成的词汇。对齐矩阵显示了视觉和文本特征之间的对齐关系，而显著图显示了专注于手势的最高激活区域。

7、拓展延伸：AI手语研究

AI手语识别或翻译研究是视觉语言（CV）和文本语言（NLP）结合最“无违和感”的跨模态学习案例之一，具有十分重要的科研意义和实际应用的社会价值。目前缺少大规模供研究所需的数据集，更是缺少实用级别的数据，因此，AI手语任重道远。另外，手语跟口语一样，是有区域性方言的，不同国家的手语是不一样的，且同一个国家不同地区的手语也不同。目前对中国手语的研究也是甚少。

如果你是AI手语领域感兴趣或者初学者，推荐阅读作者整理的论文集，对于入门或深入理解AI手语领域很有帮助：https://github.com/binbinjiang/SL\_Papers.