多视角 Transformer，在图像分类、目标检测以及实例和语义分割实现 Top-1 精度！

目前正积极研究如何提升视觉 Transformer (ViTs)的效率。大多数研究都集中在有效 Token 混合器的研究上，忽略了归一化可能带来的潜在关系。
为了促进多样化的特征学习，作者提出两个组件：一个称为多视图归一化(MVN)的归一化模块和一个称为多视图 Token 混合器(MVTM)的 Token 混合器。
MVN 通过使用可学习加权和结合批量、层和实例归一化的三种不同归一化特征来整合这些信息。每种归一化方法输出不同的分布，生成不同的特征。
因此，MVN 有望向 Token 混合器提供多样化的模式信息，从而产生有益的协同效应。
MVTM 是一种基于卷积的多尺度 Token 混合器，具有局部、中间和全局滤波器，并且通过在每个阶段配置 Token 混合器的不同感受野来实现阶段特异性，有效地捕捉视觉模式的不同范围。
作者提出了一种新颖的 ViT 模型——多视角 Transformer (MVFormer)，在 MetaFormer 块中采用 MVN 和 MVTM，这是一种通用的 ViT 方案。
作者的 MVFormer 在图像分类、目标检测以及实例和语义分割方面表现出色，性能优于同参数或更低参数量的状态最先进基于卷积的 ViTs。
特别地，MVFormer 的变体 MVFormer-T、MVFormer-S 和 MVFormer-B 分别在 ImageNet-1K 基准测试中实现了 83.4%、84.3%和 84.6%的 Top-1 精度。

1. Introduction

视觉 Transformer（ViTs）在计算机视觉领域取得了巨大成功[9]。随着传统 Transformer 中的自我注意机制[46]受到广泛关注，许多研究提出了各种有效且高效的空域混合方法，统称为 Token 混动器，以改进或替代自我注意。一些研究提出了注意力变种方法，例如 Swin[26]，以增强传统自我注意的效率；而另一些研究则提出了具有竞争力的非注意力 Token 混动器。在目前可用的选择中，卷积运算符最近被应用于 Transformer 块中。例如，ConvNeXt[27]模型是一个里程碑式的工作，它通过引入一种 Transformer 变体方案，将卷积与 ViT 相结合，以现代化卷积神经网络（CNN）。最近的研究表明，在 ViT 中适当引入归纳偏置是有益的，这已成为一个不断发展的研究主题。

MetaFormer [58, 59] 是一个从 Transformer 抽象而来的架构方案，其中未指定 Token 混合器。虽然 Token 混合器一直是确保特征多样性的主要焦点，但近期 ViTs 中的其他组件大多基于 MetaFormer [48]。在这些建筑组件中，作者重点关注归一化部分。 BatchNorm (BN) [18]、层归一化 (LN) [1] 和实例归一化 (IN) [45] 由于其不同的归一化维度会生成不同的分布和特征。受此启发，作者进行了简单的可视化研究，以观察不同归一化处理的图像集成时所发生的变化，如图 1 所示。每种方法都会在输入图像中突出特定的模式。所有这些模式在三个归一化图像的平均合成图像中也都可见。通过这一观察，作者确认了集成多种归一化处理可以向 Token 混合器传达具有不同分布的多样化特征集。

在本研究中，作者介绍了一种 Normalization 模块——多视角归一化（MVN），以促进特征学习的多样化。MVN 通过 BN、LN 和 IN 三种不同归一化的特征进行组合，使用可学习的加权和。这种方式使 MVN 能够灵活地反映多样化的具体特性，如批量级、通道级和样本级依赖性，向 Token 混音器提供多种特征分布，并使其能够适当地利用这些特征。实验结果证实，这种简单的机制能够在几乎不增加参数和计算成本的情况下显著提升性能。此外，MVN 可以很容易地应用于现有的 ViT 和 CNN 架构，例如 Swin [26]和 ConvNeXt [27]，并持续提升其原始性能。更重要的是，实验结果强烈支持这样一种见解：每种归一化的独特属性在其性能中发挥着重要的作用，它们的适当组合能够产生有益的协同效应。

此外，为了进一步扩大 Token 混合法的混合范围，作者提出了一种卷积 Token 混合法，称为多视图 Token 混合法（MVTM）。类似于最新的基于卷积的 ViTs [11, 60]，MVTM 是一个多尺度深度卷积操作符，它通过不同的感受野在通道上使用多个混合滤波器。与现有的局部和全局混合滤波器二分法不同，MVTM 包含局部、中间和全局混合滤波器以增强其混合能力。此外，MVTM 引入了阶段特异性，根据不同阶段所需的感受野范围差异性地调整每个层次混合滤波器和全局混合滤波器的体积，从而实现高效的整体多尺度 Token 混合。

作者提出了一种基于卷积的新型 ViT，即多视角 Transformer（MVFormer），通过在 MetaFormer 块中采用 MVN 和 MVTM。MVFormer 解决了现有 Token Mixer 在从多个视角捕获多样化模式方面的不足，并进一步扩展到规范化方面。

作者提出了 MVN，它整合了各种归一化特征以多样化特征学习，为 Token 混合器提供了多种特征分布。这是首次在 ViTs 中研究归一化整合范式。MVN 显著提升了性能，且参数和计算成本几乎没有增加。

作者引入了 MVTM 多尺度卷积 Token 混合器，以便更好地捕获多样化的空间模式。MVTM 还体现了阶段特异性，在每个阶段根据其偏好的混合比例设置 Token 混合器的感受野，有效利用了特征金字塔结构。

通过在 MetaFormer 模块中采用 MVN 和 MVTM，作者展示了 MVFormer，该模型在图像分类、目标检测以及实例和语义分割任务上超越了基于卷积的传统 ViTs，甚至在相同或更少的参数和 MACs 的情况下。

2. Related Work

2.1. Normalization for Computer Vision Tasks

归一化方法已被研究作为深度神经网络的关键组件，以提高训练速度和稳定性。通常，BN [18] 在视觉相关的 CNN 中发挥着重要作用。然而，其基于小批量的数据依赖性在小批量尺寸下已证明会导致几种视觉任务上的性能下降，例如语义分割 [1]。

为了改进这一点，已经提出了几种 BN 变体，如批次重规范化 [17]、EvalNorm [39]、MABN [53] 和 PowerNorm [37]。LN [1] 首次在自然语言处理（NLP）中出现，以解决循环神经网络中的累积输入问题。与 BN 相比，LN 会在所有数据点上等价地计算通道统计值。当 LN 被引入最初的 Transformer 时，它已经被近期的 Vision Transformers (ViTs) [9, 26, 43] 所采用。

分组归一化（GN）是一种推广的 LN，用于计算分组通道的统计值。之前的研究提出了一种修改后的 LN（MLN），将其与单一分组等同起来，以改善 PoolFormer [58] 的性能。此外，已有研究通过将 BN 参数插入线性层来探讨 BN 在 ViTs 中的应用 [56]。

实例归一化（IN） [45] 广泛应用于样式迁移，例如 AdaIN [16]，这代表了一种 IN 变体，用于移植输入特征的样式信息。此外，还提出了空间调制归一化技术，如 SPADE [30] 和 MoTo [33]，以防止信息丢失，并且全局响应归一化（GRN） [52] 旨在增强跨通道特征多样性。与此类研究不同，作者提出了结合现有归一化方法的一种初步范式应用于 ViTs。

2.2.Vision Transformerwith TokenMixer

Transformer 在自然语言处理中的成功应用促使其在计算机视觉领域得到使用。先前的研究报道了 Vision Transformer (ViT) [9] 和 DeiT [43] 在图像分类任务上的出色表现，并将滑窗 Transformer (Swin Transformer) [26] 的应用扩展到目标检测和语义分割。然而，由于自注意力机制计算成本高，一些研究试图用其他类型的 token 混合器替代之。因此，类似于多层感知机 (MLP) 的 token 混合器 [23, 41, 42, 51, 57] 已经成为主流方法之一，这些混合器采用 MLP 运算来混合空间 token。

作为另一种主流方法，深度可分离卷积已作为 token 混合器进行研究。ConvNeXt [27] 模型应用了现代化的卷积神经网络 (CNN) 原理，完全用深度可分离卷积替代了 Transformer 中的传统自注意力机制。此外，FocalNet [55] 和 VAN [12] 等其他研究模型也采用了基于卷积的注意力机制，使模型能够捕捉输入相关 token 间的交互。

ConvFormer [59] 是当前最先进的基于卷积的 ViT 模型，它引入了 MobileNetV2 [35] 中的倒置可分离卷积作为 token 混合器。最近，引入了多尺度卷积 token 混合器 [11, 60]，它们通过并行使用多个混合路径有效反映了局部和全局信息。本研究采用了先进的多尺度深度可分离卷积，其中包括中间混合滤波器以及阶段特异性概念。

3. Method

3.1.Preliminaries

3.1.1 MetaFormer

MetaFormer [58, 59] 是现代 ViT 的一种抽象的一般架构，每块模块的输出计算如下：

TokenMixer 没有指定，对应于某些空间混合模块，例如 Self-Attention 或卷积；而 MLP 表示具有激活函数的两层前向网络。本研究遵循 MetaFormer 的整体框架，以 ConvFormer [59]作为 Baseline 。

3.1.2 Normalization

BN [18], LN [1] 和 IN [45] 常常被用于视觉架构中。BN 和 LN 都是为了加速模型训练而提出的，而 IN 则被引入到了图像风格化方法中。尽管这些方法都对特征分布进行了归一化，但它们的归一化维度有所不同。每种方法的输出计算如下：

3.2. Multi-Vision Transformer

本节详细介绍了 MVFormer。MVFormer 的整体架构如图 2(a)所示。

3.2.1 Multi-ViewNormalization

常见的归一化技术，如 BN、LN 和 IN，都能归一化输入特征；因此，在网络中它们被视为可替代的选择。然而，这些技术通过改变输出分布的关键因素——归一化的维度而有所不同。作者期望这种分布变化会影响整体的特征学习，以提取视觉模式。从特征多样性角度来看，模型可以探索一个扩展的流形空间，其中提供了所有不同分布。

因此，作者提出了一种新的归一化整合范式，通过在各种特征分布下训练 ViT 来提升性能。作者设计了一个归一化模块 MVN，该模块使用通过 BN、LN 和 IN 获得的三个归一化特征的可学习加权和。通过这一机制，MVN 可以使模型同时捕捉到每个归一化特征的独特特性，从而使它能够传递更加多样化的特征给 Token 混合器。

3.2.2 Multi-View Token Mixer

近期基于卷积的 ViT 研究取得了显著的性能提升。这些研究采用了多尺度深度卷积[11, 60]，通过在通道维度上分散核大小来增加不同的空间诱导偏置。实践中，这些研究主要从区分局部和全局混合的二分视角出发。与基于输入值动态调整权重的注意力机制不同，卷积作为一种静态方法，在数据无关的方式下滑动滤波器。

因此，必须多样化感受野以提取广泛的视觉模式。基于此观点，作者提出了一种三尺度卷积 Token 混合法 MVTM，该方法包含局部、全局以及新增的中间混合滤波器，用于捕获局部和全局感受野之间范围的视觉模式。作者期望这种方法能够缓解局部和全局混合特征之间的异质性，并详细讨论了卷积 Token 混合法在视觉目标尺度上的鲁棒性。

计算公式如下：

这种机制赋予了 MVTM 捕获多种视觉表示范围的能力。

此外，MVTM 引入了阶段特异性这一概念。近期的 ViT 主要遵循特征金字塔结构，在每一阶段之初系统性地减小特征形状 [10, 26, 27, 59]。根据对 ViT 架构的先前研究 [29, 58]，分析和实验观察表明，在初始阶段通过局部约束机制作用于 Token 混合器是有效的。相反，在后期阶段则需要进行广泛的混合以促进全局 Token 交互。这一特性并未被基于卷积的 ViT 所采用，因为它们在所有 Token 混合层中应用了固定 Kernel 设计。

本文首次采用此范式，使基于卷积的 ViT 能够高效地捕获各种视觉模式。为了实现这一目标，作者调节了 MVTM 的两种配置：

3.2.3 MVFormer Block

将 MVN 和 MVTM 引入 MetaFormer 块中，作者提出了 MVFormer 块，如图 2（c）所示。在 MVFormer 块中，MVN 首先提取各种特征分布。在此基础上，MVTM 探索多样化的特征空间进行 Token 混排。此外，通过在 MLP 子块中等量插入 MVN，作者期望它们之间会产生特别有益的相互作用，类似于 Token 混排子块中的相互作用。作者将公式 1 和公式 2 重新表述如下：

其中，MLP 模块与式 2 相同。对于 MVTM 和 MLP 中的激活函数，采用 StarReLU [59]。

3.2.4 Overall Architecture

鉴于三种归一化特征和多尺度混合特征在不同阶段的独特特性，作者提出了一种有效的基于卷积的 ViT——MVFormer。MVFormer 的整体架构与引入 MVN 和 MVTM 的 MetaFormer 块相同。根据参数量和计算复杂度，MVFormer 被分为 MVFormer-xT、MVFormer-T、MVFormer-S 和 MVFormer-B，其中 MVFormer-xT 为主要实现模型。每个 MVFormer 模型的具体配置详见附录 A。

4. Experiments

4.1.Image Classification

作者在 ImageNet-1K 基准测试 [8] 上进行了图像分类实验，该基准包括 128 万张训练图像和来自 1000 个类别的 5 万个验证图像。为了增强和规整用于训练的输入图像，作者采用了权重衰减、RandAugment [6]、随机擦除 [63]、Mixup [62]、CutMix [61]、标签平滑 [40]、随机深度 [15] 以及 DeiT [43] 的训练策略。作者从头开始训练所有模型共计 300 个 epoch，输入分辨率为 224 × 224。作者使用 AdamW [20, 28] 优化器，并采用余弦退火学习率计划，其中包括 20 个预热周期。ResScale [38] 被应用在最后两个阶段。批量大小、学习率和权重衰减分别设置为 4096、4e-3 和 0.05。

表 e2p 展示了 MVFormer 在 ImageNet1K 分类任务中与当前 SOTA 模型的性能对比。作者将 MVFormer 与基于注意力机制的[26, 43, 49, 54]和基于卷积的[12, 27, 55, 59, 60]SOTA 模型进行了比较，并按参数量和 MACs 的数量分组表示模型大小。在整个过程中，MVFormer 的各种变体始终优于其他候选模型。特别是，MVFormer-T、S 和 B 分别在性能提升方面以相同或更少的参数和 MACs 超过了当前的卷积基 SOTA 模型 ConvFormer-S18、S36 和 M36，提升了 0.4 个百分点、0.2 个百分点和 0.1 个百分点。在高分辨率图像上，三种模型变体的性能均有所提升。

4.2. Object Detection and Instance Segmentation

作者在 COCO 2017 基准数据集[24]上评估了 MVFormer 在目标检测和实例分割任务上的性能，该数据集包含 118K 的训练图像和 5K 的验证图像。作者使用带有 Mask RCNN[14]和 RetinaNet[25]预训练权重的 ImageNet-1K 初始化 MVFormer 作为 Backbone 网络。作者在单尺度输入下训练模型，RetinaNet 的学习率为 1e-4，Mask R-CNN 的学习率为 2e-4，其中 RetinaNet 的学习率在第 8 轮和第 11 轮衰减一次（每轮训练 14 个 epoch），Mask R-CNN 的学习率在第 27 轮和第 33 轮衰减一次。图像短边调整至 800 像素，长边限制在 1333 像素以内，以防止过拟合。MVFormer-T 和 MVFormer-S 分别设置了随机深度为 0.3 和 0.4。模型实现基于 mmdetection[2]。

4.3. Semantic Segmentation

在表 4 中，作者将 MVFormer 与当前最佳模型进行了语义分割任务的对比。无论是 MVFormer-T 还是 MVFormer-S，在参数量和运算量相当的情况下，性能显著优于其他模型。与最新的基于卷积的 ViT——VAN-B2 和 B3 相比，MVFormer-T 和 MVFormer-S 分别获得了 0.4%μ 和 0.7%p 的性能提升，并且具有更好的效率。

4.4.Ablation Studies

作者进行了消融研究以验证 MVN 和 MVTM 的有效性。所有实验均在使用 MVFormer-xT 模型的 ImageNet-1K 分类任务上进行。

4.4.1 Ablation Study on Individual Modules

作者在表 5 中进行了消融实验，评估了每种提出的模块在基于卷积的 ViT Baseline 上的效果，该 Baseline 用于 ImageNet-1K 分类。为了进行公平比较，作者设计了一个基于 MetaFormer 的 Baseline ，其 Token 混合器等于 5 × 5 深度可分离卷积，因为这两种方法所需的参数和 MACs 数量相近。关于归一化处理，除非另有说明，默认使用 LN。当单独使用 MVN 和 MVTM 时，分别实现了显著性能提升 0.53 个百分点和 0.17 美元，且额外参数和 MACs 数量极少。对比之下，MVN 比 MVTM 提高性能更多，为 0.38 个百分点。此外，结合使用 MVN 和 MVTM 的 MVFormerxT 达到了最高的性能，为 81.30%。这些发现支持这些提出模块的联合使用，并表明每个模块在提高模型性能方面各自具有的优势。

4.4.2 Various Combinations of ThreeNormaliza

表 6 展示了 MVN 中所有三种归一化方法组合的消融研究。仅仅结合两个归一化特征的一致性增强性能，相比于单一方法要好。特别是，当 IN 单独使用时，其显著降低了性能。然而，当 IN 与其他方法结合使用时，表现出有益的协同作用。作者推测，IN 通过减轻 BN 中的批次依赖性和 LN 中的空间分布变化，从而促进了性能提升。MVN 结合 BN、LN 和 IN，显著优于其他所有组合，这强有力地支持了这样一个假设：全面涵盖归一化方法的各种特性能够提高性能，并有助于扩展特征多样性。

4.4.3 MVN on Existing ViT and CNN Models

为了评估 MVN 的泛化能力，作者将 MVN 应用于现有的 ViT 和 CNN 变体。对于 ViT 候选模型，作者选择了 Swin [26]、ConvFormer [59]、ConvNeXt [27] 和 PoolFormer [58]，分别基于注意力机制、卷积操作和池化操作；而对于 CNN，作者选择了 ResNet [13] 作为代表。在 ViT 中，作者在每个块内用 MVN 替换 LN，在 ResNet 中，则将所有 BN 层替换为 MVN。根据表 7 所示，MVN 显示出了显著的泛化能力，大幅提高了五个基模的原始性能。对于 ViT 模型，在 PoolFormer-S36、Swin-T、ConvFormer-S18 和 ConvNeXt-T 等模型上，模型实现了 0.2%的一致性 Top-1 精度提升。而对于 CNN，即使是在 ResNet50 上，MVN 也实现了 0.2%的精度提升。这些结果表明，MVN 不仅适用于 CNN-ViT 混合架构，还具有在各种标准视觉模型中应用的广阔前景。

4.4.4 Ablation Experiment on MVTM

在较小尺寸的滤波器被消除时，这种情况要明显得多。作者推理这是由于重复的小滤波器能够覆盖广泛的视觉模式，而大滤波器则难以聚焦于局部区域。

4.4.5 Learned Weights of MVN

图 3 展示了 MVN 中的权重分布，以识别某些依赖于阶段数量的偏好。有趣的是，观察到三种归一化方法之间的比例存在总体趋势。在所有阶段中，除了第二阶段的最后一部分之外，LN 的权重始终具有最高的比例。

这表明模型主要反映了每个像素的输入通道分布，而不是每个通道的空间分布。在第二阶段的最终块中，BN 和 IN 的比例暂时高于 LN，可能是因为模型在快速改变通道维度时优先考虑了空间分布而非通道分布。此外，除了最后一阶段，IN 的一般比例低于 BN，显示出对批次独立的样本级空间信息的偏好。这种观察在 MVFormer-T 和-MVFormer-B 模型中是一致的。

END

作者：小书童
来源：集智书童

推荐阅读

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区嵌入式 AI 专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

多视角 Transformer，在图像分类、目标检测以及实例和语义分割实现 Top-1 精度 ！