Mobile-Former | MobileNet+Transformer轻量化模型 - 极术社区

微软提出Mobile-Former，MobileNet和Transformer的并行设计，可以实现局部和全局特征的双向融合，在分类和下游任务中，性能远超MobileNetV3等轻量级网络！
作者单位：微软, 中科大

1 背景

最近，Vision Transformer(ViT)展示了全局处理的优势，与cnn相比实现了显著的性能提升。然而，当将计算预算限制在1G FLOPs内时，增益维特减少。如果进一步挑战计算成本，基于depthwise和pointwise卷积的MobileNet和它的扩展仍然占据着一席之地(例如，少于300M的FLOPs图像分类),这又自然而然地提出了一个问题:

如何设计有效的网络来有效地编码局部处理和全局交互?

一个简单的想法是将卷积和Vision Transformer结合起来。最近的研究表明，将卷积和Vision Transformer串联在一起，无论是在开始时使用卷积，还是将卷积插入到每个Transformer块中都是有益的。

图1

在本文中，作者将设计范式从串联向并联转变，提出了一种新的MobileNet和Transformer并行化，并在两者之间建立双向桥接(见图)。将其命名为Mobile-Former，其中Mobile指MobileNet, Former指transformer。Mobile以图像为输入堆叠mobile block(或inverted bottleneck)。它利用高效的depthwise和pointwise卷积来提取像素级的局部特征。前者以一些可学习的token作为输入，叠加multi-head attention和前馈网络(FFN)。这些token用于对图像的全局特征进行编码。

Mobile-Former是MobileNet和Transformer的并行设计，中间有一个双向桥接。这种结构利用了MobileNet在局部处理和Transformer在全局交互方面的优势。并且该桥接可以实现局部和全局特征的双向融合。与最近在视觉Transformer上的工作不同，Mobile-Former中的Transformer包含非常少的随机初始化的token（例如少于6个token），从而导致计算成本低。

结合提出的轻量级交叉注意力对桥接进行建模，Mobile-Former不仅计算效率高，而且具有更强的表示能力，在ImageNet分类上从25M到500MFLOPs的低 FLOPs机制下优于MobileNetV3。例如，它在294M FLOPs下实现了77.9%的top-1准确率，比MobileNetV3提高了1.3%，但节省了17%的计算量。在转移到目标检测时，Mobile-Former 比MobileNetV3高8.6 AP。

2 相关工作

2.1 轻量化CNN模型

mobilenet提出了一种在inverted bottleneck结构中使用depthwise和pointwise卷积对局部处理建模的有效方法。使用group卷积和channel shuffle来简化pointwise卷积的shuffle。此外，MicroNet提出了micro-factorized 卷积，优化了inverted bottleneck和group卷积的组合，在极低的FLOPs下实现了可靠的性能。其他有效的操作包括傅里叶变换、GhostNet中的线性变换，以及在AdderNet中使用廉价的加法替代大规模乘法。此外，还研究了不同的体系结构。MixConv探索了混合多个核大小，Sandglass inverted residual block的结构。EfficientNet和TinyNet研究深度、宽度和分辨率的复合缩放。

2.2 Vision Transformers

最近，ViT及其后续在多个视觉任务上取得了令人印象深刻的表现。原始的ViT需要在大型数据集(如JFT-300M)上进行训练才能表现良好。后来，DeiT通过引入几个重要的训练策略，证明了在较小的ImageNet-1K数据集上可以获得良好的性能。为实现高分辨率图像的ViT，提出了几种分层Transformer。

例如，Swin提出了在局部窗口内计算自注意力的移位窗口方法，CSWin通过引入十字形窗口自注意力进一步改进了该方法。T2T-ViT通过递归聚合相邻的token逐步将图像转换为token从而可以很好地建模局部结构。HaloNet开发了两种注意力扩展(blocked local attention和attention downsampling)从而提高了速度、内存使用以及准确性。

2.3 CNNs与ViT结合

近研究结果表明，卷积与Transformer相结合在预测精度和训练稳定性上都有提高。

通过在ResNet的最后3个bottleneck block中使用全局自注意力替换空间卷积，BoTNet在实例分割和目标检测方面有了显著的改进。

通过引入门控位置自注意力(GPSA)，ConViT通过soft卷积归纳偏差改进了ViT。

CvT在每个multi-head attention之前引入了depthwise/pointwise卷积。

LeViT和ViTC使用convolutional stem (stacking convolutions)代替patchify stem。LeViT和ViTC在低FLOP状态下有明显改善。在本文中作者提出了一个不同的设计，并行MobileNet和Transformer之间的双向交叉注意力。本文的方法既高效又有效，在低FLOP状态下优于高效CNN和ViT变种。

3 Mobile-Former

Mobile-Former将MobileNet和transformer并行化，并通过双向交叉注意力将两者连接起来(见图1)。Mobile-former中，Mobile(简称MobileNet)以一幅图像作为输入，采用inverted bottleneck block提取局部特征。前者(指transformer)以可学习参数(或token)作为输入，记为，其中d和M分别为token的维数和数量。这些token被随机初始化，每个token表示图像的全局先验。这与Vision Transformer(ViT)不同，在ViT中，token线性地投射局部图像patch。这种差异非常重要，因为它显著减少了token的数量从而产生了高效的Former。

3.1 Low Cost Two-Way Bridge

作者利用cross attention的优势融合局部特性(来自Mobile)和全局token(来自Former)。这里为了降低计算成本介绍了2个标准cross attention计算:

3.2 Mobile-Former Block

Mobile-Former可以解耦为Mobile-Former块的堆栈(见图1)。每个块包括Mobile sub-block、Former sub-block和双向桥接(MobileFormer和MobileFormer)。Mobile-Former块的细节如图3所示。

图3

1 输入和输出

Mobile-Former块有2个输入:

2 Mobile sub-block

3 Former sub-block

4 MobileFormer

5 MobileFormer

6 计算复杂度

Mobile-Former块的4个支柱有不同的计算成本。Mobile sub-block消耗的计算量最多(O(2LEC^2 + 9LEC))，它与空间位置数L呈线性增长，与局部特征c中通道数呈二次增长。Former sub-block和双向Bridge具有较高的计算效率，消耗小于所有Mobile-Former模型总计算量的20%。

3.3 网络配置说明

1 架构

2 Downsample Mobile-Former Block

3 Mobile-Former变体

Mobile-Former有7个不同计算成本的模型，从26M到508M FLOPs。它们的结构相似，但宽度和高度不同。作者遵循[36]来引用我们的模型的FLOPs，例如Mobile-Former-294M, Mobile-Former-96M。这些Mobile-Former模型的网络架构细节如下表。