超越SWin、CSWin，MAFormer再探ViT Backbone新高度

Vision Transformer 及其变体在各种计算机视觉任务中展示了巨大的潜力。但传统的Vision Transformer通常侧重于coarse level的全局依赖，这在全局关系和Token级别的细粒度表示方面存在学习挑战。在本文中，将 Multi-scale Attention Fusion 引入到 Transformer (MAFormer) 中，它探索了用于视觉识别的双流框架中的局部聚合和全局特征提取。作者开发了一个简单但有效的模块，通过在Token级别学习细粒度和粗粒度特征并动态融合它们来探索Transformer在视觉表示方面的全部潜力。多尺度注意力融合 (MAF) 块包括：
局部窗口注意力分支，学习窗口内的短程交互，聚合细粒度的局部特征；
通过一种新颖的全局下采样学习（GLD）操作提取全局特征，以有效地捕获整个图像中的远程上下文信息；
一个融合模块，通过注意力探索两个特征的整合。
MAFormer 在常见的视觉任务上实现了最先进的性能。特别是，MAFormer-L 在 ImageNet 上的 Top-1 准确率达到 85.9%，分别超过 CSWin-B 和 LV-ViT-L 1.7% 和 0.6%。在 MSCOCO 上，MAFormer 在目标检测方面的 mAPs 比现有技术 CSWin 高 1.7%，在具有相似大小参数的实例分割方面比现有技术 CSWin 高 1.4%，证明了MAFormer成为通用骨干网络的潜力。

本文方法

1、概览

本文提出了多尺度注意力融合机制，以在Token级别提取细粒度和粗粒度特征并动态融合它们，形成通用vision transformer主干，称为MAFormer，提高各种视觉任务的性能。

图 1(a) 显示了 MAFormer 的整体架构。它以图像作为输入，其中 W 和 H 表示输入图像的宽度和高度，并采用分层设计。通过降低特征图的分辨率，网络可以捕获不同阶段的多尺度特征。

将输入图像划分为Patch并执行Patch Merge，接收具有 C 个特征通道的 H/4 × W/4 visual tokens。tokens流经 MAF 块的两个阶段和原始 Vision Transformer 块的两个阶段。在每个阶段，MAFormer 按照惯例采用了一个Patch Merge层，它将特征图的空间大小下采样 2 倍，同时增加了特征通道维度。

根据最近对特征表示的研究，像 ViT 这样的vision transformer在其较低层中局部和全局参与，但主要关注较高层中的全局信息。根据该模式，在 MAFormer 的前两个阶段合并了多尺度特征表示，而在后两个阶段，使用了原始的vision transformer Block，其中降低了特征的分辨率和完整的计算成本注意力变得负担得起。