最近的研究表明,
Transformer
具有强大的远程关系建模的能力,但在捕获高频局部信息方面却无能为力。为了解决这个问题,本文提出了Inception Transformer
,简称iFormer
,可以有效地学习视觉数据中包含高频和低频信息的综合特征。具体来说,本文设计了一个
Inception mixer
将卷积
和最大池化
的优势移植到Transformer
中捕获高频信息。与最近的mixer
不同,Inception mixer
通过通道拆分机制带来更高的效率,同时采用并行卷积/最大池化路径和自注意力路径作为high-frequency mixer
和low-frequency mixer
可以灵活地对分散在其中的判别信息进行建模。考虑到
Low-level Layer
在捕捉高频细节方面发挥更多作用,而High-level Layer
在建模低频全局信息方面发挥更多作用,作者进一步引入frequency ramp structure
,即逐渐减小送到high-frequency mixer
的维度,并增加low-frequency mixer
的维度(一句话就是ResNet的层次设计思想),可以有效地权衡不同层的高频和低频分量。在一系列视觉任务上对
iFormer
进行了基准测试,并展示了它在图像分类、COCO检测和 ADE20K 分割方面的出色表现。例如,iFormer-S
在 ImageNet-1K 上达到了 83.4% 的 top-1 准确率,比DeiT-S
高出 3.6%,在只有 1/4 的参数和 1/3 的FLOPs的情况下甚至略好于更大的模型Swin-B
(83.3%)。
1简介
Transformer
席卷了自然语言处理 (NLP) 领域,在许多 NLP 任务(例如机器翻译和问答)中实现了惊人的高性能。这在很大程度上归功于其强大的Self-Attention
机制对数据中的长期依赖关系进行建模的能力。它的成功促使研究人员研究它对计算机视觉领域的适应,而 Vision Transformer
(ViT
) 是先驱。该架构直接继承自 NLP,但应用于以原始图像块作为输入的图像分类。后来,许多 ViT
变体被开发出来,以提高性能或扩展到更广泛的视觉任务,例如目标检测和分割。
ViT
及其变体在视觉数据中具有很强的捕获低频的能力,主要包括场景或对象的全局形状和结构,但对于学习高频的能力不是很强,主要包括局部边缘和纹理。这可以直观地解释:Self-Attention
是 ViTs
中用于在非重叠 patch tokens之间交换信息的主要操作,也是一种全局操作,相对于高频局部信息Self-Attention
更能捕获数据中低频的全局信息。
如图1(a)和1(b)所示,傅里叶频谱和傅里叶的相对对数幅度表明,ViT
倾向于捕捉低频信号,但很少捕捉高频信号。这一观察结果也表明 ViT
呈现了低通滤波器的特性。这种低频偏好会损害 ViT
的性能,因为:
- 在所有层中填充低频信息可能会恶化高频成分,例如局部纹理,并削弱
ViT
的建模能力; - 高频信息也具有区分性,可以使许多任务受益,例如(细粒度)分类。
实际上,人类视觉系统以不同的频率提取视觉基本特征:低频提供有关视觉刺激的全局信息,而高频传达图像中的局部空间变化(例如,局部边缘/纹理)。因此,有必要开发一种新的 ViT
架构来捕获视觉数据中的高频信息和低频信息。
CNN
是一般视觉任务的最基本支柱。与 ViT
不同的是,它们通过感受野内的局部卷积来覆盖更多的局部信息,从而有效地提取高频表示。考虑到它们的互补优势,最近的研究已经整合了 CNN
和 ViT
。一些方法以串行方式堆叠卷积层和注意力层,以将局部信息注入全局上下文。不幸的是,这种串行方式仅在一层中对一种类型的依赖关系进行建模,无论是全局的还是局部的,并且在局部建模期间丢弃了全局信息,反之亦然。其他工作采用并行注意力和卷积来同时学习输入的全局和局部依赖关系。然而,一部分通道用于处理局部信息,另一部分用于全局建模,这意味着如果处理每个分支中的所有通道,当前的并行结构具有信息冗余。
为了解决这个问题本文提出了一种简单高效的 Inception Transformer
(iFormer
),如图 2 所示,它将 CNN
在捕获高频方面的优点移植到 ViT
。iFormer
的关键组件是一个 Inception token mixer
,如图 3 所示。该 Inception mixer
旨在通过捕获数据中的高频和低频来增强 ViT
在频谱中的感知能力。
为此,Inception mixer
首先将输入特征沿通道维度进行拆分,然后将拆分后的分量分别馈入 high-frequency mixer
和 low-frequency mixer
。这里的 high-frequency mixer
由最大池化操作和并行卷积操作组成,而 low-frequency mixer
由 ViTs
中的标准Self-Attention
实现。通过这种方式,iFormer
可以有效地捕获相应通道上的特定频率信息,在图1(a)和1(b)中可以清楚地观察到在较宽的频率范围内iFormer
可以学习到更全面的特征。
此外,作者还发现较低层通常需要更多的局部信息,而较高层需要更多的全局信息。这是因为,就像在人类视觉系统中一样,高频分量中的细节有助于低层捕捉视觉基本特征,并逐渐收集局部信息以对输入进行全局理解。受此启发,作者设计了一个frequency ramp structure
。特别是,从低层到高层逐渐将更多的通道维度提供给low-frequency mixer
,而将更少的通道维度提供给high-frequency mixer
。
实验结果表明,iFormer
在图像分类、目标检测和分割等多个视觉任务上超越了最先进的 ViT
和 CNN
。如图1(c)所示,对于不同的模型大小,iFormer
对 ImageNet-1K 上的流行框架进行了一致的改进,例如 DeiT
、Swin
和 ConvNeXt
。同时,iFormer
在 COCO 检测和 ADE20K 分割方面优于最近的框架。
2本文方法
2.1 回顾ViT
在 MSA
中,基于注意力的Mixer
在所有Patch Token
之间交换信息,因此它强烈关注聚合所有层的全局依赖关系。然而,全局信息的过度传播会加强低频表示。从图1(a)中的傅里叶谱的可视化可以看出,低频信息主导了 ViT
的表示。这实际上会损害 ViT
的性能,因为它可能会恶化高频成分,例如局部纹理,并削弱 ViT
的建模能力。在视觉数据中,高频信息也具有判别力,可以使许多任务受益。因此,为了解决这个问题提出了一个简单高效的 Inception Transformer
,如图 2 所示,具有2个关键的创新,即 Inception mixer
和frequency ramp structure
。
2.2 Inception token mixer
本文提出了一个Inception mixer
将 CNN
提取高频表示的强大能力移植到 Transformer
中。其详细架构如图 3 所示。Inception mixer
不是直接将图像标记输入到 MSA Mixer
中,而是首先沿通道维度分割输入特征,然后将分割后的分量分别输入到高 high-frequency mixer
和 low-frequency mixer
中。这里的high-frequency mixer
由一个最大池化操作和一个并行卷积操作组成,而low-frequency mixer
由一个Self-Attention
实现。
图3
1、High-frequency mixer
2、Low-frequency mixer
2.3 Frequency ramp structure
在一般的视觉框架中,Low-level Layer
在捕获高频细节方面发挥更多作用,而High-level Layer
在建模低频全局信息方面发挥更多作用,即 ResNet
的分层表示。与人类一样,通过捕获高频分量中的细节,较低层可以捕获视觉基本特征,同时也逐渐收集局部信息以实现对输入的全局理解。受到启发,设计了一种Frequency ramp structure
,该结构将更多通道维度分配给low-frequency mixer
,更少的通道维度分配给high-frequency mixer
。
图 2
具体来说,如图 2 所示,Backbone
有4个阶段,具有不同的通道和空间维度。对于每个Block
定义了一个通道比以更好地平衡高频和低频分量,即 Ch/C
和 Cl/C
,其中 Ch/C + Cl/C = 1
。在建议的Frequency ramp structure
中,Ch /
C由浅到深逐渐减小,而Cl/C
逐渐增大。因此,通过灵活的频率斜坡结构,iFormer
可以有效地权衡所有层的高频和低频分量。
2.4 模型架构
在这项工作中,iFormer
的三个变体用于在计算配置下进行公平比较,即 iFormer-S
、iFormer-B
和 iFormer-L
。表 7 显示了它们的详细配置。继 Swin[]
之后,iFormer
采用 4 级架构,具有H/4×W/4
、H/8×W/8
、H/16×W/16
、H/32×W/32
输入尺寸,其中H
和W
是输入图像的宽度和高度。在每个 iFormer Block
中,Ch/C
和 Cl/C
用于平衡高频和低频分量。如表 7 所示,Ch/C
从浅层到深层逐渐减小,而 Cl/C
逐渐增加。iFormer Block
使用深度卷积和最大池化作为high-frequency mixer
。这里将深度卷积和最大池化的kernel-size
设置为 3×3
。
表 7
3实验
3.1 消融实验
1、Inception token mixer
表 5
为了评估Inception mixer
中组件的效果,越来越多地从完整模型中删除每个分支,然后在表 5 中报告结果,其中 √ 和 × 表示是否启用了相应的分支。可以观察到,将注意力与卷积和最大池化相结合可以比仅注意力混合器获得更好的准确度,同时使用更少的计算复杂度,这暗示了 Inception Token Mixer
的有效性。
图4
为了进一步探索这个方案,图 4 可视化了 Inception mixer
中 Attention
、MaxPool
和 DwConv
分支的傅里叶谱。可以看到Attention mixer
在低频上有更高的浓度;使用high-frequency mixer
,即卷积和最大池可以促使模型学习高频信息。
总体而言,这些结果证明了 Inception mixer
在扩展 Transformer
在频谱中的感知能力方面的有效性。
2、Frequency ramp structure
表5
在表5中可以清楚地看到,具有 Cl/C↑、Ch/C↓ 的模型优于其他两个模型,这与之前的研究一致。因此,这表明了Frequency ramp structure
的合理性及其在学习辨别视觉表征方面的潜力。
3、可视化
图 5
在图 5 中可视化了 iFormer-S
和 Swin-T
模型在 ImageNet-1K 上训练的 Grad-CAM
激活图。可以看出,与Swin
相比,iFormer
能够更准确、更完整地定位物体。例如,在蜂鸟图像中,iFormer
会跳过树枝并准确地关注包括尾巴在内的整只鸟。
3.2 图像分类
3.3 目标检测与实例分割
3.4 语义分割
原文:集智书童
作者:ChaucerG
推荐阅读
- 用Res2Net思想和动态kernel-size再设计 ViT,超越MobileViT
- 源于 PvT又高于PvT,解决小目标问题的ViT方法
- 改进Yolov5 | 用 GSConv+Slim Neck 一步步把 Yolov5 提升到极致!!!
更多嵌入式AI相关技术干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。