即插即用 | 高效多尺度注意力模型成为YOLOv5改进的小帮手 - 极术社区

通道或空间注意力机制在产生更可辨别的特征表示方面的显著有效性在各种计算机视觉任务中得到了说明。然而，使用通道降维对跨通道关系进行建模可能会在提取深度视觉表示时带来副作用。
本文提出了一种新的高效多尺度注意力（EMA）模块。着眼于保留每个通道的信息并减少计算开销，作者将部分通道Reshape为Batch维度，并将通道维度分组为多个子特征，使空间语义特征在每个特征组中分布良好。
具体地，除了对全局信息进行编码以重新校准每个并行分支中的通道加权之外，还通过跨维度交互来进一步聚合两个并行分支的输出特征，以捕获像素级的成对关系。
作者使用流行的基准（例如，CIFAR-100、ImageNet-1k、MS COCO和VisDrone2019）对图像分类和目标检测任务进行了广泛的消融研究和实验，以评估其性能。

1、简介

随着深度卷积神经网络（CNNs）的发展，更引人注目的网络拓扑结构被应用于图像分类和目标检测任务领域。当将神经网络扩展到多个卷积层时，它表现出增强学习特征表示的显著能力。然而，它导致堆叠更多的深度卷积对应方法，并且需要消耗大量的内存和计算资源，这是构建深度CNN的主要缺点。作为一种替代方式，注意力机制方法由于其灵活的结构特征，不仅加强了对更具鉴别性的特征表示的学习，而且可以很容易地插入到神经网络的主干架构中。因此，注意力机制引起了计算机视觉研究界的极大兴趣。

人们普遍认为，人们提出的注意力机制主要有3种，如通道注意力、空间注意力和两者。作为代表性的通道注意力，SE明确地对跨维度交互进行了建模，以提取通道注意力。卷积块注意力模块（CBAM）在特征图中建立了具有空间维度和通道维度之间语义相互依赖性的跨通道和跨空间信息。因此，CBAM在将跨维度注意力权重集成到输入特征中方面显示出巨大的潜力。

然而，池化操作的手动设计涉及复杂的处理，这会带来一些计算开销。为了克服计算成本限制的缺点，提供了一种长期有效的方法，即使用特征分组方法将不同资源上的特征划分为多组。显然，它可以使每一组特征在空间上分布良好。根据该设置，空间分组增强（SGE）注意力将通道维度分组为多个子特征，并改进了不同语义子特征表示的空间分布，取得了卓越的性能。

管理模型复杂性的最有效方法之一是使用卷积和信道降维。与SE注意力相比，坐标注意力（CA）将特定方向的信息沿着空间维度方向嵌入到通道注意力中，并选择适当的通道维度缩减率，实现了可比的性能。相反，与粗粒度CV任务相比，这种现象可能是在逐像素回归中通过降维来减轻计算负担的最常见问题。

受估计高度非线性像素语义的思想启发，极化自注意（PSA）沿着对应通道维度完全折叠了输入特征图，并保留了高光谱分辨率。由于还原率较小，PSA在性能改进方面显示出巨大的潜力。尽管适当的通道缩减率会产生更好的性能，但它可能会在提取深度视觉表示时带来副作用，这在高效通道注意力（ECA）中探讨了在不降维的情况下的效率。

大的层深度对提高神经网络的代表能力起着重要作用。然而，它不可避免地会导致更多的顺序处理和更高的延迟。与被描述为线性序列的大深度注意力不同，Triplet注意力（TA）提出了一种三重平行分支结构，用于捕捉不同平行分支之间的跨维相互作用。

对于并行子结构，Shuffle attention（SA）将通道维度分组为多个子特征，并并行处理它们，这可以在多个处理器之间有效地并行化。此外，并行网络（ParNet）构建了并行子网络，提高了特征提取的效率，同时保持了小深度和低延迟。

从上述注意力机制中可以看出，跨维度的相互作用有助于通道或空间注意力预测。基于分组结构，作者修改了CA的顺序处理方法，提出了一种新的不降维的高效多尺度注意力（EMA）。

注意，在这里，只有两个卷积核将分别放置在并行子网络中。其中一个并行子网络是以与CA中所示相同的方式处理的1x1卷积核，另一个是3x3卷积核。

为了证明提出的EMA的通用性，第4节介绍了详细的实验，包括CIFAR-100、ImageNet-1k、COCO和VisDrone2019基准的结果。连同图像分类和目标检测任务的实验结果如图1所示。

主要贡献如下：

提出了一种新的跨空间学习方法，并设计了一个用于建立短期和长期依赖关系的多尺度并行子网络。
考虑了一种通用方法，将部分通道维度重塑为Batch维度，以避免通过通用卷积进行某种形式的降维。
除了在没有通道降维的情况下在每个并行子网络中建立局部跨通道交互外，作者还通过跨空间学习方法融合了两个并行子网络的输出特征图。
与CBAM、基于归一化的注意力模块（NAM）、SA、ECA和CA相比，EMA不仅取得了更好的结果，而且在所需参数方面更高效。

2、高效的多尺度注意力机制

在本节中首先重新访问坐标注意力块，其中位置信息被嵌入到通道注意力图中，用于混合跨通道和空间信息。作者将开发和分析提出的EMA模块，其中并行子网络块有助于有效地捕获跨维度交互并建立维度间依赖关系。

2.1、回顾 Coordinate Attention (CA)

如图3（a）所示，CA块首先可以被视为与SE注意力模块类似的方法，其中利用全局平均池化操作来对跨通道信息进行建模。通常，可以通过使用全局平均池化来生成通道统计，其中全局空间位置信息被压缩到通道描述符中。与SE略有不同的是，CA将空间位置信息嵌入到通道注意力图中，以增强特征聚合。

类似地，另一条路线直接来自沿水平维度方向的1D全局平均池化，因此可以被视为沿垂直维度方向的位置信息的集合。该路线利用沿垂直维度方向的1D全局平均池化来在空间上捕捉长程相互作用，并保持沿水平维度方向的精确位置信息，从而加强了对感兴趣的空间区域的关注。宽度为的中的池化输出可以公式化为

此外，它生成2个并行的1D特征编码向量，然后将一个向量置换成另一个向量形状，然后在卷积层上级联两个并行1D特征编码器向量。这两个并行1D特征编码向量将共享具有降维的1x1卷积。1x1卷积核使模型能够捕捉局部跨通道交互，并与通道卷积共享相似性。

然后，CA进一步将1x1卷积核的输出分解为2个并行的1D特征编码向量，并在每个并行路径中分别堆叠一个1x1卷积卷积和一个非线性Sigmoid函数。

最后，两条平行路线的学习注意力图权重将被用来聚合原始中间特征图作为最终输出。因此，CA不仅保留了精确的位置信息，而且通过对通道间和空间信息进行编码，有效地利用了长程相关性。

不言而喻，CA将精确的位置信息嵌入到通道中，并在空间上捕捉长距离的相互作用，实现了令人印象深刻的性能。2个1D全局平均池化被设计用于沿2个空间维度方向对全局信息进行编码，并分别沿不同维度方向在空间上捕获长程相互作用。然而，它忽略了整个空间位置之间相互作用的重要性。

此外，1x1卷积的有限感受野不利地阻碍了局部跨通道相互作用的建模和利用上下文信息。

2.2、多尺度注意力（EMA）模块

并行子结构有助于网络避免更多的顺序处理和大深度。给定上面定义的并行处理策略，在EMA模块中采用它。

EMA的总体结构如图3（b）所示。在本节中，将讨论EMA如何在卷积运算中不降低通道维度的情况下学习有效的通道描述，并为高级特征图产生更好的像素级关注。

具体来说，只从CA模块中挑选出1x1卷积的共享分量，在EMA中将其命名为1x1分支。为了聚合多尺度空间结构信息，为了快速响应，将3x3与1x1分支并行放置，将其命名为3x3分支。考虑到特征分组和多尺度结构，有效地建立短期和长期依赖关系有利于获得更好的性能。

1、特征分组

对于任何给定的输入特征图，EMA将在通道维度方向上将划分为个子特征，以学习不同的语义，其中组风格可以由来提供。在不失一般性的情况下设$G<<c$，并假设学习的注意力权重描述符将用于增强每个子特征中感兴趣区域的特征表示。< p=""></c$，并假设学习的注意力权重描述符将用于增强每个子特征中感兴趣区域的特征表示。<>

2、并行子网络

神经元的大的局部感受野使神经元能够收集多尺度的空间信息。因此，EMA认为利用3条平行路线来提取分组特征图的注意力权重描述符。其中两条并行路由位于分支中，第3条路由位于分支中。为了捕获所有通道之间的依赖关系并减少计算预算，作者对通道方向上的跨通道信息交互进行了建模。更具体地说，在分支中，有2个1D全局平均池化操作用于分别沿着两个空间方向对通道进行编码，并且在分支中仅堆叠单个用于捕获多尺度特征表示。

给定在正常卷积的卷积函数的维数中不存在批处理系数的事实，卷积核的数量与前向运算输入的批处理系数无关。例如，Pytorch中的正常2D卷积核的参数维度是，这不涉及batch维度，其中表示输入的输出平面，inp表示输入特征的输入平面，k分别表示kernel大小。因此，将G群reshape并置换为batch维度，并用的形状重新定义输入张量。

一方面，通过与CA类似的处理，将两个编码特征连接在图像高度方向上，并使其共享相同的卷积，而不在分支中降维。在将卷积的输出分解为2个向量后，使用两个非线性Sigmoid函数来拟合线性卷积上的2D二进制分布。为了在分支中的两个平行路线之间实现不同的跨通道交互特征，通过简单的乘法将每组内的两个通道注意力图聚合在一起。

另一方面，分支通过卷积捕获局部跨通道交互，以扩大特征空间。这样，EMA不仅对通道间信息进行编码以调整不同通道的重要性，而且将精确的空间结构信息保存到通道中。

3、跨空间学习

得益于在通道和空间位置之间建立相互依赖关系的能力，最近在各种计算机视觉任务中进行了广泛的研究和广泛应用。在PSA中，它耗尽了其仅通道和仅空间分支内的表示能力，并在注意力学习中保持最高的内部分辨率来解决语义分割。

受此启发，作者提供了一种不同空间维度方向的跨空间信息聚合方法，以实现更丰富的特征聚合。注意，在这里，仍然引入了两个张量，其中一个是分支的输出，另一个是分支的输出。然后，利用2D全局平均池化对分支的输出中的全局空间信息进行编码，并且最小分支的输出将直接在信道特征的联合激活机制之前转换为相应的维度形状。

2D全局池化操作公式化为