FcaNet：频率通道注意力网络论文解读

首发：AI公园公众号
作者：ronghuaiyang

导读

改一行代码就能涨点，这么好的事情，还不赶紧来看看，用不同的频率分量来做注意力，确实有效果！

论文：https://arxiv.org/abs/2012.11879

1、介绍

注意力机制有很多种方法，空间注意力，通道注意力，自注意力等，这里我们讨论的是通道注意力。通道注意力非常简单，直接学习出对应的每个通道的权值就可以，所以非常的好用。一般来说，在计算通道注意力的时候，每个通道的会需要有个标量值来计算后面的注意力权重，这个标量的计算函数一般都是使用Global Average Pooling。但是，GAP并不是那么的完美，简单的去均值的方法会丢弃很多的信息，无法充分的获取每个通道的多样性的信息。那么，除了使用全局的平均值来计算通道注意力之外，还有其他的方法吗？后面会详细说明。

文章的主要贡献如下：

我们证明了GAP是一种特殊形式的DCT（离散余弦变换），基于这个证明，我们将通道注意力泛化到频域，并提出了FcaNet，使用多个频率的通道注意力网络。
我们提出了一个2阶段的损失函数，用来选择不同的频率分量，不同的频率数量，以及不同的频率组合。
我们在COCO和ImageNet上都到了SOTA，并超越之前的通道注意力的方法。 * 我们的方法非常的简单，只需要改一行代码就可以替换之前的通道注意力方法。

2、方法

在这部分，我们来看下，GAP是如何和DCT联系到一起的，以及FcaNet是如何设计的。

2.1 通道注意力和离散余弦变换

在式子（4）和（5）中，为了简单起见，所以去掉了一些归一化的常量。

通过通道注意力和DCT的定义，我们可以总结出两点：1、现有的方法在做通道注意力的时候，使用GAP作为预处理。2、DCT可以看成是输入的加权和，权值就是（3）和（4）的余弦部分。

GAP是一个取均值的操作，可以看成是输入的最简单的频谱，也就是频率为0的分量。但是，在通道注意力中只使用单独的GAP信息并不是很好，既然单独的频谱不好，那么可以考虑多用几个频率分量，这就引入了多频谱的通道注意力机制。

2.2 多频谱通道注意力

通道注意力的理论分析

上面我们分析过了，DCT可以看成是输入的加权和，我们会进一步提出，GAP实际上就是DCT的一种特殊形式。

定理1 GAP是2D DCT的一种特殊形式，它和2D DCT中的最低的频率分量是成比例的。

证明：假设在（4）式中，h和w为0，我们有：

在（6）式中，表示2D DCT中的最低的频率分量，和GAP就差了一个比例常数。因此，定理1证明完毕。

既然我们已经证明了GAP是DCT的一种特殊形式，我们当然也可以引入其他的频率分量到通道注意力中，我们可以讨论一下我们这样做的原因。

所以说，在用GAP做通道注意力的时候，很多的信息其实被丢掉了。

多频谱注意力模块

下图是和SENet的对比：

选择频率分量的规则

现在有个问题是如何去选择频率分量，也就是每个中的[u,v]如何选取。对于每个通道，空间分辨率为HW，在做2DDCT之后，可以得到HW个频率分量，这样的话，C个通道的频率分量的组合数量有CHW个。比如，对于ResNet50，C为2048，测试所有的组合不现实的，计算量非常大，因此，我们提出了一个2步走的启发式的方案来选择频率分量。

主要的思想是先确定每个频率分量的重要性，然后确定一起使用不同数量的频率分量的有效性。首先，我们检查单个频率分量在通道注意力中的有效性，然后，我们选择topk个效果最好的频率分量，这样，得到多频谱的频率分量。

2.3 讨论

多频谱框架如何嵌入更多的信息

从上面的式子可以看到，GAP实际上是丢掉了很多其他的频率分量的信息，只留下了最低频率的信息。多频谱很显然可以使用更多的频率信息。

我们知道，卷积神经网络的通道是有冗余的，也就是说，不同的通道的信息可能是相似的。那么，使用GAP的时候，得到的信息也是相似的，而使用多频谱的话，可以对于不同的通道提取不同的频谱特征。使得可以得到更加丰富的信息。

复杂性分析

从参数数量上来说，我们的方法并没有引入任何的参数。从计算量上来说，我们的额外的计算开销是非常小的，计算量几乎是和SENet一样。

只需要改一行代码

实现时候，只需要在原始的SENet的代码上修改一行代码：

3. 实验

单独频率分量的效果，在ImageNet上的准确率：

使用不同数量的频率分量的效果：

和其他的方法的比较：

将FcaNet作为物体检测的主干的时候，在MS COCO上的结果：

在MS COCO的实例分割时的效果：

在附录的地方，还做了关于频率组合策略的一些实验，除了文中提到了选择topk个效果最好的频率之外，还尝试了效果最差的k个，还有频率最低的k个。Low-k表示频率最低的k个，Bot-k表示效果最差的k个。

总结

模型效果很好，改动也很简单，涨点很明显。只是不清楚这个最佳的频率分量的组合的泛化性能怎么样，能不能用到其他的数据集上。不过，从作者给出的结果看，选出来的其实主要还是低频的分量，而且从low-k的效果来看，也是挺好的，那么，其实只要按照low-k的方法选取分量，应该也都是有效果的，期待有人在更多数据集上做下类似的实验。

—END—

论文链接：https://arxiv.org/abs/2012.11879

推荐阅读

关注图像处理，自然语言处理，机器学习等人工智能领域,请点击关注AI公园专栏。
欢迎关注微信公众号

1、介绍

2、方法

2.2 多频谱通道注意力

2.3 讨论

3. 实验

总结

推荐阅读

目录