CVPR 2021论文解读Vol.5 | 动态区域感知卷积 - 极术社区

一．Background

任务：提出新的卷积方法，可以利用标准卷积的平移不变性，和局部卷积的强大的表征能力，综合两者的优点。

关键词：Dynamic Convolution, Region-aware Convolution, Guided Convolution

二．Introduction

全卷积，也就是平时的普通卷积，对于传统的卷积方式，大多数是通过增加卷积核的数量来获取更多图片中的语义信息，而卷积核的操作都是对于全局来进行的，但实际上对于类似图片分类任务来说，区分图片的“重要区域”必然是小于整张图片的，但是卷积核并不知道“重要区域”的具体位置，所以他要从全局区域进行卷积（这也是传统卷积方式的“平移不变性”的体现，即总能找到重要的区域的位置），但这样的话，为了找到“重要区域”，不断进行着一些不必要的运算，很大程度的增加了时间复杂度，降低计算效率。

对于卷积核的尺寸为K*K（选择bias），输入为H*W*C的feature maps 输出为H*W*O的feature maps的运算次数：

(K×K×C×2-1+1)×(H×W×O)

但是传统的局部卷积，虽然对局部区域的分析能力增强，但是引入大量的参数，划分的区域基本固定，这也意味着基本舍弃了“平移不变性”，也就是说对于类似图片分类任务来说，局部卷积的表现会很差，因为目标的“重要区域”可能空间位置改变，但卷积核的分配位置没有改变，所以效果不好。此外，因为每个样本的相同位置可能显示的特征姿势，视角等情况不同，局部卷积仍然在不同的样本之间共享滤波器，这使得它对每个样本的特定特征不敏感，不利于有效提取特征。

所以论文作者提出了一种新的卷积的方法，可以在保持“平移不变性”的基础上，利用局部卷积，将两种卷积的好处综合起来。

三．Model

整体的结构

Dynamic Region-Aware Convolution

对于上图的guided mask不同的颜色对应的是不同的卷积核的卷积区域，同一个卷积区域卷积核的数目有o个所以图像的输入如果为w*h*c,则输出的为w*h*o。

具体的：有针对性的产生和分配卷积核，主要是通过对输入的feature maps先进行一次k*k的卷积，产生m通道的feature maps，然后利用这个feature maps产生，guided mask，用来引导不同卷积核的卷积区域。

对于卷积核的产生，通过对输入的feature maps先进行自适应池化到k*k*c的feature maps，然后经过1*1的卷积，sigmoid激活，再进行一次1*1的组卷积，产生m*o个卷积核，将产生的卷积核在guided mask的引导下，在最先输入的feature maps上进行卷积，生成最终的feature maps。

这种卷积方式可以代替传统的卷积，并且在仅增加少量的计算量的情况下产生较好的效果。

Learnable guided mask

G（X）介绍

G（x）主要用来基于X生成卷积核

上图的右侧，先对feature maps进行adaptive average pooling，得到K*K*C的feature maps，然后通过1*1的卷积，sigmoid激活得到K×K×m^2的feature maps，然后对输入的feature maps均分成m组，每组进行1*1的卷积，得到最后的对应的m个区域的卷积核。