CVPR 2021 论文解读Vol.6 I 动态区域感知卷积，进一步提升分类/检测/分割性能

摘要

旷视研究院提出一种新颖的卷积方式，名为动态区域感知卷积(DRConv)，它能为特征具有相似表示的相应空间区域自动地分配定制卷积核，相较标准卷积，这种卷积方式大大地增强了对图像语义多样性的建模能力。DRConv通过可学习的指示器(learnable instructor)将逐步增加的通道维卷积核变换至空间维，这一方面增强了卷积的表征能力，另一方面控制计算成本并使平移不变性保持与标准卷积一致。（由于每个卷积层可以视为一次滤波操作，所以我把文中的filter理解为网络指定卷积层中的等效卷积核）。

DRConv是一种高效且灵活的卷积方法，适用于处理复杂且多变的空间信息分布，在各种模型(MobileNet series, ShuffleNetV2, etc.)与视觉任务(Classification, Face Recognition, Detection and Segmentation)中证实了其有效性和优越性。

介绍

目前主流的卷积操作，即标准卷积(standard convolution)是在空间域共享同一个卷积核的权值，如果想要捕获更有效的信息，只能通过重复堆叠卷积来实现，这样不仅计算效率低下，还会给模型优化带来困难。与共享卷积核方法不同，局部卷积(local convolution)通过在空间维度上使用多个卷积核来利用语义多样性，从而建模更多的视觉特征，局部卷积会不同对待不同位置的特征，这能够更有效地提取空间特征，但它会带来与特征图大小成比例的参数，并且会破坏平移不变性。

针对上述问题，作者提出了动态区域感知卷积(dynamic region-aware convolution)，它能够通过可学习的结构为相应区域自动分配卷积核，因此它具备强大的语义表征能力并能够保持平移不变性。具体来说，作者设计了一个可学习的指导模块来根据每个输入图像的特征自动生成卷积核的共享区域模板(region-sharing-pattern)，该模板意味着将空间维度划分成许多区域，每个区域仅共享一个卷积核，通过这种方法，实现了根据相应的输入特征动态生成用于不同样本和不同区域的卷积核，确保每个卷积核能更有效的集中处理指定区域的重要特征，如图1所示。

图1展示了DRConv的结构，整个模块的优化参数主要在卷积核生成模块中，其数量与空间大小无关，因此DRConv相比局部卷积可以大大减少参数量，相比标准卷积，它具有较强的表征能力。

方法

首先通过标准卷积和局部卷积引出本文所提出的DRConv，定义输入为，空间维度为，输出为，其中U, V, C分别为输入图像的高、宽、通道数。对于共享权值的标准卷积的卷积核，其维度为，相应输出特征图如式(1)所求；对于局部卷积，它的卷积核不在空间维度上共享权值，它的维度为，相应输出特征图如式(2)所示，此时的与标准卷积时不同。

对于动态区域感知卷积，作者定义了一个指导模块来表示空间维划分出的M个子区域，我理解的是可以把它视作初步分割后得到的超像素集，每个子区域仅共享一个卷积核，M根据输入图片的特征进行设定，在此条件下，DRConv的卷积核按区域设为，其中与子区域相关，对应输出特征图如式(3)所示。

通常动态区域感知卷积包含两个步骤，第一，使用learnable guided mask将空间特征几个区域，例如颜色相同的像素或语义特征相似的像素被分配到相同区域；第二，使用filter generator module来生成指定区域对应的卷积核。具体实现图解如图2所示。

Learnable guided mask

该部分决定了空间维度上卷积核的分布，即哪个卷积核被分配到哪块区域，并通过损失函数进行了优化，这样卷积核就能自动地适应每个输入的空间信息变化，并且相应地改变卷积核的分布。具体实现方式如下：

正向传播

反向传播

Dynamic filter: filter generator module

该部分用于生成不同区域的卷积核，根据不同图片的不同特点，研究者针对不同特征定制化卷积核，这种方法能够增强网络获取不同图片特性的能力，实现多样特征的有效表达。具体实现流程如图2(b)所示。

实验结果

Table 1展示了分类任务中的标准卷积，CondConv，DRConv对不同模型性能的影响，发现DRConv在不同的模型上，让网络在只增加少量计算量的情况下性能（准确率）有了较为显著的提升，甚至在一些减少计算量的情况下，其性能仍保持优越性。

同时，研究者还发现DRConv在轻量化网络上有着更明显的优势。由于轻量化网络需要在网络深度和宽度都受限的情况下尽可能地提取出原始输入图像的有效信息，而DRConv的设计恰好是在不增加太多额外计算量的情况下充分利用空间信息的多样性来增强模型的特征表达。

Table 2展示了人脸识别中的DRConv对不同模型性能的提升。

Figure 3可视化了分类和人脸识别任务中不同层下的guided mask，表明DRConv方法能够成功地为语义相近的区域分配卷积核，同时由于深层特征具有较大的感受野，有更准确的语义表达，深层的guided mask可以相应减少划分的区域数m。由于guided mask完全由图像的空间信息分布决定，所以某个区域的浅层划分倾向为离散的，因为它们考虑的特征侧重于输入图像上下文的细节信息，而深层划分倾向为连续的，因为它们考虑的特征侧重于语义信息。

Figure 4展示了分割任务下不同模型大小的性能对比，从数据上看，将DRConv用于较小模型会比用于较大模型获得更多性能上的提升，这是因为较小模型的特征提取能力有限，通过DRConv能够充分利用空间信息提高语义信息的建模能力，提升特征的有效性。

总结

总的来说，这篇论文所提出的DRConv，是考虑到特征图的空间分布特征，在标准卷积的基础上作出的改进，其中我认为最新颖最有灵性的部分，是learnable guided mask模块的设计。首先是在原理上，DRConv根据空间信息的分布，通过标准卷积和简单分类将待处理的整幅特征图划分为若干个子区域，再根据不同区域的语义特性分配相应卷积核(filters)；其次是在具体实现上，argmax和softmax的设计保证了提出的动态卷积的传播，卷积核集合W和guided mask M的相乘保证了特征图不同区域的特异性处理，还同时保持标准卷积平移不变的性质。

当需要增加卷积的表征能力时，DRConv的使用能够减少像标准卷积堆叠的计算冗余，还能避免局部卷积的平移不变性被破坏，此外，文章多提出的DRConv还能被便捷地运用在分类、人脸识别、语义分割等多种视觉任务中，增强网络特征表达能力。

首发：旷视研究院
作者：旷视研究院

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果
加入旷视：career@megvii.com

摘要

介绍

方法

Learnable guided mask

正向传播

反向传播

Dynamic filter: filter generator module

实验结果

总结

推荐阅读

目录