旷视研究院 · 7月22日

CVPR 2021论文解读Vol.5 | 动态区域感知卷积

image.png

一.Background

任务:提出新的卷积方法,可以利用标准卷积的平移不变性,和局部卷积的强大的表征能力,综合两者的优点。

关键词:Dynamic Convolution, Region-aware Convolution, Guided Convolution

二.Introduction

全卷积,也就是平时的普通卷积,对于传统的卷积方式,大多数是通过增加卷积核的数量来获取更多图片中的语义信息,而卷积核的操作都是对于全局来进行的,但实际上对于类似图片分类任务来说,区分图片的“重要区域”必然是小于整张图片的,但是卷积核并不知道“重要区域”的具体位置,所以他要从全局区域进行卷积(这也是传统卷积方式的“平移不变性”的体现,即总能找到重要的区域的位置),但这样的话,为了找到“重要区域”,不断进行着一些不必要的运算,很大程度的增加了时间复杂度,降低计算效率。

对于卷积核的尺寸为K*K(选择bias),输入为H*W*C的feature maps 输出为H*W*O的feature maps的运算次数:

(K×K×C×2-1+1)×(H×W×O)

但是传统的局部卷积,虽然对局部区域的分析能力增强,但是引入大量的参数,划分的区域基本固定,这也意味着基本舍弃了“平移不变性”,也就是说对于类似图片分类任务来说,局部卷积的表现会很差,因为目标的“重要区域”可能空间位置改变,但卷积核的分配位置没有改变,所以效果不好。此外,因为每个样本的相同位置可能显示的特征姿势,视角等情况不同,局部卷积仍然在不同的样本之间共享滤波器,这使得它对每个样本的特定特征不敏感,不利于有效提取特征。

所以论文作者提出了一种新的卷积的方法,可以在保持“平移不变性”的基础上,利用局部卷积,将两种卷积的好处综合起来。

三.Model

整体的结构

image.png

Dynamic Region-Aware Convolution

对于上图的guided mask不同的颜色对应的是不同的卷积核的卷积区域,同一个卷积区域卷积核的数目有o个所以图像的输入如果为w*h*c,则输出的为w*h*o。

具体的:有针对性的产生和分配卷积核,主要是通过对输入的feature maps先进行一次k*k的卷积,产生m通道的feature maps,然后利用这个feature maps产生,guided mask,用来引导不同卷积核的卷积区域。

对于卷积核的产生,通过对输入的feature maps先进行自适应池化到k*k*c的feature maps,然后经过1*1的卷积,sigmoid激活,再进行一次1*1的组卷积,产生m*o个卷积核,将产生的卷积核在guided mask的引导下,在最先输入的feature maps上进行卷积,生成最终的feature maps。

这种卷积方式可以代替传统的卷积,并且在仅增加少量的计算量的情况下产生较好的效果。

Learnable guided mask

image.png
image.png

G(X)介绍

G(x)主要用来基于X生成卷积核

image.png

上图的右侧,先对feature maps进行adaptive average pooling,得到K*K*C的feature maps,然后通过1*1的卷积,sigmoid激活得到K×K×m^2的feature maps,然后对输入的feature maps均分成m组,每组进行1*1的卷积,得到最后的对应的m个区域的卷积核。

四.Backward propagation

正向传播:

image.png
image.png

五.Experiment

ImageNet 分类任务

image.png

在ImageNet上的分类任务和MS1M上的人脸识别任务,引导层的可视化。

image.png

DRConv对COCO目标检测和分割的结果。
image.png

DRConv - ShuffleNetv2和DRConv-MobileNetV2在不同模型尺寸下的结果

image.png

image.png

MS1M-V2训练,Megaface测试的人脸识别结果

image.png

六.Learn from paper

对于卷积任务提出了十分创新的方法,通过对feature maps进行划分然后用特定的卷积核去做,相对于标准卷积在保持计算量的基础上,增加了卷积的表征能力,相对于局部卷积,减少参数量的同时,仍然保持局部卷积的表征能力。

首发:旷视研究院
作者: Jin Chen, Xijun Wang, Zichao Guo, Xiangyu Zhang, Jian Sun

专栏文章推荐

欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果
加入旷视:career@megvii.com
1 阅读 268
推荐阅读
0 条评论
关注数
1836
内容数
91
专注旷视研究院学术论文解读推送,涵盖计算机视觉,文字识别等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息