作者：Shreejal Trivedi
编译：ronghuaiyang
首发：AI公园公众号

导读

带你理解Google开发的一种depthwise卷积的新范式。

卷积神经网络是一种复杂的计算模型。模型越深，复杂性就越高。由于这种不太好的特点，如何将这些模型用于实时场景就变得非常重要。

谷歌发布的论文Xception: Deep Learning with Depthwise Separation Convolutional kernel 中首先引入了Depthwise Separation Convolutional kernel 的概念，有助于提高卷积运算的速度。它被证明是获得高效率的现代ConvNets和部署到实时边缘计算设备的关键因素之一。

最近，谷歌在文章MixConv: Mixed Depthwise Convolutional Kernels中发布了一个新的Depthwise Convolutional Kernels的范式。

在本文中，我们将详细概述这种新的卷积操作，并介绍文中提到的新的移动ConvNet系列MixNets。

深度可分离卷积核的简单回顾

我们先快速的回顾一下深度可分离卷积核。

图1. 原始卷积操作

如图所示，在5x10x10的feature map(青蓝色)和3x3 kernel(红色)之间进行简单的卷积操作。考虑padding和stride \= 1，输出通道的数量= 64。
在标准卷积中，将一个3D 5x3x3 kernel与整个feature map进行卷积，得到1x10x10输出(蓝色片)。每次3D卷积相乘的次数为4500(3*3*5*10*10)。经过64次这样的三维卷积运算，将每个输出进行堆叠，得到一个64x10x10的输出feature map。经过一个完整的卷积运算后，总的复杂度是4500 * 64 = 288000 FP32次乘法。

图2. 深度可分离卷积操作

现在考虑上面的场景。深度可分离卷积运算将标准卷积分为两个部分：深度卷积和点卷积。

Depthwise Convolution

将每个2D 3x3滤波器分别应用于输入feature map的不同通道上，生成单独的空间2D特征图，并将其相互叠加，形成中间转换输出(图2中黄色部分)。

如你所见，不同于标准卷积，Depthwise卷积层不会增加输出feature map中的通道数量。用于操作的内核数等于feature map的输入通道数。在我们的例子中，内核的数量= 5。

Depthwise卷积运算完成后相乘次数为4500(5*3*3*10*10)。
在深度卷积中有一个深度乘子m的概念。在每个Depthwise卷积操作中，输出C*m个通道。

例如，如果我们保持深度乘子= 2，在我们的例子中，最终的中间输出大小(黄色)将变成(10,10,10)，因为每个depthwise卷积将给我们的输出为(2,10,10)，而不是仅仅2D空间图。

Pointwise Convolution

Pointwise卷积增加了中间生成的feature map的通道数(黄色为5x10x10→64x10x10)。
它使用3D 的10x1x1核，这个核与feature map的每个点进行卷积得到结果输出。
使用的kernel数量等于输出通道的数量。在我们的例子中，它是64。
最后的pointwise卷积运算的乘法总数是32000(64*1*1*5*10*10)。

深度可分卷积运算的复杂度为32000 + 4500 = 36500 FP32，远小于FP32 288000。该操作的这种特性有助于以非常低的计算能力实现相同的输出，因此，它是你会在今天的移动架构(如MobileNets, ShuffleNets)中发现的最著名的卷积操作之一。
在设计具有depthwise卷积核的卷积网络时，一个重要但经常被忽略的因素是kernel的大小。虽然传统的做法是简单地使用3x3核，但最近的研究结果表明，更大的内核尺寸，如5x5内核和7x7内核可以潜在地提高模型的准确性和效率。

MixConv：一种新的深度可分离卷积的范式

MixConv方法与深度可分离卷积非常相似。但是，他们没有将固定大小的kxk核应用到feature map的单个空间通道上，而是将通道划分为组，并通过改变每组的kernel大小来使用卷积操作 —— 下面给出了的可视化表示。

图3. 原始(左)深度卷积运算与MixConv(右)的区别

通过使用不同大小的kernel，往往增加了网络的感受域，进一步提高了模型在分类/检测任务上的性能。

步骤1：将输入feature map (C, H, W)划分为g组不同通道C1, C2，…，Cg等，对这些小的feature map进行不同形状的kernel的Depthwise卷积(表示为*)，如图3所示。
步骤2：生成的feature map拼接后，最后使用的Pointwise 卷积(表示为X)增加feature map中的通道数(Co, H, W)。