本文提出了一种新的卷积,称为动态区域感知卷积(DRConv),它可以自动将多个滤波器分配给特征具有相似表示的相应空间区域。通过这种方式,DRConv在建模语义变化方面优于标准卷积。标准卷积层可以增加文件器的数量以提取更多的视觉元素,但会导致较高的计算成本。DRConv使用可学习的指导器将增加的通道方向滤波器转移到空间维度,这不仅提高了卷积的表示能力,而且保持了计算成本和标准卷积的平移不变性。
DRConv是处理复杂多变的空间信息分布的一种有效而优雅的方法。它可以替代任何现有网络中的标准卷积,因为它的即插即用特性,特别是在高效网络中增强卷积层。
在广泛的模型(MobileNet系列、ShuffleNetV2等)和任务(分类、人脸识别、检测和分割)上评估DRConv。在ImageNet分类上,基于DRConv的ShuffleNetV2-0.5×在46M模型上实现了67.1%的最先进性能,相对提高了6.3%。
1、简介
得益于强大的表示能力,卷积神经网络(CNN)在图像分类、人脸识别、目标检测和许多其他应用中取得了重大进展。神经网络强大的表示能力源于不同的过滤器负责提取不同抽象级别的信息。然而,当前主流卷积运算以跨空间域的滤波器共享方式执行,因此只有在重复应用这些运算(例如,使用更多滤波器增加通道和深度)时才能捕获更有效的信息。这种重复方式有几个限制。首先,它的计算效率很低。其次,它会导致优化困难。
与过滤器共享方法不同,为了建模更多的视觉元素,一些研究侧重于通过在空间维度上使用多个过滤器来利用语义信息的多样性。
Deepface提出了替代卷积,以在空间维度上的每个像素处具有单独的滤波器,为了方便统称它们为局部卷积。因此,每个位置的特征将被不同地处理,这比标准卷积更有效地提取空间特征。
Deepface等显示了局部卷积在人脸识别任务中的作用。虽然与标准卷积相比,局部卷积不会增加计算复杂性,但它有两个致命的缺点。一个是带来大量的参数,这与空间大小成正比。另一个是局部卷积破坏了平移不变性,这对一些需要平移不变性特征的任务不友好(例如,局部卷积不适用于分类任务)。
这两种方法都使得神经网络难以广泛应用。此外,局部卷积仍然在不同样本之间共享滤波器,这使得它对每个样本的特定特征不敏感。例如,在人脸识别和对象检测任务中,存在具有不同姿势或视点的样本。因此,跨不同样本的共享过滤器不能有效地提取定制特征。
考虑到上述局限性,在本文中提出了一种新的卷积,称为动态区域感知卷积(DRConv),它可以通过可学习的指导器自动将滤波器分配给相应的空间维度区域。因此,DRConv具有强大的语义表示能力,并完美地保持了翻译不变性。
作者设计了一个可学习的引导Mask模块,以根据每个输入图像的特征自动生成滤波器的区域共享模式。区域共享模式意味着将空间维度划分为多个区域,每个区域内仅共享一个过滤器。基于相应的输入特征动态生成针对不同样本和不同区域的滤波器,这对于关注其自身的重要特征更有效。
DRConv的结构如图1所示。应用标准卷积从输入中生成引导特征。根据引导特征,将空间维度划分为若干区域。可以看出,引导Mask中具有相同颜色的像素附着到相同区域。在每个共享区域中应用滤波器生成器模块来生成滤波器以执行2D卷积运算。因此,需要优化的参数主要在滤波器生成器模块中,其数量与空间大小无关。因此,除了显著提高网络性能外,与局部卷积相比DRConv可以大大减少参数数量,并且与标准卷积相比几乎不会增加计算复杂性。
为了验证方法的有效性,作者对几个不同的任务进行了一系列的实证研究,包括图像分类、人脸识别、目标检测和分割,只需用DRConv替换标准卷积。实验结果表明,DRConv可以在这些任务上取得优异的性能。作者还提供了充分的消融研究,以分析DRConv的有效性和鲁棒性。
总之,这项工作做出了以下贡献:
- 提出了一种新的动态区域感知卷积,它不仅具有强大的语义表示能力,而且完美地保持了方差特性。
- 专门设计了可学习引导Mask的反向传播过程,以便根据反向传播的总体任务损失的梯度来确定和更新区域共享模式,这意味着本文的方法可以以端到端的方式进行优化。
- DRConv可以通过简单地替换标准卷积而在图像分类、人脸识别、检测和分割任务上获得优异的性能,而不会增加太多计算成本。
2、本文方法
权重共享机制固有地限制了标准卷积对语义变化的建模,这是由于单个过滤器的能力较差。因此,标准卷积必须大幅增加通道维度上的滤波器数量,以匹配更多的空间视觉元素,这是低效的。局部卷积利用了空间信息的多样性,但牺牲了平移不变性。
为了一劳永逸地解决上述限制,作者进一步提出了一种可行的解决方案,称为DRConv,如图1所示,它不仅通过在空间维度上使用多个滤波器来增加统计的多样性,而且还保持了这些具有相似特征的位置的平移不变性。
2.1、动态区域感知卷积
通常,这里的方法主要分为两个步骤。首先,使用可学习的引导Mask将空间特征划分为跨空间维度的几个区域。如图1所示,引导Mask中具有相同颜色的像素附着到相同区域。从图像语义的角度出发,将语义相似的特征分配给同一区域。
其次,在每个共享区域中使用滤波器生成器模块生成定制的滤波器,以执行正常的2D卷积操作。可以根据输入图像的重要特性自动调整定制滤波器。为了更好地解释本文的方法,作者主要介绍以下两个模块:可学习引导Mask和滤波器生成器模块。可学习引导Mask决定将哪个过滤器分配给哪个区域。过滤器生成器模块生成将分配给不同区域的相应过滤器。
2.2、Learnable guided mask
作为提出的DRConv的最重要部分之一,可学习引导Mask决定了滤波器在空间维度上的分布(哪个滤波器将被分配给哪个区域),并通过损失函数进行优化。使得滤波器可以自动地适应每个输入的空间信息的变化,并且滤波器分布将相应地变化。
为了使引导Mask可学习,必须获得产生引导特征的权重的梯度。但是,导向特征没有梯度,导致相关参数无法更新。因此,以图2(a)所示的另一种方式设计引导特征的近似梯度。将详细解释正向和反向传播。
2.3、动态过滤器:过滤器发生器模块
在DRConv中,将为不同的区域分配多个过滤器。滤波器生成器模块设计用于为这些区域生成滤波器。由于不同图像之间特征的多样性,跨图像的共享过滤器不够有效,无法集中于其自身特征。例如在人脸识别和目标检测任务中具有不同姿态和视点的图像,需要定制的特征来关注每个图像的特定特征。
3、实验
3.1、分类
3.2、人脸识别
3.3、COCO对象检测和分割
3.4、消融实验
作者:小书童
文章来源:集智书童
推荐阅读
- 全新剪枝框架 | YOLOv5模型缩减4倍,推理速度提升2倍
- 3D检测新SOTA | PointPillar与Faster RCNN结合会碰撞出怎样的火花
- 全新FPN开源 | CFPNet即插即用,助力检测涨点,YOLOX/YOLOv5均有效
- 基于深度学习的超分辨率图像技术一览
- YOLOv8官方支持多目标跟踪 | ByteTrack、BoT-SORT都已加入YOLOv8官方
- 深度剖析Tesla自动驾驶技术方案
更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。