涨点Trick | 超越CWD、FGD和MGD，AMD蒸馏让目标检测对小目标更有效 - 极术社区

作为一种通用的模型压缩范式，基于特征的知识蒸馏允许学生模型从教师模型中学习表达特征。在本文中主要致力于设计一个有效的特征提取框架，并提出了一种用于目标检测的空间通道自适应Mask提取（AMD）网络。
更具体地说，为了准确地重构重要特征区域，首先在学生网络的特征图上执行注意力引导的特征Mask，以便可以通过空间自适应特征Mask而不是之前方法中的随机Mask来识别重要特征。此外，还使用了一个简单而有效的模块来允许学生网络通道自适应，提高了其在目标感知和检测方面的模型能力。
与之前的方法相比，可以从所提出的网络中重建和学习更关键的目标感知特征，这有助于精确的目标检测。经验实验证明了本文方法的优越性：在提出的蒸馏方法的帮助下，当RetinaNet、Cascade Mask RCNN和RepPoints分别用作目标检测的教师框架时，学生网络得到了41.3%、42.4%和42.7%的mAP分数，这优于之前最先进的蒸馏方法，包括FGD和MGD。

1、简介

近年来，深度卷积神经网络（CNN）在各种计算机视觉任务中得到了成功和广泛的应用。然而，为了追求更高的性能，深度神经网络通常需要耗费大量的计算资源，这会对其在实际应用中的部署产生不利影响，并导致严重的参数冗余。因此，有必要将在复杂网络（教师）中学习的隐藏知识转移到另一个轻量级网络（学生）。这也被称为知识蒸馏，它允许学生模型生成从教师模型学习的表达特征。因此，更可取的做法是使用紧凑的网络架构部署学生模型，以最小化的模型性能损失。

最早的蒸馏算法主要作用于输出头。代表性的例子包括用于分类的logit-based蒸馏和用于检测的head-based蒸馏。最近，一种更常见的蒸馏策略出现了，即基于特征的蒸馏机制。由于在生成的特征之后，只有Head或projector在不同的网络中发生变化，因此基于特征的蒸馏方法可以潜在地用于各种任务。因此，由于其简单性和有效性，它已成为模型压缩和性能改进的一个突出研究方向。特别是在目标检测中，已经开发了各种基于特征的蒸馏方法。

早期的研究，如FitNet，在全局范围内进行蒸馏。FGFI通过提取GT和Anchor之间的高IoU特征来操作。FGD被开发用于分离前景和背景的蒸馏。最近的研究表明，学生模型最好首先从教师模型中重构和学习表达特征，而不是跟随教师生成竞争性表达。例如，提出了MGD来随机Mask学生网络特征图中的像素，从而通过简单块重建教师模型的特征。

尽管MGD通过重建掩蔽区域的特征进一步改进了特征提取，但Mask区域是以随机方式生成的。这种随机操作无法识别区域特定的重要性，并且可能导致学生模型在不重要的区域中生成教师的特征。如图1所示，教师模型的特征图中不同区域的重要性可以使用区域特定注意力得分来量化。只有得分较高的区域在特征Mask中起关键作用，而得分较低的区域应该被淡化。

为了缓解上述缺点，本文提出了一种自适应Mask蒸馏（AMD）框架，该框架具有目标感知空间和通道自适应性。一方面，在学生网络的特征图上执行注意力引导的空间Mask，而不是随机Mask。

更具体地说，首先从教师模型的特征图中学习空间注意力图，生成区域特定的Mask。然后，通过使用该注意力图自适应地Mask学生网络的特征。受益于这种选择性的特征Mask，它允许后续生成块聚焦于那些自适应Mask的重要区域，从而产生健壮和表达的表示。另一方面，为了进一步探索对象感知能力，作者利用简单有效的SE层来建模教师模型的结果特征的通道注意力。学习到的线索和学生生成块的输出将通过Hadamard乘积进行融合，实现理想的目标感知通道自适应。

综上所述，本文的贡献有3方面：

首先，为学生模型开发了一种空间自适应的特征Mask机制，从而将区域特定的重要性编码在从教师网络中重构和学习的特征中。
其次，通过引入一个简单而有效的SE模块来进一步探索通道的自适应性，以提高学生模型的目标感知能力。
最后，使用各种检测框架（包括RetinaNet、Faster RCNN和RepPoint）来评估提出的特征提取网络AMD。广泛的实验结果表明，本文的方法可以帮助学习具有足够描述能力的特征，并比以前的最先进的方法获得显著的性能提高。

2、相关工作

2.1、目标检测

作为一项基本的视觉任务，目标检测旨在确定图像中物体的类别和位置。近年来，神经网络的成功极大地推动了目标检测的研究。通常，基于深度神经网络的检测器可分为三类，包括Anchor-Based检测器、Anchor-Free检测器和端到端检测器。特别是，Anchor-Based的检测模型分为两阶段和单阶段检测器。

前一种检测方法，由类似R-CNN的算法表示，具有更高的检测精度，而其推理速度通常不令人满意，因为区域建议网络（RPN）产生了昂贵的计算成本。因此，对于某些实时场景来说，这是不切实际的。相比之下，单阶段检测器直接对Anchor进行分类和回归，而无需事先生成区域建议。因此，它们运行速度更快，检测性能得到保证。

虽然最近的深度网络实现了高检测精度，但它们通常依赖于复杂的主干结构和大量的计算资源。从这个意义上讲，设计轻量级和高效的骨干网络已经成为目标检测领域的一个主要研究方向。特别是，知识蒸馏可以将足够的描述能力从大网络转移到小网络，有利于设计性能接近大网络的轻量级骨干网络。

2.2、知识蒸馏

最近，知识蒸馏在模型压缩中得到了越来越多的关注，因为它能够保持紧凑的模型结构并提高性能。Hinton等人首先提出了知识蒸馏的概念，通过引入教师网络的软标签作为学生网络损失的一部分，允许学生网络学习分类任务的教师模型的概率分布拟合。

此外，Romero等人证明，中间层的语义信息也可以作为隐藏知识被学生网络学习。因此，知识蒸馏可以广泛应用于广泛的下游任务。Chen等人通过分别设置三个损失函数来提取Neck特征、分类头和回归头。Tang等人仔细设计了蒸馏权重和蒸馏损失函数，以便在单阶段目标检测器的样品之间自动调整。Li等人使用较大网络的区域建议来帮助较小网络学习更高的语义信息。Zheng等人将分类头的知识蒸馏转移到目标检测的位置头，带来了一种新的蒸馏机制，称为定位蒸馏（LD）。LD使逻辑模仿成为特征模仿的更好选择，并揭示了目标类别和目标位置的知识应分别处理。

Dai等人开发了GID框架，该框架基于学生和教师网络之间的差异来选择蒸馏区域。Yang等人提出了FGD，它将前景和背景分开，使学生模型能够分别通过局部和全局蒸馏从教师网络感兴趣的领域和全局知识中学习。此外，MGD对学生模型的特征图施加随机Mask，然后生成从教师网络重建的特征图。然而，随机Mask的不确定性可能会引入额外的噪声，从而产生具有折衷表示能力的偏置特征图。

3、本文方法

近年来，针对各种模型体系结构和任务精心设计了大量的精馏方法。通常，用于蒸馏的特征映射通常具有关于相邻像素的高级语义和空间信息。因此，从教师模型中学习这些特征可以显著提高学生模型的表现。在数学上，基本特征蒸馏可以表述为：

其中，、、分别表示特征图的通道、高度和宽度。和表示教师模型和学生模型对应的特征。表示排列和形状的适应层。

最近的研究表明，学习和重建教师模型的特征是特征模仿的理想选择。更具体地，可以从学生网络的特征图上的Mask区域生成表达特征。然而，先前的状态方法主要执行随机特征Mask，而不识别特征图上不同区域的重要性。

在本文中试图使学生模型生成与教师网络特征图上的重要区域相对应的特征。为此，提出了一种称为AMD的Spatial-channel adaptive masked distillati策略。与先前方法中的随机Mask策略相比，本文通过region-aware attention来执行特征Mask，以识别教师网络特征图中的重要区域。

为了提高目标感知能力，进一步引入了一个简单而高效的SE模块，使得生成的特征是通道自适应的。本文提出的方法的框架如图2所示。

3.1、空间自适应特征Mask

MGD利用随机像素恢复完整的特征图，MGD模型允许学生模型的Mask特征生成教师模型的特征。因此，它有利于学生网络获得更好的代表性。然而，由于MGD中的随机Mask，区域特异性的重要性被丢弃了。为了缓解这一缺陷，作者在空间注意力的帮助下仔细设计了区域感知特征Mask。

首先，计算了教师网络沿通道维度的绝对平均值：

简而言之，借助这种注意力引导的特征Mask，可以根据教师对应的重要兴趣区域Mask学生特征图，得到的特征将包含更重要的语义信息。

3.2、Channel adaptive clues generation

与图像分类等单目标识别任务不同，目标检测是一项专注于检测多个目标的密集预测任务。除了有效感受野（ERF）外，在不同尺度上捕获目标信息的能力也会给检测器带来显著的性能波动，这在之前的工作中没有考虑到。因此，利用一个简单而轻量级的SE层从教师特征中学习通道自适应通道。所得到的通道自适应通道将用于增强学生的特征，并进一步提高目标感知能力：

受益于这一设计，本文的模型进一步探索了目标感知潜力，从而显著改善了那些普通模型，即没有通道自适应设计的模型。更有趣的是，作者观察到AMD在检测小目标的情况下可以实现显著的mAP改进，证明了提出的方法的有效性。还提供了从不同蒸馏模型导出的特征图的可视化结果，如图3所示。可以很容易地观察到，AMD生成的目标特征比方法的目标特征更易于区分。

3.3、损失函数

基于所提出的蒸馏方法，作者还设计了以下AMD的蒸馏损失：

4、实验

4.1、对比实验

在消融研究中，进行了3组实验来评估不同的蒸馏方法，其中所涉及的3种流行的检测器。相应实验结果见表一。

在第一组实验中，RetinaNet被用作教师和学生的检测框架。相应的实验结果表明，本文的蒸馏方法通过报告41.3%的最高准确率，在mAP方面比基准学生网络提供了3.9%的显著性能提升。该结果始终优于最先进的方法FGD和MGD，分别为0.6%和0.3%，甚至超过了教师模型，达到了41.0%的mAP。

第二组的实验设置与第一组相似，只是RetinaNet框架被RepPoints取代。与第一组的结果一致，报道了mAP和mAR的显著性能提高4.1%和3.7%，并且还证明了与竞争蒸馏方法类似的性能优势。结果表明，本文的方法可以自适应地从教师那里学习更多重要信息，并对学生模型的改进做出了显著贡献。

为了进一步评估提出的方法的泛化能力，对教师和学生模型使用了不同的检测框架。具体而言，更强大的检测器Cascade Mask-RCNN用作教师网络，而Faster-RCNN用于学生模型。如表1所示，本文的方法将mAP中的基线学生模型从38.4%提高到42.4%，mAR中的基线模型从52.0%提高到55.8%，在mAP和mAR中均优于MGD 0.3%。这充分表明本文的方法独立于特定检测器，并在跨框架场景中显示出一致的优势。

4.3、消融实验

如表II所示，当RetinaNet用于教师和学生的检测框架时，探索了AMD模型中的两个主要模块，即空间自适应Mask（Ada Mask）和通道自适应通道生成（Ada channel）。据观察，包括Ada Mask和Ada Channel组件的完整AMD模型可获得最佳结果。此外，当移除任一组件时，性能明显下降，特别是在小目标检测场景中（0.3%↓ 不含Ada mask和0.5%↓ w/o Ada Channel）。这意味着AMD方法可以提高对密集预测任务至关重要的目标感知能力。

当将“RetinaNet”替换为“RepPoint”时，也可以得到类似的结果。如表3所示，Ada-Mask和ada-通道组件在AMD模型中都发挥着关键作用。具体来说，单个Ada-Mask模块报告的APS、APM和APL评分分别为24.4%、46.3%和56.0%。在额外的通道自适应通道的帮助下，各指标分别进一步提高了0.4%、0.2%和0.3%。

此外，还对交叉框架场景进行了消融研究。具体而言，Cascade Mask-RCNN用作教师网络，而Faster-RCNN用作学生对应网络。如表IV所示，完整的AMD模型实现了最高的精度。特别是，APS得分最高为24.1%，优于其他设置（无Ada Mask或Ada Channel）。这表明，AMD模型有利于小目标检测，提高了目标感知能力。

除了上述消融研究，还讨论了不同的代块对方法性能的影响。如表V所示，在RetinaNet框架内比较了3个不同的生成块。结果显示，先进的MBConv 报告的性能略差。相比之下，通过简单地叠加两个标准卷积层，就可以获得更好的结果。假设从教师网络中学习到的通道自适应通道与MBConv块不兼容，因为MBConv在一定程度上编码了学生模型中的通道信息。这种不兼容性是由于教师和学生网络之间的通道信息的差异造成的。

为了更深入地了解Ada通道模块对特征生成的影响，作者探索了以下两个案例，分别将Cascade Mask-RCNN和Faster-RCNN用作教师和学生。在第一种情况下，Ada通道遵循生成块，两个组件分别起作用。在另一种情况下，Ada Channel嵌入在生成块的两个连续卷积层中，这意味着两个模块是耦合的。如表VI所示，将这两种成分分离后，mAP提高了0.2%，这表明研究学生Mask特征的生成过程与其他通道（甚至是信息性线索）相排斥。

4.4、参数分析

在AMD方法中，方程4中的超参数控制特征Mask的覆盖范围。值越大，表示只有教师模型中注意力得分越高的点被Mask，并且大多数像素点位于目标特定的GT区域中。相反，当减小时，背景区域中可能会出现Mask点。在实验中，使用RepPoints作为检测框架来讨论的影响。从图4中可以观察到，当时，报告了最高的mAP 42.7%和mAR 58.8%，这表明这有助于模型更好地在编码低得分区域和高得分区域之间进行折衷。