SSD没有错付 | SSD改进版本来啦！PSSD携实时性与高精度归来！ - 极术社区

背景和目标：深度学习在各种任务中表现出色。其中，单阶段目标检测器（SSD）主要依靠分类网络来提取特征，多个特征图来预测，以及分类置信度来指导对重叠预测框的过滤。然而，仍有两个问题导致一些不准确的结果：
在特征提取过程中，随着语义信息的逐层获取，局部信息逐渐丢失，导致具有代表性的特征图较少；
在非最大抑制（NMS）算法中，由于分类和回归任务的不一致性，分类置信度和预测检测位置不能准确指示预测框的位置。
方法：为了解决上述问题本文提出了一种新的架构，即SSD的改进版本，称为精确单阶段检测器（PSSD）。首先，通过向SSD添加额外的层来改进特征。其次，构造了一个简单有效的特征增强模块，以逐步扩展每一层的感受野，并增强其局部和语义信息。最后，设计了一个更有效的损失函数来预测预测框和GT框之间的IOU，阈值IOU指导分类训练并衰减NMS算法使用的分数。
主要结果：得益于上述优化，所提出的模型PSSD实现了令人兴奋的实时性能。具体而言，使用Titan Xp的硬件和320像素的输入大小，PSSD在MS COCO基准测试中以45 FPS的速度达到33.8 mAP，在Pascal VOC 2007中以66 FPS的速率达到81.28 mAP。
此外，所提出的模型在较大的输入量下表现良好。在512像素下，PSSD可以在MS COCO上以27 FPS获得37.2 mAP，在Pascal VOC 2007上以40 FPS获得82.82 mAP。

1、简介

近年来，深度学习算法已成为一种强大的工具，可以自动捕获非线性和分层特征，并在各种应用中取得了巨大成功，尤其是在图像领域，如分类、分割、检测等。此外，它还扩展到了不同的分类任务，包括音频分类、文本分类、各种信号分类、多模态对象分类、事件检测和各种其他应用。其中，目标检测一直是绝大多数研究人员的兴趣。

为此，有各种算法，如YOLO、Fast RCNN、Faster RCNN等，多年来已成功用于目标检测。在过去几十年中，用于目标检测的深度学习算法得到了极大的关注。目标检测旨在从自然图像中的大量预定义类别中定位目标实例，是计算机视觉中最基本和最具挑战性的问题之一。

随着CNN的快速发展，目标检测取得了令人瞩目的进展，并逐渐演变为两阶段和单阶段两种主要结构。两阶段算法，如快速递归神经网络（FRCNN），其中第一阶段仅区分大量背景区域，并在不考虑目标的特定类别的情况下获得粗糙目标proposals。接下来是第二阶段，根据从CNN网络提取的特征对每个proposals进行分类并优化位置。

由于存在第二阶段进行的细化，两阶段算法无法实现实时性能。因此，由于实时检测，单阶段算法已成为各种目标检测应用的主要优先事项，因此，这是当前工作的特别兴趣。单阶段算法基于默认框直接执行分类和位置优化。例如，You Look Only Once（YOLO）和SSD实现了快速的实时检测速度，但同时牺牲了检测精度。近年来，单阶段检测器正在提高其精度，但仍然无法在速度和精度之间取得更好的平衡。

在本文中，在保证模型实时性能的前提下，在原始SSD的基础上提出了一种新的架构，称为精确单阶段检测器（PSSD），该架构为以下两个关键问题提供了解决方案：

如何在不依赖像ResNet-101这样的模型深层骨干的情况下，丰富预测器使用的特征信息？
在NMS算法的过程中，依靠分类置信度来确定重叠框的过滤是否合理？

1.1、Feature richness

考虑到图像金字塔造成的巨大开销，SSD提出了一种特征金字塔来解决多尺度检测问题。分类网络中的深层特征包含更多的语义信息，适合识别大目标，而浅层特征更适合识别小目标。然而，浅层特征中缺少语义信息以及深层特征中局部细节的丢失会降低SSD的精度。特征金字塔网络（FPN）能够将深度语义信息添加到浅层特征中，以获得更有效的特征金字塔，这提高了小目标检测的效果。

DetNet结合了空洞卷积，通过减少下采样步长来减少局部信息损失，从而提高大目标的定位精度。从上述网络可以看出，每个尺度预测器中使用的特征不仅需要合适的语义信息，还需要局部纹理信息，以实现更准确的定位。每个层次特征的信息丰富度对检测效果有重要影响。但问题是如何以尽可能少的开销构建一个高性能的特征金字塔。

1.2、Filtration of overlapping boxes

通常，为了防止结果重叠，将NMS设置为目标检测的最终操作。在NMS算法中，当两者之间的IOU大于阈值时，保留具有最高分类置信度的预测框，并过滤其他框。如图1所示，这可能导致不准确的结果。IOUNet指导NMS通过预测回归框和它们的GT之间的IOU来缓解这个问题。在此，关键问题出现了——如何使其在单阶段算法中更有效？

1.3、贡献

为了提高检测效果，作者基于SSD模型缓解了上述问题。首先，通过在SSD中引入额外的层来改进特征，使基本特征金字塔更适合于特征融合。其次，将这些特征发送到特征增强模块（FEM）。FEM由两个子模块组成，即感受野扩展模块（RFM）和双向FPN。RFM用于逐步扩展每个特征的感受野，双向FPN用于补充更多的局部和语义信息。最后，设计了一个新的损失函数来预测回归框和它们的GT之间的IOU。然后使用IOU标签来指导分类训练，以提高分类和回归任务的一致性，并使用预测IOU来指导推理，以衰减低质量框的得分。

作者也已经在MS COCO和Pascal VOC基准上验证了本文所提的方法。在输入尺寸为320像素的Titan Xp硬件下，所提出的PSSD可以在COC上以45 FPS获得33.8 mAP，在Pascal VOC 2007上以66 FPS获得81.28 mAP。此外，模型在较大的输入量下也表现得非常好。在512像素下，PSSD可以在MS COCO上以27 FPS获得37.2 mAP，在Pascal VOC 2007上以40 FPS获得82.82 mAP。