全新高性能 FPN | ssFPN 教您如何修改 FPN 让大小目标在目标检测中都有提升！！！ - 极术社区

特征金字塔网络 (FPN) 一直是目标检测模型考虑目标的各种尺度的基本模块。但是，小目标的平均精度（AP）相对于中大目标的平均精度（AP）要低。原因是 CNN 的更深层特征会带来信息丢失。
作者提出了一种新的 FPN Scale Sequence() 特征提取方法，以加强小目标的特征信息。作者将 FPN 结构视为尺度空间，并在 FPN 的水平轴上通过 3D 卷积提取 Scale Sequence（）特征。基本上是一个尺度不变的特征，建立在小目标的高分辨率金字塔特征图上。此外，所提出的特征可以扩展到大多数基于 FPN 的目标检测模型。
作者证明了所提出的特征可以提高 MS COCO 数据集上的One-Stage和Two-Stage检测器的性能。基于提出的特征，分别为 YOLOv4-P5 和 YOLOv4-P6 实现了高达 1.3% 和 1.1% 的 AP 改进。对于 Faster RCNN 和 Mask R-CNN 特征分别提高了 2.0% 和 1.6% 的 AP。

简介

目标检测是计算机视觉中必不可少的一项基本任务。它已广泛应用于机器人视觉、自动驾驶和无人机系统（UAV）等应用中。在过去的几年中，基于卷积神经网络 (CNN) 的目标检测模型显著提高了检测的性能。然而，小目标检测仍然是一项具有挑战性的任务。通常，小目标上的平均精度（）相对低于中型目标（）和大目标上的平均精度（）。根据 MS COCO 定义，如果Segmentation Mask的区域小于 32×32 像素，则目标被归类为“小目标”。

图 1 显示了 MS COCO 数据集上小、中、大规模的目标尺度比例和 AP 的性能差距。可以看到小目标所占的比例最大。然而，小目标（）的平均精度是其他尺度中最低的。此外，红线显示了与其他量表的性能差距。

一个目标在自然图像中具有各种尺度，因此目标检测模型必须学习多尺度特征。为了处理多尺度、尺度不变的特征，在传统的计算机视觉中进行了研究。即使目标比例发生变化，也可以检测到尺度不变特征。如果模型学习尺度不变特征，则可以有效地解决小目标检测问题。

尺度空间是一种多尺度表示，通过高斯核的方差参数化以提取尺度不变特征。多尺度表示可以由不同分辨率的图像组成。另一方面，最近基于深度学习的目标检测模型已经使用特征金字塔网络（FPN）作为Neck模块来有效地处理多尺度目标。在检测head之前，根据它们的比例将它们分配到一个单独的金字塔层。例如，在低分辨率金字塔特征图中检测大目标，在高分辨率金字塔特征图中检测小目标。

为了提高 FPN 的性能，已经提出了基于 FPN 的模型来缓解每层金字塔特征图之间的语义差距。然而，大多数模型只是像拼接这样的融合操作。因此，他们无法充分考虑所有金字塔特征图的相关性。

当输入图像输入 CNN 时，FPN 由通过每个卷积层的输出特征图组成。金字塔特征图的分辨率在卷积过程中变得更小。这种 FPN 架构类似于 Scale-Space，FPN 的 level 轴可以被认为是 Scale 轴。因此，可以从 FPN 中提取尺度不变。这种方法也启发了FPN Scale Sequence()的诞生。

金字塔层级越高，图像尺寸越小，但语义信息越强。作者将FPN的水平轴视为序列的时间轴，并通过3D卷积提取时空特征。因此，尺度序列特征可以是尺度空间的独特特征，也是尺度不变特征。此外，所有的 FPN 特征图都可以使用3D卷积参与操作。它包括所有金字塔特征图之间的比例相关性。

与其他尺度相比，小目标问题的原因是 CNN 的深层导致信息丢失，如小目标特征和边界框的定位信息。对于小目标，作者设计了基于高分辨率金字塔特征图的尺度序列（）特征。通常，在高分辨率金字塔特征图中检测小目标。因此，作者将每个金字塔特征均等地调整为高分辨率特征图。具有扩展分辨率的金字塔特征图类似于高斯金字塔。它们被拼接到 4D 张量以进行 3D 卷积。这个特征可以被认为是动态头部中引用的一般视图。提取后，将设计的尺度序列（）特征拼接到高分辨率金字塔特征图上，用于检测小目标。

本文贡献有3方面：

提出了一种新的尺度序列() 特征，该特征是在 FPN 上通过 3D 卷积提取得到的。特征是 FPN 的尺度不变特征，被视为尺度空间。此外，所有金字塔特征图都参与了提取尺度序列特征的操作。
尺度序列特征可以提高小目标的AP以及其他尺度的 AP，因为它建立在高分辨率特征图上以增强小目标的特征。
尺度序列特征可以扩展到大多数基于FPN 的目标检测模型。作者试验了具有尺度序列特征的One-Stage和Two-Stage检测器。

所提方法

1、Scale Sequence Feature

在本节中介绍一个新特性：尺度序列（）。目标是找到 FPN 的尺度不变特征。尽管图像的大小发生了变化，但尺度不变特征并没有改变。

首先，解释传统计算机视觉中的尺度空间理论。尺度空间是沿着图像的尺度轴构建的。它代表的不是一个尺度，而是目标可以具有的各种尺度范围。空间是通过使用高斯滤波器模糊图像而不是直接调整图像大小来生成的。尺度空间如图 2(a) 所示。尺度参数值越大，生成的图像越模糊。在这个理论中，尺度意味着图像的细节。换句话说，模糊图像丢失了细节，但图像的结构特征突出。计算如下：

这里将特征金字塔网络（FPN）视为尺度空间。当输入图像输入 CNN 时，FPN 由通过每个卷积层的输出特征图组成。Low-level金字塔特征图具有高分辨率并且具有定位信息，尤其是对于小目标。另一方面，High-level金字塔特征图分辨率低，但语义特征丰富。

此属性类似于在比例轴上具有权衡信息的比例空间。因为基于这种结构，参考Dynamic head的一般视图，在调整它们相同的分辨率后与所有金字塔特征拼接。一般视图如图2(b)所示。它显示特征表示与水平轴不同。最后，从 FPN 的比例视图中提取了这个一般视图的独特特征。

FPN 的一个独特功能必须考虑所有一般视图特征图。作者的动机来自视频识别任务中的 3D 卷积。在这一领域，3D 卷积用于提取视频中的运动。图2(c)显示了时间轴上的视频帧。运动是帧的序列和空间信息。将一般视图的金字塔特征图视为视频帧，这就是为什么一般视图是卷积序列的原因。视频帧的时间轴可以认为是一般视图的水平轴。将一般视图的独特特征定义为尺度序列（）特征。它是在一般视图的水平轴上通过 3D 卷积提取的。该尺度序列特征是一般视图如运动的时空特征。此外，FPN 的所有金字塔特征图都有助于 3D 卷积操作。

因此，它可以包括跨特征金字塔的尺度相关性。它不同于其他基于 FPN 的特征融合方法，它们只是简单地在金字塔特征图之间求和和拼接。尺度序列（）特征的定义如下：

由于时间是帧的长度，它可以表示为一般视图的Level数。

2、Framework Based on Scale Sequence Module

在尺度序列模块中，尺度序列特征是基于设计的，因为在高分辨率特征图中检测到小目标。作者将所有金字塔特征图的大小调整为的分辨率。为了构建一个总体视图，使用 unsqueeze 函数为每个特征添加Level维度并将它们拼接起来。这个一般视图被输入到 3D 卷积块中。3D卷积块由3D卷积、3D批量归一化和Leaky ReLU激活函数组成。为了降低复杂度，采用了一个 3D 卷积块。对于小目标检测，将尺度序列（）特征和结合或一起用于检测Head。3D 卷积块的输出特征是通过在水平轴上平均池化 3D 来计算的。最后，尺度序列特征具有与相同的宽度、高度和通道。新的小目标检测Head具有相同的分辨率，但通道为：