TPN: FPN的变革者，你所用检测器的Neck该更新了

arXiv:2110.04004

Abstract

特征金字塔已成为多尺度CV任务(比如目标检测)中普遍存在的模块。考虑到其重要性，我们将CV模型分为三个部分：

backbone: 用于生成特征金字塔
core：用于对特征金字塔进行提炼
head：用于生成最终的输出

现有对特征金字塔进行处理方案往往比较浅，往往聚焦于top-down或者bottom-up方式通讯处理 (communication-based processing)。本文提出一种新的新的架构TPN(Trident Pyramid Network)，它可以进行更深设计，同时在通讯处理与字处理之间具有更好的均衡。

当在COCO检测任务上使用TPN时可以看到一致性性能提升，以1.5AP指标优于BiFPN基线 。此外，我们发现：当为TPN添加更多计算量(而非Backbone)时，ResNet50+TPN以1.7AP指标超过约了ResNet101+FPN ，同时两者具有相当的计算复杂度。

接下来，我们将主要聚焦于如何对上述操作进行最佳组合。采用这些通用模块，我们可以对主流的FPN与PANet进行重设计，见上图。注：上图仅为FPN与PANet架构的核心结构示意图，移除了transition部分操作。从上图我们可以看到两点：

最后，我们组合上述讨论得到了本文的TPN，见下图，它包含top-down、self-processing以及bottom-up等操作。

以上面的Figure4图示的TPN为例，它在两边进行基于comminication的top-down与bottom-up处理，在中间进行基于content的self-processing处理。可能有人会问：communication与content之间如何进行最佳均衡呢 ？

首先，我们来看一下self-processing操作。我们将其定义为上图形式。其中Bottleneck层的数量B决定了TPN中self-processing的数量。

然后，每个TPN层包含一个top-down、一个bottom-up，TPN层的数量L决定了TPN中的communication-processing的数量。因此，通过改变B和L，我们可以对两者进行均衡。

一般来讲，top-down与bottom-up操作通过额外的特征对当前特征进行更新，要么更低分辨率，要么更高分辨率。上图给出了本文关于top-down与bottom-up的实现：

在实验方面，训练数据集为MS-COCO，基线模型为一阶段检测器RetinaNet。其他训练细节与超参建议查看原文，这里略过。

上图给出了对标的FPN改进版示意图，前者加深了backbone，后者加深了head部分，这种改进版是为了确保计算量的相当。

上表给出了不同TPN配置的性能对比，从中可以看到：

四种不同的TPN架构的性能非常相近，均在413-41.8AP之间。更大的L参数要比更大的B参数带来稍高的性能，这说明：两者之间的均衡更强于communication-processing，但是当完全移除content-processing后，TPN退化为PANet架构，性能大幅下降到38.8；
对比TPN与PANet以及BiFPN，我们可以看到：TPN架构以1.0-1.5AP指标显著优于BiFPN 。
对比TPN与bFPN以及hFPN，我们可以看到：TPN表现最佳 。比如，ResNet50+TPN组合以1.7AP指标优于ResNet101-FPN ，而ResNet101-FPN具有与ResNet+hFPN、ResNet50+bFPN相当的性能。

总而言之，TPN不仅优于PANet以及BiFPN等知名结果，同时优于重backbone基线与重head基线。