Sparse RCNN再升级 | ResNet50在不需要NMS和二分匹配的情况下达到48.1AP - 极术社区

最近的端到端多目标检测器通过去除手工制作的过程来简化推理流程，例如使用非最大抑制 (NMS) 去除重复的边界框。然而，在训练中，它们需要二分匹配来计算检测器输出的损失。与端到端方法的方向性相反，二分匹配使得端到端检测器的训练变得复杂。
在本文中旨在提出一种无需二分匹配即可训练端到端多目标检测器的方法。为此，将端到端多目标检测视为使用混合模型的密度估计。提出了新的检测器，称为稀疏混合密度目标检测器(Sparse MDOD)，使用混合模型估计边界框的分布。
Sparse MDOD通过最小化负对数似然和最大分量最大化损失来训练检测器，该损失可以避免重复预测。在训练过程中，不需要额外的过程（如二分匹配）直接从网络输出计算损失。此外，Sparse MDOD在MS-COCO上也优于现有目标检测器。

1背景简介

大多数基于深度神经网络的传统多目标检测方法通过密集预测方案中的网络输出来获取各种候选边界框。然后，他们需要使用非最大抑制(NMS)获得表示对象的最终边界框，并删除候选对象中的重复项（图1左侧）。因此，这些检测器的性能高度依赖于使用NMS的后处理步骤。

图1

同时，一些工作侧重于减少多目标检测的手工设计组件。在这一研究方向中，Sparse RCNN、DETR等提出了端到端的多目标检测方法，可以直接预测一组边界框，而不依赖于NMS。这些端到端方法通过在推理时消除重复边界框(NMS)的删除步骤来缩减推理管道。

最近的端到端检测方法通过在网络输出（候选边界框）和GT之间通过二分匹配搜索唯一匹配来解决训练阶段的重复边界框问题（图1的中心），有效地移除了推理管道中重复边界框移除的步骤。在端到端方法中，检测性能不再依赖于使用NMS进行的后处理。

然而，与他们缩小推理管道的意图相反，他们在训练管道上没有做出足够的工作，并且仍然严重依赖二分匹配，这也是另一个可能阻碍整体训练的手工设计的组件。

图1说明了传统的基于NMS（左）和基于二分匹配的端到端（中心）检测器的训练和推理管道。在后一种情况下，检测器输出的N个GT边界框和K个候选边界框之间可能存在最多个可能的二分匹配。大多数以前的端到端方法都使用匈牙利方法来找到最佳的二分匹配。与GT匹配的检测器输出被分类为前景对象，并被训练为具有高置信度分数。

尽管端到端方法已经成功地消除了重复的边界框，但它们在训练期间仍然使用二分匹配，这使得学习变得复杂。除其他外，它对二分匹配的要求与端到端检测器的核心理念不符，即减少手工制作的组件并简化整个管道。

本文的目标是通过去除二分匹配步骤（图1右侧）来简化端到端多目标检测的训练流程。为此，提出了一种新颖的端到端多目标检测网络，称为稀疏混合密度目标检测器（Sparse MDOD）。

Sparse MDOD受混合密度目标检测器(MDOD)的启发，使用混合模型将边界框信息预测为统计分布的一种形式。混合模型由柯西分布和分类分布组成。这里，柯西分布和分类分布分别表示框坐标和类别概率。采用Sparse R-CNN作为Sparse MDOD的基线架构。此外，提出了最大分量最大化（MCM）损失，即基于混合模型的密度估计的正则化项，将Sparse MDOD训练为无需二分匹配的端到端多目标检测器。

本文的工作通过几个方面对以前的端到端方法进行了改进。在训练阶段Sparse MDOD通过只计算目标函数而不依赖二分匹配来训练。这与端到端检测方法的理念是一致的，即避免复杂的管道。Sparse MDOD可以以更简单的方式替代以前基于二分匹配的端到端多对象检测方法。此外，在代表性的多目标检测数据集MS-COCO上评估了Sparse MDOD，它优于基线Sparse R-CNN以及其他多目标检测器。Sparse MDOD在不使用二分匹配的情况下实现了SOTA检测性能。