AI学习者 · 2022年05月24日

Sparse RCNN再升级 | ResNet50在不需要NMS和二分匹配的情况下达到48.1AP

bbed77ce2deb2caa0163fdad9a055d7f.png

最近的端到端多目标检测器通过去除手工制作的过程来简化推理流程,例如使用非最大抑制 (NMS) 去除重复的边界框。然而,在训练中,它们需要二分匹配来计算检测器输出的损失。与端到端方法的方向性相反,二分匹配使得端到端检测器的训练变得复杂。

在本文中旨在提出一种无需二分匹配即可训练端到端多目标检测器的方法。为此,将端到端多目标检测视为使用混合模型的密度估计。提出了新的检测器,称为稀疏混合密度目标检测器(Sparse MDOD),使用混合模型估计边界框的分布。

Sparse MDOD通过最小化负对数似然和最大分量最大化损失来训练检测器,该损失可以避免重复预测。在训练过程中,不需要额外的过程(如二分匹配)直接从网络输出计算损失。此外,Sparse MDOD在MS-COCO上也优于现有目标检测器。

1背景简介

大多数基于深度神经网络的传统多目标检测方法通过密集预测方案中的网络输出来获取各种候选边界框。然后,他们需要使用非最大抑制(NMS)获得表示对象的最终边界框,并删除候选对象中的重复项(图1左侧)。因此,这些检测器的性能高度依赖于使用NMS的后处理步骤。

Image

图1

同时,一些工作侧重于减少多目标检测的手工设计组件。在这一研究方向中,Sparse RCNN、DETR等提出了端到端的多目标检测方法,可以直接预测一组边界框,而不依赖于NMS。这些端到端方法通过在推理时消除重复边界框(NMS)的删除步骤来缩减推理管道。

最近的端到端检测方法通过在网络输出(候选边界框)和GT之间通过二分匹配搜索唯一匹配来解决训练阶段的重复边界框问题(图1的中心),有效地移除了推理管道中重复边界框移除的步骤。在端到端方法中,检测性能不再依赖于使用NMS进行的后处理。

然而,与他们缩小推理管道的意图相反,他们在训练管道上没有做出足够的工作,并且仍然严重依赖二分匹配,这也是另一个可能阻碍整体训练的手工设计的组件。

图1说明了传统的基于NMS(左)和基于二分匹配的端到端(中心)检测器的训练和推理管道。在后一种情况下,检测器输出的N个GT边界框和K个候选边界框之间可能存在最多个可能的二分匹配。大多数以前的端到端方法都使用匈牙利方法来找到最佳的二分匹配。与GT匹配的检测器输出被分类为前景对象,并被训练为具有高置信度分数。

尽管端到端方法已经成功地消除了重复的边界框,但它们在训练期间仍然使用二分匹配,这使得学习变得复杂。除其他外,它对二分匹配的要求与端到端检测器的核心理念不符,即减少手工制作的组件并简化整个管道。

本文的目标是通过去除二分匹配步骤(图1右侧)来简化端到端多目标检测的训练流程。为此,提出了一种新颖的端到端多目标检测网络,称为稀疏混合密度目标检测器(Sparse MDOD)。

Sparse MDOD受混合密度目标检测器(MDOD)的启发,使用混合模型将边界框信息预测为统计分布的一种形式。混合模型由柯西分布分类分布组成。这里,柯西分布分类分布分别表示框坐标和类别概率。采用Sparse R-CNN作为Sparse MDOD的基线架构。此外,提出了最大分量最大化(MCM)损失,即基于混合模型的密度估计的正则化项,将Sparse MDOD训练为无需二分匹配的端到端多目标检测器。

本文的工作通过几个方面对以前的端到端方法进行了改进。在训练阶段Sparse MDOD通过只计算目标函数而不依赖二分匹配来训练。这与端到端检测方法的理念是一致的,即避免复杂的管道。Sparse MDOD可以以更简单的方式替代以前基于二分匹配的端到端多对象检测方法。此外,在代表性的多目标检测数据集MS-COCO上评估了Sparse MDOD,它优于基线Sparse R-CNN以及其他多目标检测器。Sparse MDOD在不使用二分匹配的情况下实现了SOTA检测性能。

2Sparse Mixture Density Object Detector

2.1 Mixture model

1653364571(1).png

遵循了MDOD中使用的混合模型的设计,混合模型由2种类型的概率分布组成:柯西(连续)分布分类(离散)分布

柯西分布是一个连续的概率分布,其形状类似的高斯分布。然而,它的尾部比高斯分布更重,并且由于浮点精度,它不太可能产生下流问题。这里使用4维柯西来表示物体的位置坐标的分布。

36da1cdde571ef87fdefd1278328f66c.png

此外,分类分布被用来估计对象的类表示的类概率。

混合模型的概率密度函数定义如下:

920b6e2f8110901a005ccac59570eaa4.png

这里,k是K个混合组分的指标,相应的混合系数用表示。F和P分别表示柯西分布的概率密度函数和分类分布的概率质量函数。

1653364601(1).png

在这里,d是边界框坐标d的集合中的一个元素。

2.2 Sparse MDOD架构

对于Sparse MDOD,采用了Sparse R-CNN的整体架构及其网络特性,例如可学习的建议框、动态头部和多阶段结构。

9879e6dc0ede498fb86ec290b063b366.png

图2

1653364778(1).png

1653364805(1).png

2.3 推理

1653364928(1).png

与其他端到端多目标检测器的方式相同,Sparse MDOD也可以在没有任何后处理(如NMS)过程的情况下获得最终预测。

2.4 训练

Sparse MDOD被训练以通过混合模型最大化输入图像X的g似然性。损失函数被简单地定义为概率密度函数的负对数似然(NLL)如下:

1653364982(1).png

在这里,需要考虑NLL损失并不限制单一GT的多个混合分量之间的分布冗余。这个问题可能导致预测的边界框的重复,以及一个物体的概率分散到几个混合成分。因此,引入了最大分量最大化(MCM)损失,这是混合模型的密度估计的正则化项:

1653365009(1).png44680ece8be699db780cef58824b50d0.png

其中 β 用于调整NLL和MCM损失之间的平衡。为Sparse MDOD的所有阶段计算总损失(L),然后将它们相加并反向传播。计算总损失不需要任何额外的过程,例如二分匹配。

3实验

有无NMS的结果

e231b9e3f30b898a7a48c0dc6591605d.png

可以看到,使用本文的方法,有没有NMS影响微乎其微。

与Sparse RCNN对比

b7c473074ad16c5f65bb6862fe3d06b2.png

SOTA结果

7df19a44d1c2d18a7cd090199888643a.png

可视化结果

b0d0ee25a57a54a57d282b9854648bb6.png

原文:集智书童
作者:ChaucerG

推荐阅读

更多嵌入式AI相关技术干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
18758
内容数
1316
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息