最近的端到端多目标检测器通过去除手工制作的过程来简化推理流程,例如使用非最大抑制 (NMS) 去除重复的边界框。然而,在训练中,它们需要二分匹配来计算检测器输出的损失。与端到端方法的方向性相反,二分匹配使得端到端检测器的训练变得复杂。
在本文中旨在提出一种无需二分匹配即可训练端到端多目标检测器的方法。为此,将端到端多目标检测视为使用混合模型的密度估计。提出了新的检测器,称为稀疏混合密度目标检测器(
Sparse MDOD
),使用混合模型估计边界框的分布。
Sparse MDOD
通过最小化负对数似然和最大分量最大化损失来训练检测器,该损失可以避免重复预测。在训练过程中,不需要额外的过程(如二分匹配)直接从网络输出计算损失。此外,Sparse MDOD
在MS-COCO上也优于现有目标检测器。
1背景简介
大多数基于深度神经网络的传统多目标检测方法通过密集预测方案中的网络输出来获取各种候选边界框。然后,他们需要使用非最大抑制(NMS)获得表示对象的最终边界框,并删除候选对象中的重复项(图1左侧)。因此,这些检测器的性能高度依赖于使用NMS的后处理步骤。
图1
同时,一些工作侧重于减少多目标检测的手工设计组件。在这一研究方向中,Sparse RCNN、DETR等提出了端到端的多目标检测方法,可以直接预测一组边界框,而不依赖于NMS。这些端到端方法通过在推理时消除重复边界框(NMS)的删除步骤来缩减推理管道。
最近的端到端检测方法通过在网络输出(候选边界框)和GT之间通过二分匹配搜索唯一匹配来解决训练阶段的重复边界框问题(图1的中心),有效地移除了推理管道中重复边界框移除的步骤。在端到端方法中,检测性能不再依赖于使用NMS进行的后处理。
然而,与他们缩小推理管道的意图相反,他们在训练管道上没有做出足够的工作,并且仍然严重依赖二分匹配,这也是另一个可能阻碍整体训练的手工设计的组件。
图1说明了传统的基于NMS(左)和基于二分匹配的端到端(中心)检测器的训练和推理管道。在后一种情况下,检测器输出的N个GT边界框和K个候选边界框之间可能存在最多个可能的二分匹配。大多数以前的端到端方法都使用匈牙利方法来找到最佳的二分匹配。与GT匹配的检测器输出被分类为前景对象,并被训练为具有高置信度分数。
尽管端到端方法已经成功地消除了重复的边界框,但它们在训练期间仍然使用二分匹配,这使得学习变得复杂。除其他外,它对二分匹配的要求与端到端检测器的核心理念不符,即减少手工制作的组件并简化整个管道。
本文的目标是通过去除二分匹配步骤(图1右侧)来简化端到端多目标检测的训练流程。为此,提出了一种新颖的端到端多目标检测网络,称为稀疏混合密度目标检测器(Sparse MDOD
)。
Sparse MDOD
受混合密度目标检测器(MDOD)的启发,使用混合模型将边界框信息预测为统计分布的一种形式。混合模型由柯西分布
和分类分布
组成。这里,柯西分布
和分类分布
分别表示框坐标和类别概率。采用Sparse R-CNN
作为Sparse MDOD
的基线架构。此外,提出了最大分量最大化(MCM)损失,即基于混合模型的密度估计的正则化项,将Sparse MDOD
训练为无需二分匹配的端到端多目标检测器。
本文的工作通过几个方面对以前的端到端方法进行了改进。在训练阶段Sparse MDOD
通过只计算目标函数而不依赖二分匹配来训练。这与端到端检测方法的理念是一致的,即避免复杂的管道。Sparse MDOD
可以以更简单的方式替代以前基于二分匹配的端到端多对象检测方法。此外,在代表性的多目标检测数据集MS-COCO上评估了Sparse MDOD
,它优于基线Sparse R-CNN
以及其他多目标检测器。Sparse MDOD
在不使用二分匹配的情况下实现了SOTA检测性能。
2Sparse Mixture Density Object Detector
2.1 Mixture model
遵循了MDOD
中使用的混合模型的设计,混合模型由2种类型的概率分布组成:柯西(连续)分布
和分类(离散)分布
。
柯西分布是一个连续的概率分布,其形状类似的高斯分布。然而,它的尾部比高斯分布更重,并且由于浮点精度,它不太可能产生下流问题。这里使用4维柯西来表示物体的位置坐标的分布。
此外,分类分布被用来估计对象的类表示的类概率。
混合模型的概率密度函数定义如下:
这里,k是K个混合组分的指标,相应的混合系数用表示。F和P分别表示柯西分布的概率密度函数和分类分布的概率质量函数。
在这里,d是边界框坐标d的集合中的一个元素。
2.2 Sparse MDOD架构
对于Sparse MDOD
,采用了Sparse R-CNN
的整体架构及其网络特性,例如可学习的建议框、动态头部和多阶段结构。
图2
2.3 推理
与其他端到端多目标检测器的方式相同,Sparse MDOD
也可以在没有任何后处理(如NMS)过程的情况下获得最终预测。
2.4 训练
Sparse MDOD
被训练以通过混合模型最大化输入图像X的g似然性。损失函数被简单地定义为概率密度函数的负对数似然(NLL)如下:
在这里,需要考虑NLL损失并不限制单一GT的多个混合分量之间的分布冗余。这个问题可能导致预测的边界框的重复,以及一个物体的概率分散到几个混合成分。因此,引入了最大分量最大化(MCM)损失,这是混合模型的密度估计的正则化项:
其中 β 用于调整NLL和MCM损失之间的平衡。为Sparse MDOD
的所有阶段计算总损失(L),然后将它们相加并反向传播。计算总损失不需要任何额外的过程,例如二分匹配。
3实验
有无NMS的结果
可以看到,使用本文的方法,有没有NMS影响微乎其微。
与Sparse RCNN对比
SOTA结果
可视化结果
原文:集智书童
作者:ChaucerG
推荐阅读
- 字节用4大准则教你设计一个拥有CNN的速度,Transformer精度的模型!
- DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作
- EWGS:基于(element-wise)元素级梯度缩放的网络量化
更多嵌入式AI相关技术干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。