多目标跟踪 (MOT
) 的目标是检测和跟踪场景中的所有目标,同时为每个目标保留一个唯一标识符。在本文中提出了一种新的鲁棒跟踪器,它可以结合运动和外观信息的优点,以及相机运动补偿和更准确的卡尔曼滤波器状态向量。新跟踪器BoT-SORT
和BoT-SORT-ReID
在MOT17
和MOT20
测试集的MOTChallenge
数据集中排名第一,就所有主要的MOT
指标而言:MOTA
、IDF1
和HOTA
。对于MOT17
:实现了 80.5% MOTA、80.2% IDF1 和 65.0% HOTA。
1简介
多目标跟踪 (MOT) 旨在检测和估计视频流中多个目标的时空轨迹。MOT 是许多应用的基本问题,例如自动驾驶、视频监控等。
目前,Tracking-by-detection
成为 MOT
任务中最有效的范式。Tracking-by-detection
包含一个步骤检测步骤,然后是一个跟踪步骤。跟踪步骤通常由2个主要部分组成:
- 运动模型和状态估计,用于预测后续帧中轨迹的边界框。
卡尔曼滤波器
(KF) 是此任务的主流选择。 - 将新帧检测与当前轨迹集相关联。
对于步骤2:有2种主要的方法用于处理关联任务:
- 目标的定位,主要是预测轨迹边界框和检测边界框之间的IoU。
- 目标的外观模型和解决Re-ID任务。
这2种方法都被量化为距离,并用于将关联任务作为全局分配问题来解决。
最近的许多Tracking-by-detection
工作都基于对 SORT
、DeepSORT
和 JDE
方法的研究。作者认识到这些SORT-like
算法存在一些局限性,将在下面进行描述。
大多数SORT-like
算法采用卡尔曼滤波器
和恒速模型
假设作为运动模型。KF
用于预测下一帧中的 tracklet
边界框,以与检测边界框相关联,并用于在遮挡或未检测到的情况下预测 tracklet
状态。
与目标检测器驱动的检测相比,使用 KF
状态估计作为跟踪器的输出会导致边界框形状次优。最近的大多数方法都使用了经典跟踪器 DeepSORT
中提出的 KF
状态表征,它试图估计框的纵横比而不是宽度,这导致宽度大小估计不准确。
SORT-like
IoU-based
方法主要取决于 tracklet
的预测边界框的质量。因此,在许多复杂的场景中,预测边界框的正确位置可能会由于相机运动而失败,这导致2个相关边界框之间的重叠率低,最终导致跟踪器性能低下。作者通过采用传统的图像配准来估计相机运动,通过适当地校正卡尔曼滤波器来克服这个问题。这里将此称为相机运动补偿
(CMC
)。
在许多情况下,SORT-like
算法中的定位和外观信息(即重识别)会导致跟踪器的检测能力 (MOTA
) 和跟踪器随时间保持正确身份的能力 (IDF1
) 之间的权衡。使用 IoU
通常可以实现更好的 MOTA
,而 Re-ID
可以实现更高的 IDF1。
在这项工作中,我们提出了新的跟踪器,通过解决上述 SORT-like
的跟踪器的限制并将它们集成到 ByteTrack
中,新的跟踪器在 MOT17
和 MOT20
挑战的所有主要 MOT
指标(图 1)中都优于所有领先的跟踪器。
工作的主要贡献可以总结如下:
• 通过添加改进,例如基于相机运动补偿的特征跟踪器和合适的卡尔曼滤波器状态向量以实现更好的边界框定位,Tracking-by-detection
跟踪器的性能也可以得到显著的改进。
• 为 IoU
和 ReID
的余弦距离
融合提出了一种简单有效的方法,以便在检测和轨迹之间建立更强大的关联。
2BoT-SORT
在部分中,介绍了基于多目标跟踪的Tracking-by-detection
方法的3个主要修改和改进。通过将它们集成到著名的 ByteTrack
中,作者展示了2个新的最先进的跟踪器,BoT-SORT
和 BoT-SORT-ReID
。BoT-SORT-ReID
是包含ReID
模块的 BoT-SORT
扩展。算法的流程如图 2 所示。
图 2
2.1 Kalman Filter
在消融研究部分,通过实验表明,这些改进带来了更高的HOTA。严格来说,对HOTA整体改善的原因并不清楚。这里假设对KF的修改有助于提高边界框宽度对目标的拟合,如图3所示。
2.2 Camera Motion Compensation (CMC)
Tracking-by-detection
跟踪器严重依赖于预测轨迹的边界框和检测到的边界框之间的重叠。在动态相机情况下,图像平面中的边界框位置可能会发生显著变化,这可能会导致 ID 切换或假阴性增加,如图4所示。
图4
静态相机场景中的跟踪器也可能因振动或漂移引起的运动而受到影响,就像在 MOT20 中一样,在非常拥挤的场景中,ID 切换可能是一个真正的问题。视频中的运动模式可以概括为刚体运动,来自相机姿态的变化,以及物体的非刚体运动。由于缺乏关于相机运动的额外数据(例如导航、IMU 等)或相机内参,2个相邻帧之间的图像配准是相机刚性运动在图像平面上投影的良好近似。
仿射变换矩阵的平移部分只影响边界框的中心位置,而另一部分影响所有的状态向量和噪声矩阵。相机运动校正步骤可以通过以下等式执行:
在高速的情况下,状态向量的完全修正,包括速度项是必要的。当相机与帧率相比变化缓慢时,校正值为等式8可以省略。通过应用这种方法,跟踪器对相机的运动具有较好鲁棒性。
在对刚性相机运动进行补偿之后,并在一个物体的位置从一帧到下一帧仅略有变化的假设下。在在线高帧率应用中,当出现漏检情况时,可以使用KF的预测步骤进行轨迹外推。这可能会导致更高的MOTA轨道更连续的关注。
2.3 IoU-Re-ID Fusion
作者开发了一种结合运动和外观信息的新方法,即 IoU
距离矩阵和余弦距离矩阵。首先,就 IoU
的分数而言,低余弦相似度或距离较远的候选者会被拒绝。然后,使用矩阵的每个元素中的最小值作为Cost矩阵 C 的最终值。IoU-ReID
融合管道可以表述如下:
3实验
3.1 消融实验
3.2 SOTA对比
原文:集智书童
作者:ChaucerG
推荐阅读
- Inception 新结构 | 究竟卷积与Transformer如何结合才是最优的?
- 用Res2Net思想和动态kernel-size再设计 ViT,超越MobileViT
- 源于 PvT又高于PvT,解决小目标问题的ViT方法
更多嵌入式AI相关技术干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。