BoT-SORT ｜超越 DeepSORT、StrongSORT++ 和 ByteTrack

多目标跟踪 (MOT) 的目标是检测和跟踪场景中的所有目标，同时为每个目标保留一个唯一标识符。在本文中提出了一种新的鲁棒跟踪器，它可以结合运动和外观信息的优点，以及相机运动补偿和更准确的卡尔曼滤波器状态向量。新跟踪器 BoT-SORT 和 BoT-SORT-ReID 在 MOT17 和 MOT20 测试集的 MOTChallenge 数据集中排名第一，就所有主要的 MOT 指标而言：MOTA、IDF1 和 HOTA。对于 MOT17：实现了 80.5% MOTA、80.2% IDF1 和 65.0% HOTA。

1简介

多目标跟踪 (MOT) 旨在检测和估计视频流中多个目标的时空轨迹。MOT 是许多应用的基本问题，例如自动驾驶、视频监控等。

目前，Tracking-by-detection成为 MOT 任务中最有效的范式。Tracking-by-detection包含一个步骤检测步骤，然后是一个跟踪步骤。跟踪步骤通常由2个主要部分组成：

运动模型和状态估计，用于预测后续帧中轨迹的边界框。卡尔曼滤波器 (KF) 是此任务的主流选择。
将新帧检测与当前轨迹集相关联。

对于步骤2：有2种主要的方法用于处理关联任务：

目标的定位，主要是预测轨迹边界框和检测边界框之间的IoU。
目标的外观模型和解决Re-ID任务。

这2种方法都被量化为距离，并用于将关联任务作为全局分配问题来解决。

最近的许多Tracking-by-detection工作都基于对 SORT、DeepSORT 和 JDE 方法的研究。作者认识到这些SORT-like算法存在一些局限性，将在下面进行描述。

大多数SORT-like算法采用卡尔曼滤波器和恒速模型假设作为运动模型。KF 用于预测下一帧中的 tracklet 边界框，以与检测边界框相关联，并用于在遮挡或未检测到的情况下预测 tracklet 状态。

与目标检测器驱动的检测相比，使用 KF 状态估计作为跟踪器的输出会导致边界框形状次优。最近的大多数方法都使用了经典跟踪器 DeepSORT 中提出的 KF 状态表征，它试图估计框的纵横比而不是宽度，这导致宽度大小估计不准确。

SORT-like IoU-based 方法主要取决于 tracklet 的预测边界框的质量。因此，在许多复杂的场景中，预测边界框的正确位置可能会由于相机运动而失败，这导致2个相关边界框之间的重叠率低，最终导致跟踪器性能低下。作者通过采用传统的图像配准来估计相机运动，通过适当地校正卡尔曼滤波器来克服这个问题。这里将此称为相机运动补偿（CMC）。

在许多情况下，SORT-like 算法中的定位和外观信息（即重识别）会导致跟踪器的检测能力 (MOTA) 和跟踪器随时间保持正确身份的能力 (IDF1) 之间的权衡。使用 IoU 通常可以实现更好的 MOTA，而 Re-ID 可以实现更高的 IDF1。

在这项工作中，我们提出了新的跟踪器，通过解决上述 SORT-like 的跟踪器的限制并将它们集成到 ByteTrack 中，新的跟踪器在 MOT17 和 MOT20 挑战的所有主要 MOT 指标（图 1）中都优于所有领先的跟踪器。

工作的主要贡献可以总结如下：

• 通过添加改进，例如基于相机运动补偿的特征跟踪器和合适的卡尔曼滤波器状态向量以实现更好的边界框定位，Tracking-by-detection跟踪器的性能也可以得到显著的改进。

• 为 IoU 和 ReID 的余弦距离融合提出了一种简单有效的方法，以便在检测和轨迹之间建立更强大的关联。

2BoT-SORT

在部分中，介绍了基于多目标跟踪的Tracking-by-detection方法的3个主要修改和改进。通过将它们集成到著名的 ByteTrack 中，作者展示了2个新的最先进的跟踪器，BoT-SORT 和 BoT-SORT-ReID。BoT-SORT-ReID 是包含ReID模块的 BoT-SORT 扩展。算法的流程如图 2 所示。

图 2

2.1 Kalman Filter

在消融研究部分，通过实验表明，这些改进带来了更高的HOTA。严格来说，对HOTA整体改善的原因并不清楚。这里假设对KF的修改有助于提高边界框宽度对目标的拟合，如图3所示。

2.2 Camera Motion Compensation (CMC)

Tracking-by-detection 跟踪器严重依赖于预测轨迹的边界框和检测到的边界框之间的重叠。在动态相机情况下，图像平面中的边界框位置可能会发生显著变化，这可能会导致 ID 切换或假阴性增加，如图4所示。

图4

静态相机场景中的跟踪器也可能因振动或漂移引起的运动而受到影响，就像在 MOT20 中一样，在非常拥挤的场景中，ID 切换可能是一个真正的问题。视频中的运动模式可以概括为刚体运动，来自相机姿态的变化，以及物体的非刚体运动。由于缺乏关于相机运动的额外数据（例如导航、IMU 等）或相机内参，2个相邻帧之间的图像配准是相机刚性运动在图像平面上投影的良好近似。