南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题，即插即用真的很香 - 极术社区

多目标跟踪（Multi-Object Tracking，MOT）是计算机视觉领域中一项关键任务，旨在同时预测目标的边界框和身份。尽管最先进的方法通过共同优化检测和ReID特征学习的多任务问题取得了显著进展，但鲜有方法探索如何解决遮挡问题，这是MOT领域长期存在的挑战之一。
通常，被遮挡的目标可能会妨碍检测器估计边界框，导致轨迹出现断片。而且学习到的遮挡的ReID嵌入向量由于包含了干扰因素，所以区分度较低。为此，作者提出了一种面向多目标跟踪的遮挡感知检测和ReID校准网络，称为ORCTrack。
具体而言，作者在检测器中引入了一种遮挡感知注意力（Occlusion-Aware Attention，OAA）模块，它能够突出目标特征并抑制遮挡的背景区域。OAA可以作为一个调制器，增强对一些潜在被遮挡的目标的检测能力。此外，作者设计了一个基于最优传输问题的ReID嵌入匹配块，通过不同相邻帧的补充性增强和校准ReID表示。
为验证所提方法的有效性，作者在两个具有挑战性的VisDrone2021-MOT和KITTI基准测试数据集上进行了大量实验。实验结果表明，作者的方法优于其他方法，达到了最新的最优性能，并具有高运行效率。

1、简介

多目标跟踪是计算机视觉中的一项重要任务，旨在同时预测视频中多个目标的边界框和身份。它在视频监控分析、群体活动识别、自动驾驶等领域具有广泛的应用。

近年来，深度学习检测网络使得多目标跟踪取得了显著进展，现有的多目标跟踪方法大致可分为三种类型。

基于检测的跟踪方法，如SORT和ByteTrack ，尝试通过每帧中的边界框检测感兴趣的目标，然后仅使用运动特征将每个目标关联起来。这些方法忽略了外观特征（即Re-ID表示），可能导致一旦目标丢失，难以再次检测到它。

基于独立检测和嵌入的方法利用独立的目标检测器和特征提取器来结合运动和外观信息，从而在一定程度上缓解目标ID丢失的问题。但是，SDE方法的过程非常耗时，无法实现实时性能。

而基于联合检测和嵌入的框架则提出了使用共享模型同时执行目标检测和特征提取任务的方法，从而减少网络的冗余计算量，并实现实时性能。本文采用JDE结构网络来执行多目标跟踪，以在网络性能和速度之间取得平衡。

尽管现有的先进方法显示出了很大的竞争力，但其中很少有方法尝试解决遮挡问题，这是多目标跟踪中一个基本而具有挑战性的问题。

如图1(a)和(b)所示，在面对更复杂的场景时（例如道路上有更多行人和车辆，并且一些目标被遮挡），之前的方法无法准确估计目标的位置，从而导致目标的轨迹被分割。因此，作者认为遮挡感知的检测器和Re-ID特征提取器是跟踪的两个关键组成部分。

具体而言，如果检测器无法定位目标的边界框，后续的关联算法也将无法从与每个边界框相对应的图像区域中提取Re-ID特征。这将使网络无法创建与现有轨迹相关联的新轨迹。

其次，即使检测器足够强大以检测出一些潜在遮挡的目标，由于遮挡问题，Re-ID特征提取器可能无法捕捉到有用的特征。例如，提取器可能在同一目标的不同帧中注意到被遮挡区域和遮挡物特征，这将阻碍网络根据学习表示匹配和关联准确的目标ID。

基于上述分析，本文提出了一种针对多目标跟踪的遮挡感知检测和Re-ID校准网络，称为ORCTrack。具体而言，作者首先提出了一种遮挡感知注意力（OAA）模块，该模块可以插入到检测器中，利用整体表示的高阶统计特征来突出特征通道的空间细节。该模块负责强调前景可见目标区域，同时抑制被遮挡的背景区域。更一般地说，目标特征在通过分类和检测头进行评分之前会经过OAA模块的调制。

此外，作者设计了一个Re-ID嵌入匹配块来增强和校准学习表示。它利用两个不同帧来基于最优运输问题获得共现目标特征的全面Re-ID嵌入。通过采用所提出的技术，作者的方法可以更准确地检测潜在被遮挡的目标并进行跟踪，如图1(c)所示。

为了验证作者方法的有效性，作者在两个具有挑战性的基准数据集VisDrone2021-MOT和KITTI上进行了大量实验证明了作者提出的方法的优越性，作者可以达到新的最先进性能并实现实时跟踪。

作者论文的主要贡献如下：

作者通过实验证明在遮挡条件下对先前的多目标跟踪方法进行了调查。作者分析得出，遮挡感知检测器和Re-ID特征提取器对于跟踪至关重要。
作者引入了一个遮挡感知注意力（OAA）模块，在将目标特征输入分类和检测头之前，对其进行调节，这有助于网络检测更多潜在被遮挡的目标。此外，作者设计了一个Re-ID嵌入匹配块，通过优化不同帧中共现的目标，增强学习表示。
作者对两个具有挑战性的基准数据集进行了广泛的实验评估，结果显示作者提出的方法的有效性。它可以达到最新的最先进性能，并且具有很高的运行效率。

2、本文方法

2.1 总体架构

针对某一场景的视频序列，作者的目标是检测感兴趣的目标并通过分配身份来跟踪它们。为了实现这个目标，作者提出了一种遮挡感知检测和Re-ID校准网络，用于多目标跟踪，称为ORCTrack。如图2所示，包含共存目标的给定输入图像对首先通过作者提出的随机擦除算法转换为遮挡样本，这与其他方法（如简单地添加噪声或填充某种颜色）非常不同。

然后，它们被送入检测器中，其结构类似于FPN，以提取Fou层特征。接下来，将提取的特征经过OAA处理，产生遮挡感知特征Foa，然后通过3个Head进行分类、检测和Re-ID学习。为了提高嵌入，Re-ID特征通过互相之间的最佳匹配流进行补充增强。整个网络的总体架构类似于之前的JDE工作，使得作者的模型能够在精度和速度之间实现良好的平衡。

2.2 随机擦除

如图3（a）所示，在某些场景中，遮挡是不可避免的，包括目标被背景（例如树木、杆子和建筑物等）遮挡，以及被其他前景目标遮挡。

其中，后者已经通过当前的软非极大值抑制（Soft-NMS）策略有效解决，因此，作者在本文中重点研究背景遮挡的问题。使网络更加感知遮挡的一种直接方法是增加训练中的遮挡样本，这可以使网络对前景被遮挡物更敏感，同时排除背景遮挡物。一些先前的方法尝试通过添加噪声（图3（b））或填充颜色（图3（c））来擦除目标，然而，这类伪遮挡物与真实遮挡物之间仍存在很大差距。

为了解决这些缺点，作者提出了一种新的随机擦除策略，将原始数据增强为遮挡样本。具体而言，作者根据边界框随机裁剪背景区域，并将其粘贴到选定的前景目标上。这更符合真实的遮挡情况，遮挡物的模式是有意义的。

此外，作者在当前帧中随机选择一定比例的包含边界框的总目标进行遮挡。这保证了两个不同帧中的被遮挡目标不相同，这对于后续的Re-ID特征匹配是有用的。

此外，作者还考虑遮挡物的位置（即上、下、左、右位置）和大小，在每个训练时期中有不同的组合，这可以有效增加样本的多样性。作者提出的随机擦除算法的整个过程可以参考算法1。值得注意的是，作者还返回相应的掩码M，其中所有遮挡物的位置为零，这提供给OAA模块进行监督。

2.3 Re-ID Embedding Matching

请注意，和ν是约束匹配矩阵的两个值，以避免多对一的匹配。它们可以设定为均匀分布。然后，可以使用Sinkhorn-Knopp算法高效解决公式2中的最优传输问题，该算法可以得到两个特征之间相应区域的最优匹配流。

最后，作者通过将匹配流与两个初始源特征和目标特征进行相乘来重新加权。由于最优流在两个特征之间的共现区域具有较高的响应，这一步能够增强并校准模型，使其专注于更全面的Re-ID特征提取表示。

2.4 Network Training

作者的网络以端到端的方式进行训练，包含了3个用于学习的Head，分别是多类别识别、检测框回归和Re-ID嵌入学习。这样设计的网络能够同时学习多个任务，使得模型能够综合利用各种信息进行训练和推理。

对于多目标分类，作者采用二元交叉熵损失函数，如下所示：

其中，表示样本数量，表示真实标签，表示预测得分，σ表示函数。

对于检测框回归任务，作者采用CIOU损失，如下所示：

2.4 Data Association

数据关联是多目标跟踪的重要组成部分，其目的是将轨迹与检测框进行一对一匹配。在本文中，作者同时利用运动特征（即检测框）和外观特征（即Re-ID嵌入），然后基于这两种特征制定了一个数据关联算法。具体而言，在使用运动特征评估轨迹跟踪框与目标检测框之间的相似度时，作者采用IOU距离，表示为

其中表示跟踪框，表示检测框。对于外观特征度量，作者采用余弦距离来评估相似度，表示为

如算法2所描述的，作者首先使用基于卡尔曼滤波器的运动模型来预测当前帧中前一帧轨迹的跟踪框。在BtyeTrack的基础上，作者还设置了高分阈值和低分阈值，并将关联任务分为两个阶段。这样可以确保网络尽可能多地使用检测框进行匹配，避免目标ID的丢失。

随后，作者使用匈牙利算法首先根据特征向量和目标框来关联高分的目标和轨迹，然后根据目标框来关联低分的目标和轨迹。最后，作者收集成功跟踪的轨迹，并将无法匹配的高分目标重新初始化为新的轨迹，从而获得当前帧的轨迹集合。

3、实验

3.1 消融研究

在本节中，作者将在VisDrone2021-MOT数据集上进行几项消融研究，以探索作者提出的方法的每个组成部分。

（1）随机擦除的效果

作者提出的随机擦除算法与其他方法不同，因为在不同的训练轮次中，遮挡物的模式、位置和形状是不同的。表Ia显示了不同随机擦除方法之间的性能。这里，作者采用mAP50指标评估网络的目标检测能力。可以看出，作者提出的策略可以取得最佳性能，反映了它的有效性。

（2）OAA的效果

此外，作者还探索了提出的OAA模块的结构和有效性。具体而言，OAA中的注意力操作可以替换为SE注意力或使用一个简单的1×1标准卷积层。如表Ib所示，与其他替代方法相比，作者的OAA模块可以帮助网络更加关注潜在的遮挡物，并在检测中实现更高的mAP50。需要注意的是，OAA是轻量级的，带有较小的开销，可以很容易地插入到其他任意检测器中。

（3）跟踪的效果

如表Ic所示，作者比较了提出的OAA和Re-ID匹配模块与Baseline模型的效果。可以看出，每个模块都可以在不同程度上提升Baseline模型的跟踪性能。具体而言，提出的OAA模块帮助网络对潜在的遮挡物更加敏感，从而增加更多的检测结果。Re-ID校准模块使网络能够捕捉到更全面和稳健的Re-ID特征，从而提高IDF1分数并减少ID切换分数（IDs）。

通过结合这两个模块，网络可以进一步提升跟踪性能，验证了作者提出方法的有效性和优越性。图6展示了在遮挡情况下的一些检测和跟踪的定性结果。这也符合作者在第一节中的论述，即良好的遮挡感知检测器和稳健的Re-ID特征提取器是跟踪的两个重要组成部分。

（4）不同检测器的效果

为了研究作者提出的组件的普适性，作者使用了两个其他轻量级检测器，包括YOLOXs和YOLOX tiny。YOLOX是基于YOLOv5的改进的Anchor-Free模型。表Id显示，通过采用作者提出的OAA和Re-ID校准模块（称为全模型），所有三个检测器都可以获得不同程度的跟踪性能提升。

而Anchor-Base的YOLOV5s模型在性能上优于Anchor-Free的YOLOX模型。此外，由于在Re-ID模块中引入了匹配算法，与Baseline模型相比，使用3个不同的检测器的作者的方法的FPS有所下降。然而，尽管在速度上稍有损失，但在跟踪方面却取得了竞争力的提升，这是可以接受的。

（5）数据关联阈值的效果

一旦网络训练得当，数据关联对于跟踪非常重要。在这里，作者分析了作者数据关联算法2中不同阈值的效果。如图4所示，作者分别展示了MOTA和IDF1指标与初始化新轨迹得分阈值Sinit、高得分阈值Shigh以及低得分阈值Slow之间的曲线关系。为了在评估MOTA和IDF1之间取得平衡，最终作者设置了Sinit = 0.35，Shigh = 0.25和Slow = 0.05。

3.2 Comparison with State-of-the-arts

（1） VisDrone2021-MOT.

作者将作者的方法与现有的最先进方法进行了比较，包括基于典型DBT方法（SORT，ByteTrack），基于SDE的方法（如DeepSORT，MOTDT）以及最新的基于JDE的框架FairMOT。跟踪指标是基于每个类别的加权统计数据报告的。

如表II所示，通过使用基准模型，作者的方法在IDF1、MT、ML和FN指标方面已经可以与其他方法相比取得竞争力的表现。其中，基于SDE范式的DeepSORT和MOTDT的跟踪指标相对较高，但FPS较低。这是因为当跟踪目标数量很大时，基于SDE的模型会非常耗时，无法实现实时性能。基于DBT的模型SORT和ByteTrack 具有较高的FPS，但跟踪指标较差。这是因为它们没有使用外观特征进行Re-ID跟踪。作者的方法基于JDE范式，在跟踪性能上可以大幅优于类似的工作FairMOT。

此外，作者还使用相同的YOLOv5s检测器报告了其他方法的结果。可以看出，作者的框架仍然可以胜过它们，这验证了所提出的数据关联算法的有效性。当作者使用额外的COCO数据集预训练作者的方法并利用提出的全模块时，性能进一步提升。

总体而言，作者的方法可以在跟踪精度和速度之间取得良好的平衡，这是合理的。图7展示了使用作者的方法在VisDrone2021-MOT数据集上的一些定性可视化结果。

另外，作者还将提出的方法与已有的方法在KITTI基准测试上进行了比较。按照之前的方法的做法，作者对在额外数据集上预训练的KITTI模型进行了微调。如表III所示，作者的方法1也可以取得比其他方法更好的性能。图5展示了使用作者的方法在KITTI基准测试上的一些定性可视化结果。

4、参考

[1].Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking.

作者：AI视界引擎
文章来源：AI视界引擎

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题，即插即用真的很香