Strong-Baseline架构，无特征增强问鼎反无人机挑战赛

导读

检测和跟踪多个无人机（UAV）在热红外视频中的任务由于对比度低、环境噪声和目标尺寸小而具有内在的挑战性。本文提供了一种简单的方法来解决热红外视频中的多无人机跟踪问题，利用了检测和跟踪领域的最新进展。作者不是依赖于 YOLOv5 与 DeepSORT 流程，而是提出了一种基于 YOLOv12 和 BoT-SORT 的跟踪框架，并通过定制化的训练和推理策略进行了增强。作者按照第 4 届反无人机挑战赛的指标对 Strong-Baseline 进行了评估，并展示了具有竞争力的性能。

值得注意的是，作者没有使用对比度增强或时间信息融合来丰富无人机特征，从而实现了优异的结果，突显了 Strong-Baseline 作为多无人机跟踪任务的“强 Baseline ”。作者提供了实现细节、深入的实验分析和潜在改进的讨论。

代码：https://github.com/wish44165/...

1. 引言

多无人机跟踪近年来已成为一项关键应用，这得益于硬件、检测模型和跟踪算法的显著进步。随着配备复杂视觉系统和先进控制动态的无人机不断增多，如[29]中所述，一系列基于无人机的产品被引入市场。然而，这些创新也带来了新的挑战，尤其是在跟踪无人机集群方面。由于安全担忧日益加剧以及未经授权的无人机带来的威胁不断上升，有效集群跟踪的需求变得日益迫切。为了解决这些挑战并推进跟踪和检测任务，已经开发了各种与无人机相关的数据集。这些数据集包括轨迹重建数据集，如[14, 21]中的数据集，它们提供了从单视角或多视角摄像机捕获的无人机轨迹，以及[3]中引入的基于轨迹的无人机数据集。此外，基于 RGB 的影像数据集，包括[20, 30, 32, 34]中的数据集，已被广泛使用。在这些数据集中，[13, 17]中基于热红外视频的无人机数据集，涵盖了单目标跟踪（SOT）和多目标跟踪（MOT）场景，受到了极大的关注，尤其是在主要的挑战活动中。这些数据集在提高无人机跟踪和检测能力方面发挥了关键作用。

热红外视频相较于传统的 RGB 图像具有优势，例如在低光和恶劣天气条件下的增强可见性，使其非常适合用于安全和监控应用。本文聚焦于利用热红外视频进行多无人机跟踪，利用其在 RGB 方法可能失效的复杂环境中的重要性。图 1（a）展示了来自 MOT 训练集的具有不同背景的热红外帧，而图 1（b）突出了轻微缺陷，如标注错误、冗余、遗漏标签和低质量帧，这些缺陷在数据集中所占比例极小，在训练过程中可以安全忽略。

此外，图 2 显示了训练集中边界框标注的裁剪图像块，说明了无人机的大小变化，从几个像素到个位数像素。作者通过利用最新的 YOLOv12 [36]检测器和 BoT-SORT [1]跟踪算法构建了一个完整的无人机跟踪工作流程，该工作流程的性能优于已建立的 YOLOv5 [18]与 DeepSORT [40]组合。作者还实施了一些策略以进一步提高多无人机跟踪性能。

作者的贡献如下：

作者基于 YOLOv12 和 BoT-SORT 建立了一个多无人机跟踪工作流程，为基于热红外视频的多无人机跟踪任务设定了一个强大的 Baseline 。
作者对各种试验调整进行了深入分析，例如输入图像大小和跟踪器缓冲区调整的影响，并从作者强大的 Baseline 出发，提出了对未来改进的必要考虑。

2. 相关工作

现有针对基于热红外视频的多无人机跟踪改进的视角可以分为标注和基准测试、空间信息增强、时序和运动建模、实时优化、统一框架以及基于检测的跟踪系统。由于高质量的标注对于鲁棒跟踪至关重要，先前的研究已经探讨了标注错误对目标检测的影响[19]，通过结合多假设跟踪（MHT）利用时序线索并减少误报[15]，以及引入基准测试来评估无人机数据集上的检测和跟踪方法[16]。空间信息增强技术，如[23]中提出的图像金字塔引导（IPG）模块，通过保留精细的空间细节来解决特征不平衡问题，即使在深度网络层也能实现准确的边界框回归和分类。

为进一步提高跟踪鲁棒性，时序和运动建模技术利用帧间相关性，增强连续性并减少碎片化[11, 12, 22, 42]。与此互补，实时优化策略在保持准确性的同时减少推理延迟，使得无人机跟踪在现实应用中变得高效[7, 26, 39, 41]。除此之外，统一框架将检测和跟踪集成到端到端解决方案中，简化了多无人机跟踪流程[44, 46]。此外，结合级联后处理模块的检测方法通过减轻误报并提高定位来提高跟踪精度[35]。尽管先前的工作对多无人机跟踪做出了重大贡献，但 Strong-Baseline 通过利用最新的检测器和跟踪器，为基于热红外视频的无人机跟踪设定了新的基准，并指导了多无人机跟踪任务的未来研究。

3. 研究方法

本节首先定义了问题范围，随后是数据分析和模型训练准备。接着，作者介绍了主要的检测模型 YOLOv12 和跟踪算法 BoT-sORT，最后详细阐述了作者的训练和推理策略。

3.1 问题陈述

目标是以尽可能高的精度追踪无人机，评价标准详见第 4.1 节。挑战分为三个赛道，每个赛道对应不同的场景。赛道 1 和赛道 2 是单目标跟踪（SOT）任务，区别在于是否给出了无人机的初始位置。赛道 3 是一个多目标跟踪（MOT）任务，其中提供了无人机的初始位置。

3.2 数据分析与准备

首先，作者对每个轨道的训练和测试数据进行分析，具体总结如表 1 所示。轨道 1 和轨道 2 共享相同的训练集，包括 23 个 512×512 分辨率的序列和 200 个 640×512 分辨率的序列。轨道 3 的训练集由 200 个 640×512 分辨率的序列组成。在测试方面，轨道 1 和轨道 2 各自包含 216 个非重叠序列。轨道 1 的测试集完全为 640×512 分辨率，而轨道 2 包括 16 个 640×512 分辨率的序列和 200 个 512×512 分辨率的序列。轨道 3 的测试集由 100 个 640×512 分辨率的序列组成。此外，表 1 还报告了宽度、高度和面积分布，以及它们的平均值和标准差，为模型超参数调整提供了重要信息。请注意，与官方发布的数据相比，可能存在细微的差异，因为作者已经移除了冗余标注和缺陷案例，如图 1（b）所示。

在分析数据后，作者将其分割以准备模型训练。SOT 和 MOT 任务中用于训练、验证和测试的帧数和边界框数量在表 2 中详细说明。具体来说，Track 1 和 Track 2 使用 YOLOv12 与 BoT-SORT，而 Track 3 采用 YOLOv12 与 BoT-SORT-ReID。请注意，由于作者发现测试集为 SOT 任务提供的有限信息，因此一些数字放在括号中。括号中的值仅反映分割为训练集和验证集的数据。此外，对于 BoT-SORT 训练，1/10 的数据主要用于训练 ReID 模块。这种方法为 ReID 模块的训练提供了更有效的途径，因为许多场景在视觉上相似。

3.3. 基于 BoT-SORT-ReID 的 YOLOv12 在多目标跟踪中的应用

基于[3]中提供的全面评估结果，该评估在具有 RGB 视频的无人机数据集上对 YOLO 系列检测器进行了基准测试，由于 YOLOv12 在性能上的优越性，因此被选用于所有赛道。YOLOv12[36]代表了 YOLO 系列目标检测器的最新进展，同时引入了关键创新以提升准确性和效率。在其核心部分，YOLOv12 采用了残差高效层聚合网络（R-ELAN），该网络解决了与注意力机制相关的优化挑战，尤其是在大规模模型中。基于 ELAN[37]，R-ELAN 引入了具有自适应缩放的块级残差设计以及精细的特征聚合策略，共同促进了有效的特征重用和稳定的梯度传播，同时最小化了开销。此外，YOLOv12 通过结合 FlashAttention[5, 6]和空间感知模块，整合了一个以注意力为中心的架构，从而在保持低延迟的同时增强了上下文建模。引入 7×7 大核可分离卷积扩展了感受野，并加强了目标定位，特别是对于小型和中型目标。该架构针对现代 GPU 内存层次结构进行了优化，提供了改进的计算效率和减少的推理时间，而不牺牲检测性能。这些创新使得 YOLOv12 能够在速度和准确性之间取得平衡，使其非常适合实时应用、大规模检测任务和跟踪流程。

BoT-SORT [1] 结合了卡尔曼滤波 [40] 和相机运动补偿（CMC）以稳定动态条件下的跟踪。CMC 通过仿射变换进行全局运动补偿（GMC），使用图像关键点 [33] 通过金字塔 Lucas-Kanade 光流 [2] 跟踪，并采用异常值拒绝。通过 RANSAC [8] 估计的仿射变换补偿背景运动，同时通过调整卡尔曼滤波状态向量保持目标轨迹的稳定性。BoT-SORT-ReID 通过整合来自四个不同 ReID 架构的外观线索来增强多目标跟踪。Bag of Tricks（Bagtricks） Baseline 采用具有批量归一化的 ResNet-50 主干网络，以及 Triplet Loss 和交叉熵损失进行鲁棒特征提取。注意力广义平均池化与加权 Triplet Loss（AGW）[43]通过引入非局部模块和广义平均池化来提高特征表示。Strong Baseline（SBS）[25]通过广义平均池化、圆形 softmax 损失和 High-Level 数据增强策略增强了鲁棒性。Multiple Granularity Network（MGN）[38]通过引入多个特征分支来捕获不同空间尺度上的细粒度表示，从而扩展了 SBS。此外，借鉴 ByteTrack [45]，采用 20 帧间隔的线性 tracklet 插值，以减轻遮挡或标注错误导致的漏检。

3.4 训练与推理策略

为了减少 YOLOv12 检测器的训练时间，作者采用两阶段训练策略。首先，作者在 SOT 数据集上从头开始训练 YOLOv12 模型（n, s, m, 1, x），该数据集被分为训练、验证和测试子集，具体细节如表 2 所示。随后，从该预训练权重开始，作者在 MOT 数据集或更大输入图像分辨率上对这些模型进行微调。这种分阶段的方法加速了收敛，减少了整体训练时间，并使模型在仅几个 epoch 内就能达到有竞争力的平均精度（AP）。对于 ReID 模块，作者主要使用数据集的缩减子集来提高训练效率，因为使用整个数据集进行训练将非常耗时。

推理流程如图 3 所示。整体流程遵循原始的 BoT-SORT 方案。然而，作者对输出进行了修改，对于 Track 1 和 Track 2 同时报告在线目标和丢失目标，同时保留 Track 3 的原始输出格式。作者没有使用线性轨迹插值，因为由于相机运动或快速移动的无人机，ID 切换频繁发生，使得插值对于恢复丢失的检测无效。相反，对于 SOT 任务，作者采用了一种基于每个帧最多包含一个无人机的假设的策略，遵循以下优先级顺序：（1）报告在线目标中置信度分数最高的无人机，（2）如果没有在线目标可用，继续报告后续跟踪器缓冲帧中的上一个 ID 作为丢失目标，（3）如果没有上一个 ID 可用，报告最后已知的位置，直到检测到新的在线目标。这种策略利用卡尔曼滤波器的预测，根据先前的位置和速度准确估计无人机的位置，显著提高了 SOT 任务的评估指标。然而，由于在线目标和丢失目标之间频繁的重叠和 ID 切换，这种策略对于 MOT 任务不可行，这会导致结果不佳。因此，在这种情况下，作者保留了 Track 3 的原始输出。

4. 实验结果

实验在两个平台上进行：第一个平台是一个配备 Intel Core i7-12650H CPU、NVIDIA RTX 4050 GPU 和 16 GB RAM 的系统；第二个平台是一个高性能计算（HPC）系统[27]，配备了 NVIDIA H100 GPU 和 80 GB 内存。除非内容或表中另有说明，所有模型均使用默认设置（例如，图像输入大小为 640，跟踪缓冲区为 30 帧）进行训练。本节首先概述了三个赛道的评估指标，然后展示了 SOT 和 MOT 任务的结果。接着，作者展示了排行榜排名，并讨论了关键考虑因素以及可能进一步改进无人机跟踪的潜在图像增强技术。

4.1 评估指标

在三个竞赛赛道中使用了两个评估指标。第一个指标适用于赛道 1 和赛道 2，其中跟踪精度定义为：

4.2 轨道 1 和轨道 2 的评估结果

作者将 Track 1 和 Track 2 的评估结果一起呈现，因为它们都是 SOT 任务，唯一的区别在于初始无人机位置的存在。根据表 3 所示，从两条轨迹中各选取了八个有意义的试验。试验 1 和 2 作为消融研究，用于评估 BoT-SORT 的影响。结果显示性能显著提升：Track 1 的得分从 0.0786 增加到 0.5529，而在 Track 2 中，得分从 0.0992 上升到 0.3106，这仅仅是在 YOLOv12n 检测器之后添加了 BoT-SORT。试验 2 至 6 评估了不同的检测器模型大小（n, s, m, 1, x），在两条轨迹中，YOLOv12l 模型均取得了最高得分。试验 7 考察了扩展到 300 个 epoch 的训练效果，与 100 个 epoch 的训练相比，性能有所下降，这可能是由于过拟合导致的。最后，每个轨迹的试验 8 展示了作者提交的最高得分，通过将 Track 1 的最小框面积阈值从 10 调整为 4，Track 2 从 10 调整为 1，以更好地捕捉可能因默认设置而遗漏的小型无人机。

4.3 轨道 3 的评估结果

Track 3 的评估结果可以分为四个关键观察点。如图 4 所示，Group 1 展示了使用不同 YOLOv12 模型大小的结果，揭示出尽管 YOLOv12n 是最小的模型，但它却实现了最佳性能。Group 2 考察了不同轨迹缓冲区大小的影响，观察到使用 60 个缓冲帧时得分最高，表明这种配置优化了 ID 重关联过程。Group 3 研究了不同图像输入大小的影响。与默认的 640 输入大小相比，1280 和 1600 输入大小均显著提升了性能。Group 4 讨论了涉及不同 ReID 模块的试验。Trial 13 使用了完整的 ReID 数据集，而 Trial 14 至 19 则是在缩减的 ReID 数据集上训练。该组还评估了不同配置的影响，包括 ReID 模块结构、度量学习策略和训练轮数的改变。从这些结果中，作者得出以下结论：（1）Strong Baseline Series 中的 ResNet-50 作为 ReID 模块的主干优于 ResNet-101，使用了实例批归一化；（2）将 Triplet Loss 替换为 CircleLoss 进行度量学习可以提高性能；（3）随着训练轮数的增加，ReID 模块的训练往往会过拟合。

基于各组所有试验，作者得出以下关于与试验 1 相比的得分变化的结论：（1）模型大小对性能的影响约为 0.001，（2）轨迹缓冲区大小对得分的影響約為 0.0001，（3）图像输入大小对得分的影响最为显著，得分增加约为 0.1，（4）ReID 模块的影响约为 0.01。利用这些见解，得分最高的试验 20 采用了以下配置：YOLOv12n，图像大小为 1600，训练 11 个 epoch，结合 BoT-SORT-SBS-S50，配备 CircleLoss，使用 AdamW [24]优化，训练 17 个 epoch。

4.4 领航员排行榜结果

基于三个赛道上的所有试验，如表 3 和表 4 所示，作者在表 5 中报告了排行榜结果，其中包含每个赛道的三个最高得分、作者的提交得分和官方 Baseline 得分。虽然作者的得分与前三名之间仍存在差距，分别为赛道 1 的 0.1332、赛道 2 的 0.1971 和赛道 3 的 0.0502，但作者的性能相较于 Baseline 有显著提升。具体来说，作者在赛道 1 和赛道 3 上实现了 Baseline 得分的约两倍增长，在赛道 2 上实现了近五倍提升。值得注意的是，这些结果是在没有采用图像增强技术或利用训练过程中的时间信息的情况下获得的。将作者强大的 Baseline 中这样的先进技术整合进来，可以显著提高性能，并使达到前三名位置变得高度可行。

4.5 讨论与增强技术

评估结果揭示了几个关键见解。首先，由于作者的数据划分策略，出现了过拟合现象。为了最大化场景多样性，作者没有根据固定摄像机设置或背景类型（例如，天空或建筑）等属性对视频进行分类。相反，作者直接将数据集划分为训练集、验证集和测试集，偶尔允许同一视频的帧在不同划分中出现。这很可能是导致过拟合的原因，如局部测试中 AP 分数差异所示。其次，准确地将提供的初始物体位置缩放到与训练和推理中使用的分辨率相匹配至关重要，因为不匹配可能会误导跟踪器并降低后续预测。第三，在参数调整无法提高准确度时，提高图像分辨率是突破性能 Bottleneck 的关键。例如，从 640 分辨率扩展到 1280 分辨率，分数显著提高了约 0.1。然而，进一步的提升带来的收益逐渐减少，因为以 2560 像素训练 7 个 epoch 的得分为 0.7072，而以 3840 像素训练 1 个 epoch 的得分为 0.7098，而两者相比在 1280 像素训练时所需的计算成本显著更高。第四，在 YOLOv12 和 BoT-SORT-ReID 推理过程中，内存消耗随时间累积，导致程序崩溃。

为了解决这个问题，作者基于每个文件夹执行推理，而不是在一次运行中处理所有序列。最后，准确初始物体位置和没有准确初始物体位置的运行之间存在明显的性能差距，这体现在 Track 1 和 Track 2 之间的性能差异上。这强调了及时、可靠地估计初始位置以进一步提高性能的重要性。

此外，如前所述，虽然 Strong-Baseline 提供了一个强大的 Baseline ，但在没有进一步精炼的情况下，它仍然不足以实现顶级性能。图 4（a）展示了 Strong-Baseline 在各种场景下的预测结果，而图 4（b）突出了几个关键失败案例：（1）重叠的无人机经常导致 ID 切换，（2）区分无人机和飞行生物仍然困难，模型在短暂的遮挡后经常重新分配新的 ID 给无人机，（3）复杂背景导致检测失败和跟踪失败，（4）在杂乱环境中，微型无人机提供的信息很少或没有价值，使得检测非常不可靠。最后一行的对应 Heatmap 说明了模型在这些困难条件下无法有效感知无人机。这些局限性强调了图像增强技术在进一步提高性能中的重要性。

图 5 展示了几种潜在图像增强方法。从左到右：（1）原始热红外帧，（2）基于 Sobel 边缘锐化的增强[10]，比原始图像更清晰地突出边缘，（3）对比度限制自适应直方图均衡化（CLAHE）[28]，提高了对比度，（4）ReynoldsFlow+[4]，一种基于雷诺传输定理[31]的时间增强方法，雷诺传输定理是莱布尼茨积分法则[9]的三维推广，为移动无人机提供了增强的外观。

5. 结论

本文提出了一种基于热红外视频的多无人机跟踪任务强 Baseline 。通过将 YOLOv12 与 BoT-SORT 集成，Strong-Baseline 在 Baseline 之上有了显著提升。在实验结果中讨论的训练和推理过程中的额外策略表明，Strong-Baseline 有潜力在 Track 3 性能中排名前三。作者还确定了与初始试验相比影响性能的关键因素：模型大小贡献约 0.003，跟踪缓冲区大小影响分数约 0.0001，图像输入大小提供了最显著的影响，分数增加约 0.1，ReID 模块增加约 0.01。虽然 Strong-Baseline 直观且直接，但作者提出了几种潜在的技术来进一步提高准确性。

总体而言，Strong-Baseline 建立了一个强大的 Baseline ，主要由最新的 YOLOv12 检测器和先进的 BoT-SORT 跟踪算法驱动，为无人机编队跟踪领域的最新进展提供了一个强有力的起点。

参考

[1]. Strong Baseline: Multi-UAV Tracking via YOLOv12 with BoT-SORT-ReID

END

作者：小书童
来源：集智书童

推荐阅读

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

导读