碾压YOLO系 | Fast-COS横扫BDD100K/TJU双冠，边缘端实时推理，效率起飞 - 极术社区

导读

感知系统是自动驾驶系统的核心元素，在确保安全方面发挥着关键作用。驾驶场景感知系统本质上是一个目标检测任务，需要在准确性和处理速度之间取得平衡。许多当代方法侧重于提高检测精度，但往往忽视了在计算资源有限时实时检测能力的重要性。因此，研究针对驾驶场景的高效目标检测策略至关重要。

本文介绍了 Fast-COS，这是一个专为驾驶场景应用设计的单阶段目标检测框架。研究从对 Backbone 网络的分析开始，考虑了宏观和微观架构设计，得出了重参化注意力视觉 Transformer（RAViT）。RAViT 利用重参化多尺度深度卷积（RepMSDW）和重参化自注意力（RepSA）来提高计算效率和特征提取。在 GPU、边缘和移动平台上的广泛测试中，RAViT 在 ImageNet-1K 数据集上实现了 81.4%的 Top-1 准确率，与 ResNet、FastViT、RepViT 和 EfficientFormer 等可比 Backbone 模型相比，显著提高了吞吐量。此外，将 RepMSDW 集成到特征金字塔网络中形成 RepFPN，实现了快速和多尺度的特征融合。

Fast-COS 增强了驾驶场景中的目标检测，在 BDD100K 数据集上达到了 57.2%的 AP50 分数，在 TJU-DHD 交通数据集上达到了 80.0%。它在效率上超过了领先模型，与 FCOS、YOLOF 和 RetinaNet 相比，GPU 推理速度提高了高达 75.9%，在边缘设备上的吞吐量提高了 1.38 倍。这些发现将 Fast-COS 确立为一个高度可扩展且可靠的解决方案，适用于实时应用，尤其是在资源受限的环境，如自动驾驶系统中。

1. 引言

各种传感器作为感知系统，用于收集实时交通数据，实现独立导航[1]。摄像头提供必要的、高分辨率的视觉数据，这些数据对于驾驶场景图像处理任务，如目标检测[2]至关重要。在复杂场景中，对驾驶环境的鲁棒感知对自动驾驶汽车至关重要。这需要高精度、实时处理和容错性。准确识别和预测物体运动，执行高效的实时处理，避免可能导致交通拥堵或事故的决策延迟，以及在恶劣天气或低光照条件下确保运行，都是至关重要的。有效的目标检测算法对于基于摄像头的感知系统在自动驾驶汽车中的安全性和有效性至关重要[3]。

在深度学习中的当代目标检测架构中，结构通常由 Backbone 网络、 Neck 和 Head 检测器元素组成[4]-[6]。检测器主要分为两类：两阶段和单阶段。两阶段模型，如 R-CNN 系列[7]、[8]，强调区域 Proposal 和特征提取。这些模型以精确的目标定位而闻名，但由于需要大量的区域 Proposal ，计算成本较高。相反，单阶段检测器，如 YOLO[9]或 RetinaNet[10]，在单个网络流中执行目标检测和定位回归。单阶段检测器的一种变体是全卷积单阶段检测器（FCOS）[11]、[12]，它通过基于每个像素的预测来采用 Anchor-Free 点策略，从而消除了对预定义 Anchor 框的需求，提高了计算效率。然而，FCOS 因其 Backbone 网络和 Neck 结构效率低下而受到批评。

在整个十年间，卷积神经网络（CNNs），尤其是 ResNet[13]，因其众多下游任务[14]中的卓越性能而被频繁用作 Backbone 网络，包括生物识别[15]、[16]、医学分割[17]和图像去雾[18]。然而，由于感受野的限制和短程依赖，它们在遮挡问题上遇到了挑战，尤其是在驾驶场景目标检测[19]中尤为普遍。最近，基于 Transformer 的视觉模型在各种计算机视觉应用中作为 Backbone 网络[20]或作为分割编码器-解码器架构[21]表现出非凡的成功，利用其全局感受野和长程依赖性，超越了 CNN 的性能。然而，这些模型由于二次计算复杂度，通常计算量较大。例如，原始视觉 Transformer（ViT）[22]需要 8500 万到 6.32 亿个参数来进行 ImageNet 分类。这种复杂性为在资源受限的设备上部署，如移动和边缘设备，带来了挑战，并且可能不适合某些应用，如驾驶场景目标检测[19]和资源有限的平台部署。

几种高效的设计方法已被开发出来以提高 Transformer 效率，或可在移动或边缘设备中实现 [23]-[27]。最具创新性的方法是将 Transformer 与卷积神经网络（CNNs）集成 [23]，[25]。一些策略引入了一种具有线性复杂度的创新自注意力模型 [26] 和一个具有维敏感架构 [24]，[27]。这些方法表明，CNNs 在将 Transformer 部署到资源受限设备中起着至关重要的作用。另一方面，人们还关注在架构层面设计以快速推理为导向的 Transformer 视觉模型 [28]-[30]。许多方法通过使用 16×16 的主干网络，在初始架构阶段从非常低的分辨率中实现了快速推理。此外，还引入了创新的 Self-Attention 机制以最小化计算冗余 [29]，[30]。虽然这些方法在快速 GPU 推理中表现良好，但对于核心处理器较少的资源受限硬件上的推理效果较差。

与 ViTs 的复杂架构相比，最近 CNN 的发展受到了启发[31]-[33]。它们不像传统的 CNN[34]、[35]那样使用结合空间和通道特征提取，而是根据 ViT 的架构分别设计。为了捕捉全局空间上下文，一些 CNN 尝试将核大小增加到 7×7 [31]、[32]，而不是使用常见的 3×3 [33]。此外，在[36]、[37]中，它们将核大小扩展到 51×51 以获得更大的感受野。然而，极大的核大小会显著增加内存访问和参数，使得优化变得具有挑战性。

为了解决性能与速度之间的权衡，作者引入了 RAViT，即重参化注意力视觉 Transformer。这种混合 Transformer 结合了一个可重构的 Token 混合器，该混合器将注意力与多尺度大核 CNN 相结合。在宏观层面，RAViT 将轻量级 ViT[28]-[30]的一般框架与最新的基于 CNN 的设计[33]相融合。在微观层面，引入了重参化多尺度深度 wise 卷积（RepMSDW）和重参化自注意力（RepSA）以维持全局和局部依赖性。利用 RAViT 作为 Backbone 网络，作者优化了 FCOS，使其更加高效和快速，因此作者称之为快速卷积单阶段目标检测器或 Fast-Cos。不仅 Backbone 网络，在 Neck Level ，FCOS 的特征金字塔网络（FPN）通过 RepFPN 得到增强，它利用了 RepMSDW。广泛的评估确认了其在各种视觉基准上的效率，包括用于 Backbone 网络图像分类的 ImageNet-1K，以及用于驾驶场景中目标检测的 BDD100K 和 TJU-DHD 交通。

总之，作者的主要贡献包括：

1. 作者提出 RAViT，一种具有多尺度大核重参化和部分自注意力的混合视觉 Transformer。
2. 作者展示了 RAViT 作为提取多尺度特征的主干网络的有效性，并强调了其增强 FCOs 目标检测器的潜力，在 BDD100K 和 TJU-DHD 数据集上实现了高精度。通过利用 RepMSDW，作者优化了原始 FCOS FPN Neck 的多尺度特征提取，展示了 RepFPN 作为 Neck 与 RAViT 主干网络结合，形成 Fast-FCOS 目标检测器，在驾驶场景数据集上实现卓越精度的作用。
3. 作者表明，RAViT 在各种平台上表现出低延迟，包括移动设备、边缘设备和桌面 GPU，这将显著促进驾驶场景目标检测系统在多种硬件上的应用。

2. 相关工作

A. 高效视觉 Transformer

近期在高效视觉 Transformer 方面的进展始于 MobileViTs [25]，它结合了 MobileNets 的效率与视觉 Transformer（ViTs）的全局建模能力。EfficientFormers [24]、[27]展示了一种特征维度感知的设计，该设计采用硬件优化的 4D 模块和有效的 3D 多头自注意力（MHSA）块。FastViT [32]通过整合 7×7 深度卷积与结构重参化，提升了模型容量和效率。EdgeNext [23]应用局部-全局块以更好地结合 MHSA 和卷积。SHViT [30]通过应用于部分通道的单头自注意力（SHSA）机制来解决计算冗余问题。EMO [38]通过将窗口自注意力与倒置 Bottleneck 卷积合并为一个单一块来解决简洁性问题。

B. 大核卷积

最初，像 AlexNet 和 GoogLeNet 这样的传统 CNN 在早期架构中偏好使用大核，但 VGG[39]将重点转向使用堆叠的 3×3 核。InceptionNets[40]、[41]通过将 n×n 卷积分解为连续的 1×n 和 n×1 操作来提高计算效率。SegNeXt[42]通过结合 1×k + k×1 和 k×1 + 1×k 卷积扩展了有效核大小，以用于语义分割任务。MogaNet[43]采用了多尺度空间聚合块，利用扩张卷积来捕捉判别性特征。ConvNeXt[31]通过使用 7×7 深度卷积进行现代 CNN 设计实验，反映了 Swin Transformer[20]的架构策略。InceptionNeXt[44]通过将大核深度卷积分为四个并行分支来提高吞吐量和性能。SKNet[45]和 LSKNet[46]在通道和空间维度上均采用了多分支卷积。此外，RepLKNet[36]使用 SRP 将核大小扩展到 31×31 ，实现了与 Swin Transformers 相当的性能。

C. 结构重参化

近期研究，如 RepVGG [39]，表明重新参数化 Shortcut 可以降低内存访问成本。为了提高效率，先前的工作如 MobileOne [47]已经利用了分解的 k×k 卷积，结合深度卷积或分组卷积，随后再进行 1×1 点卷积。这种方法显著提升了整体模型效率，尽管参数数量的减少可能会导致容量降低。最近，类似[48]中提出的 token mixer 的重新参数化 MLP，称为 RepMLPNet。据作者所知，在混合 Transformer 架构中，尚未探索使用结构化重新参数化来移除具有多尺度卷积的 Shortcut 。此外，重新参数化卷积与自注意力机制的组合也尚未被探索。

3. 提出方法

近期研究，如 RepVGG [39]，表明重新参数化 Shortcut 可以降低内存访问成本。为了提高效率，先前的工作，如 MobileOne [47]，已经利用了分解的 k×k 卷积，并结合深度卷积或分组卷积，随后再进行 1×1 点卷积。这种方法显著提升了整体模型的效率，尽管参数数量的减少可能会导致容量降低。最近，如[48]中提出的 token mixer 这样的重新参数化 MLP，被称为 RepMLPNet。据作者所知，在混合 Transformer 架构中，使用结构化重新参数化来移除具有多尺度卷积的 Shortcut 之前尚未被探索。此外，重新参数化卷积与自注意力机制的组合也尚未被探索。

在本节中，提出了 RAViT 混合 Transformer Backbone 网络。首先，为了适应资源有限的硬件，作者从宏观层面分析了其架构。然后，在微观层面开发了该架构。在微观层面，作者提出使用重参化多尺度深度卷积（RepMSDW）代替计算成本高昂的多头自注意力（MHSA）作为特征或 Token 混合器，尤其是在高分辨率的情况下。作者还提出了重参化自注意力（RepSA），将 RepMSDW 与自注意力相结合，以平衡特征中的局部和全局空间理解。随后，将 RAViT 用于改进 FCOs，以在驾驶场景目标检测中执行下游任务。

A. 宏观设计分析

为了构建适用于移动和边缘设备的既高效又低成本的模型，作者在宏观设计层面分析了架构。首先，将 3×3 dwconv 作为 Token 混合器融入架构，作者将 3 阶段架构与[28]-[30]中使用的 16×16 stem 进行比较，并将 4 阶段架构与[23]、[24]、[32]中常用 4×4 stem 进行比较。

如表 6 所示，V1 与 V2 的比较表明，即使是带有 16×16 stem 的 3 阶段架构也能将 GPU 吞吐量提高 3 倍。然而，它对边缘和移动设备上的推理延迟没有显著影响。因此，在 RAViT 中，作者决定使用 4 阶段架构，并采用 4×4 stem。

B.多尺度深度可分离卷积的重参化

重参化多尺度深度可分离卷积（RepMSDW），如图 1（b）所示，灵感来源于[41]、[44]，该策略包含多个具有不同核大小的分支深度可分离卷积，以扩展有效感受野和特征提取。通过整合这种多尺度策略，RAViT 旨在复制多个范围建模能力，同时保持局部性和效率。RepMSDW 的公式描述如公式 3 所示。

表 5 展示了所提出的 RepMSDW 的有效性。与具有平方 k×k 且未进行重新参数化的单个分支相比，重新参数化的多分支核在牺牲推理速度的同时具有更高的准确率。接下来，作者尝试将最后两个阶段的 RepMSDW 核大小从 3×3 增加到 7×7 。如表 6 所示，从 V2 到 V3 的核大小增加可以将准确率提高到 79.1%，同时仅在移动和边缘设备上造成 2.5% 和 1% 的延迟下降。将 RepMSDW 用作 token 混合器，作者的设计在准确率上与 FastViT-T12 [32]相似；然而，在 RAViT 中，移动和边缘设备的推理速度分别快了 26% 和 10%。

C. 自注意力机制的重新参数化

重参化自注意力（RepSA）扩展了空间聚合，以达到卷积的局限性——长距离依赖。RepSA 使用从 RepMSDW 投影出的四分之一通道的单头自注意力，具体细节如图 1（c）所示。通常，RepSA 的公式描述如下：

D. 快速 FCOS

作者通过采用所提出的 RAViT 作为快速驾驶场景目标检测的 Backbone 网络，增强了 FCOS。此外，作者在 FCOS 的 Neck 部分引入了重参化特征金字塔网络（FPN）以进行多尺度特征提取。

如图 2 所示，作者利用 RAViT Backbone 网络的三种特征层 F3，F4 和 F5，并将典型 FCOS FPN 中的原始 3×3 卷积替换为在两个尺度特征聚合后的一系列 ReMSDW 和 1×1 卷积。由于 ReMSDW 具有多个核尺度，它能够提取不同尺度的空间特征，并且可以通过重参化来加速推理阶段。

与原始的 FCOS FPN 将 Backbone 网络的三级特征 {F3,F4,F5} 扩展到五级 {P3,P4,P5,P6,P7} 并使用步长因子 {8,16,32,64,128} 相比，作者在共享 Head 仅使用三级特征 {P3,P4,P5} 进行目标分类、中心度和边界框回归。由于作者只使用三个 Level 的特征，回归范围在回归 Head 配置为 0, 128, 256 和 512。由于特征 Level 的不同大小，回归范围针对每个 Level 进行调整。 P3 的回归范围为 {0,128} ，P4 为 {128,256} ，P5 为 {256,512} 。

4. 结果

为了评估 RAViT Backbone 网络和 Fast-COS 的有效性，作者进行了多项测试。作者选择了包含 1000 个类别的 ImageNet-1K 数据集作为 Backbone 网络的图像分类基准测试。作者还对 COCO 数据集上的实例分割进行了 Backbone 网络评估测试。

在特定任务中，作者通过结合 RepFPN 来提升 Fast-COS，在 BDD100K 和 TJU-DHD-traffic 数据集上执行驾驶场景目标检测。由于 FLOPs 并不直接影响计算复杂度，作者使用吞吐量和延迟指标，这些指标在三个不同范围的宽泛应用处理设备上进行了测试，包括 GPU RTX3090、iPhone 15 Pro 上的神经网络单元（NPU）作为移动处理单元，以及 Jetson Orin Nano 作为边缘设备处理单元，将 RAViT 和 Fast-COS 与其他最先进模型进行了比较。这一广泛的基准测试将代表不同硬件平台上的实时性能。

A. RAViT 主干网络的评估结果

1）设置：作者使用 ImageNet-1K 作为最流行的图像分类基准数据集来评估 RAViT。ImageNet-1K 包含 1000 个类别，用于训练的有 120 万张图像，用于验证的有 50000 张图像。作者遵循[20]中的训练方案，每个 RAViT 模型变种的训练总共有 300 个 epoch，分辨率为 224×224。数据增强和正则化方法包括多种方法，如 RandAugment、Mixup、CutMix、Random Erasing、权重衰减、标签平滑和随机深度。对于大多数 RAViT 模型，作者使用 AdamW 优化器，基础学习率为 0.004，总批处理大小为 2046，在 4×A6000 GPU 上进行训练。

作者还在 COCO 数据集上进行了实验，COCO 数据集是广泛用于基于 Mask R-CNN 的目标检测和实例分割的基准数据集。Mask R-CNN 的 Backbone 网络被 RAViT 所取代，RAViT 利用多尺度卷积和自注意力机制来提升特征提取能力。COCO 数据集的训练集用于模型训练，而验证集用于评估，遵循标准的 COCO 指标，包括边界框检测和分割 Mask 的平均精度（mAP）。

作者通过在两种类型的资源受限的设备硬件和一台桌面 GPU 上进行的推理延迟测试来评估性能。对于移动设备性能评估，使用了 iPhone 15 Pro。所有模型都转换为 CoreML 格式，并在先前的 20 次循环预热之后，每个模型都经过 50 次推理循环。平均推理时间作为评估指标。为了评估边缘设备硬件，选择 Jetson Orin Nano。模型被调整为 ONNX 格式，以便在边缘设备上进行延迟测量。在边缘设备评估中，20 秒的预热时间之后，进行 1000 次推理循环。

2）在 ImageNet-1K 上的基准测试：表 2 中展示的比较分析突出了 RAViT 变体在 ImageNet1K 数据集上与最先进模型的性能。作者评估了包括 GPU、移动 NPU 和边缘设备在内的各种硬件平台，以提供一个广泛的应用说明作为 Backbone 。

与最近的最先进模型相比，RAViT 模型在准确性和计算效率之间表现出有竞争力的权衡。例如，RAViT-M26 达到了 81.4%的 Top-1 准确率，同时实现了 2.27 倍的 GPU 吞吐量、2 倍的 NPU 延迟和 1.8 倍的边缘设备延迟，相较于 PoolFormer-S36 和 Swin-T。RAViT-M26 在保持与最近移动视觉 Transformer（如 RepViT）相似的 NPU 和边缘设备延迟的同时，实现了更高的 0.2% Top-1 准确率，展示了其架构效率。同样，RAViT-M26 在保持比 FastViT-SA12 高 0.8%的 Top-1 准确率的同时，实现了 4%更快的移动 NPU 推理速度。

RAViT 模型在不同配置下均能持续实现高精度。尽管 MobileOne 也使用了重参化技术，但 RAViT 的混合 Transformer 架构在精度和速度之间表现出权衡。例如，RAViT-S22 在具有 1.8 更快的 GPU 吞吐量、1.5×更快的 Mobile NPU 延迟和 1.6×更快的 Edge 设备延迟的情况下，仍能超越 MobileOneS4。RAViT 模型在提供优越精度的同时实现了更快的 GPU、Mobile NPU 和 Edge 设备推理，展示了其在现实部署场景中的灵活性和有效性。

B. 在 COCO 实例分割中使用 SOTA 模型进行基准测试

表 1001 展示了在 COCO val2017 数据集上，与 Mask R-CNN 结合使用的 RAViT Backbone 网络的评估结果，并与其他最先进的方法进行了比较。评估指标包括边界框平均精度（APb）、 Mask 平均精度（APm）、计算复杂度（FLOPs）、参数大小以及 GPU 和 EDGE 设备上的延迟。结果表明，RAViT 在分割精度和计算效率之间实现了良好的平衡。

延迟和推理速度进一步突显了 RAViT 架构的效率。RAViT-S26 实现了最高的 GPU 推理速度，达到每秒 40.0 张图像，显著优于 PVT-S，速度是其的 2.4 倍，比 RepViTM1.1 快 8.25%。在边缘设备上，RAViT-S26 实现了最低的延迟，为 284 毫秒，使其非常适合实时应用。RAViT-M26 也提供了有竞争力的边缘延迟，为 334 毫秒，在比较中优于其他几种方法。

与 PoolFormer、PVT 和 RepViT 相比，提出的 RAViT 架构在准确性和效率之间取得了极佳的平衡。RAViT-M26 在评估的模型中实现了最高的准确率，而 RAViT-S26 则因其最低的延迟和高速推理而脱颖而出。这些结果证明了 RAViT 的可扩展性，提供了轻量级和高性能的变体，以满足多样化的部署场景。总之，提出的 RAViT Backbone 网络非常适合性能驱动和延迟关键的应用，巩固了其在实例分割任务中的价值。

C. Fast-COS 在驾驶场景目标检测任务中的评估结果

1）设置：所提出的模型在两个高分辨率、大规模数据集上进行了测试：BDD100K 和 TJU-DHDtraffic，这两个数据集都适用于从驾驶员视角评估检测网络。这些数据集包括多样化的场景，如城市街道和住宅区，分别包含 184 万和 239,980 个标注的边界框。BDD100K 包含 10 个类别，包括公交车和汽车，而 TJU-DHD 覆盖 5 个类别，如行人和骑自行车者，这些类别在不同的光照条件下都有涵盖。两个数据集都提供了各种天气条件下的场景，为现实世界模型测试提供了宝贵资源。组织结构包括 TJU-DHD Traffic 的 45,266 张训练图像和 5,000 张验证图像，以及 BDD100K 的 70,000 张训练图像和 10,000 张验证图像。

在驾驶场景目标检测实验中，作者在训练和评估阶段均使用 1280×720 像素的输入尺寸。训练过程中使用 4 块 NVIDIA GPU，每块 GPU 处理 8 张图像的小批量。AdamW 优化器控制训练过程，初始学习率为 0.00o1，在第 8 和第 11 个 epoch 时减少 10 倍。模型使用 RAViT 进行端到端训练，并从预训练权重初始化以提高学习效率。为了提高鲁棒性，应用了数据增强，包括随机翻转和调整大小。在推理阶段，记录每张图像前 100 个检测到的边界框以评估性能。

在 TJU-DHD 交通数据集上，使用 RAViTM26 作为 Backbone 网络，整体 AP 提升了 1.3%，预测大型物体（AP_l）的准确性提升了 38%。在相同的输入尺寸配置（1333×800）下，所提出的 RAViT Backbone 网络相比原始 FCOs，检测速度提高了 44.5%。为了达到与 BDD100K 测试相当的检测速度，对 Fast-COS 模型变体进行了评估，输入尺寸为 1280×720 像素。在此配置下，Fast-COs 相对于原始 FCOS，检测速度提升了 49.6%，同时保持了与使用更大输入尺寸训练的 FCOS-RAViT 变体相似的预测准确性。

在采用 Jetson Orin Nano 边缘设备并使用 ONNX 框架进行的评估中，Fast-COs 变体在采用 RAViT-S26 时观察到峰值性能，在驾驶场景数据集测试中实现了 9.3 FPS 的预测速度。尽管比 YOLOF-ResNet50 慢 6.5%，但 Fast-COS 与 RAViT-S26 结合在 BDD100K 测试中整体平均精度 AP 提高了 26.9%。全面的硬件评估表明，虽然一些模型可以超过 30 FPS 的 GPU 推理速度，但在边缘设备上进行优化对于实现至少 15 FPS 以使其作为实时驾驶场景目标检测硬件选项是必要的。

D. 消融实验

多尺度在 RepMSDW 中的应用及与 SelfAttention 的结合：作者对多尺度卷积核大小进行了消融研究，并将其与仅平方核重参化和无核重参化配置进行了比较。这项分析特别使用了 RAViT-S22 变体。如表 5 所示，在重参化过程中采用多尺度核大小，在 ImageNet1K 数据集上提高了分类准确率。使用多尺度重参化相较于单平方重参化提高了 0.12%，如[32]、[33]、[39]所述，相较于无重参化配置提高了 0.22%。鉴于 RepMSDW 在捕捉长依赖关系方面存在限制，作者评估了其与自注意力技术的集成，该技术被应用于 Transformer 模型[20]、[24]、[29]。最初，作者将 RepMSDW 集成到多头自注意力（MHSA）中，用 7×7 RepMSDW 替代了[27]中描述的 3×3 DwConv。这一修改将准确率提高到 79.2%。然而，MHSA 需要大量的数组变换，这影响了 GPU 吞吐量和 NPU 延迟。随后，作者采用了单头注意力（SA），如[30]中提出的那样，以解决 MHSA 中的计算冗余。将 RepMSDW 与 SA 结合将准确率提高到 79.6%，同时保持了 GPU 吞吐量和 NPU 延迟的效率。
RAViT Backbone 架构中的组合：在移除 RepMSDW 和 RepSA 后，作者还对宏观架构进行了消融研究。研究从 3 阶段（V1）和 4 阶段（V2）架构的比较开始。这一分析的结果详细地见第 IMI-A 节，其中 V2 被采用作为 Baseline 配置。随后，作者在第三阶段和第四阶段逐步增加 RepMSDw 核大小，从 K=3 增加到 K=7（V3），使 Top-1 准确率提高了 0.5%，但推理速度分别降低了 NPU、EDGE 和 GPU 的 1% 、2.5% 和 10% 。在第四阶段（V4）引入 RepSA 后，准确率提高了 0.9%，但推理速度在 NPU、EDGE 和 GPU 上分别降低了 3.8%、19% 和 22%。在最终的消融实验中，作者在第三阶段和第四阶段都应用了 RepSA，使准确率提高了 1.7%，尽管在 NPU、GPU 和 EDGE 上的推理速度分别降低了 22.1% 、44.9% 和 78.6%。最终，V4 被选为 RAViT 主干的主体配置，以在速度和准确率之间取得平衡。
Fast-COS 剪枝：表 4 展示了使用 RAViT 变体作为 Backbone 网络和 RepFPN 作为原始 FCOS Head 检测器中间组件的 Fast-COS 剪枝研究。与在 BDD100K 数据集上使用 ResNet-101 的标准 FCOS 相比，RAViT-M26 的引入分别提高了小物体（APs）和大物体（APl）的检测精度 4.8%和 1.9%。采用可重新参数化的 RAViT Backbone 网络，特别是通过 RepMSDW 残差连接重新参数化，将 GPU 推理速度提升了 62.1%。将 RepMSDW 集成到 FPN 中，APl、APm 和 APs 分别记录了 2.7%、3.9%和 14.2%的显著提升。此外，仅使用三个特征提取 Level 的 RepFPN 版本，将 GPU 推理速度提升了 75.9%。

E. 可视化结果

图 3 展示了 Fast-COS 与 Baseline 算法检测结果的比较。图像来源于 BDD 验证集，该集包含了城市和郊区的交通场景以及恶劣天气条件下的交通场景。观察检测结果，可以看出 Fast-COS 通过重新参数化的多尺度核大小卷积和重新参数化的自注意力机制，有效地解决了遮挡问题（如车辆之间的遮挡）并提升了相对于 Baseline 的检测性能。这在检测小型物体（如信号灯、交通标志或远处的行人）时尤为明显。

通过扩展解释，在第一组和第二组示例中表明，在白天城市交通场景中，Fast-COS 能够识别出位于相当距离处的多个交通标志，以及背景中遮挡的公交车和汽车。相比之下， Baseline 方法在预测能力方面不足。此外，在第三组和第四组中，Fast-COS 即使在夜间条件下，也能有效地识别出位于两个较大物体之间的小型且部分隐藏的车辆。

5. 结论

本文提出了一种名为 Fast-COS 的创新型单阶段目标检测框架，该框架针对实时驾驶场景应用进行了优化。通过结合新颖的重参化注意力视觉 Transformer（RAViT）作为混合 Transformer Backbone 网络，以及重参化特征金字塔网络（RepFPN）以提取跨多个尺度的特征，Fast-COS 实现了卓越的准确性和计算效率。

本研究的重点发现表明，所提出的框架显著提高了准确性和推理速度之间的平衡。在 ImageNet-1K 上的 Top-1 准确率达到 81.4%，RAViT 在 GPU、边缘和移动推理速度方面优于 FastViT、RepViT 和 EfficientFormer 等其他混合 Transformer。RAViT 与 RepFPN 的结合构建的 Fast-COS 在 BDD100K 和 TJU-DHD Traffic 等具有挑战性的驾驶场景数据集上实现了最先进的性能，优于 FCOS 和 RetinaNet 等传统模型。RepMSDW 和 RepSA 的集成增强了局部和全局空间理解，同时确保了适合资源受限硬件的轻量级操作。

此外，在 GPU 和边缘设备上的广泛测试揭示了 Fast-COS 的可扩展性和实时效率。该框架相较于领先模型，实现了高达 75.9%的 GPU 推理速度提升和 1.38 倍的吞吐量增加，使其成为在各种条件和环境下自动驾驶系统的理想选择。未来的研究将聚焦于进一步针对边缘设备硬件平台的架构优化，例如采用量化技术进行部署。

参考

[1]. Fast-COS: A Fast One-Stage Object Detector Based on Reparameterized Attention Vision Transformer for Autonomous Driving

END

作者：小书童
来源：集智书童

推荐阅读

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

碾压YOLO系 | Fast-COS横扫BDD100K/TJU双冠，边缘端实时推理，效率起飞

导读