与 YOLO 的对比, Transformer 自注意力机制的引入提高实时目标检测性能！

准确的实时目标检测可以增强高级驾驶员辅助系统的安全性能，使其成为驾驶场景中的必不可少组成部分。随着深度学习技术的快速发展，基于卷积神经网络（CNN）的实时目标检测器，如YOLO，已经引起了广泛关注。
然而，CNN的局部关注导致了性能瓶颈。为了进一步提高检测器的性能，研究行人引入了 Transformer 自注意力机制，以利用全局感受野，但它们的二次复杂度导致了巨大的计算成本。
最近，Mamba通过全局选择扫描，拥有了线性复杂度，在性能和效率方面取得了显著的进展。受Mamba出色性能的启发，作者提出了一种新的目标检测器：DS MYOLO。
这种检测器通过一个简化的选择性扫描融合块（SimVSS Block）捕获全局特征信息，并有效地集成网络的深度特征。
此外，作者还引入了一种高效的通道注意力卷积（ECAConv），它在提高跨通道特征交互的同时，保持了低计算复杂度。
在CCTSDB 2021和VLD-45驾驶场景数据集上的大量实验表明，与同类规模的YOLO实时目标检测器相比，DS MYOLO展现出了巨大的潜力和竞争优势。

1.Introduction

近年来，深度学习技术的快速发展持续为目标检测领域注入新的活力。在自动驾驶场景中，实时检测和准确识别交通标志和车辆身份对于提高驾驶系统的安全性至关重要。然而，在驾驶场景中，目标通常在规模和尺寸上差异显著，导致视觉特征较差，容易受到噪声干扰。这使得目标检测成为自动驾驶中最具有挑战性的任务之一。卷积神经网络（CNN）由于其参数共享和优化的硬件加速，在实时目标检测器方面取得了显著进步。然而，它们的局部关注使得在驾驶场景中有效地捕捉不同尺寸目标的能力有限，限制了他们的性能。因此，开发高性能实时目标检测器是一项重要而富有意义的事业。

在过去的目标检测范式中，主要聚焦于基于CNN的二级检测网络，如Faster R-CNN[2]，Mask R-CNN[3]，和Cascade R-CNN[4]。但是，二级检测器中的候选区域 proposal 的预生成往往导致实时性能不足。最近，目标检测研究越来越倾向于端到端的单级检测算法，例如YOLO[5]，SSD[6]，CornerNet[7]，和FCOS[8]。单级检测模型具有更简单的架构，特别是YOLO系列模型，在速度与准确性之间实现了可观的平衡。这一成就引起了学术界和工业界的广泛关注。

YOLO网络，特别是从YOLOv3[9]开始，通常包括三个主要结构：backbone、neck和head。backbone从输入图像中提取深度特征。例如，YOLOv3、YOLOX[10]、YOLOv7[11]和YOLOv8[12]使用Darknet-53[9]，而YOLOv4[13]和YOLOv5[14]使用CSPDarknet-53[13]。YOLOv6[15]采用EfficientRep[15]，而YOLOv9[16]使用轻量级GELAN。

neck结构将多尺度特征融合，以增强多尺度表示能力。SPPELAN[16]优化了多尺度特征提取的有效性，并基于FPN[18]增强特征融合。头结构从neck解码出特征，以生成最终检测结果，从基于 Anchor 点的（例如，YOLOv5[14]，YOLOv7[11]）发展到更有效的 Anchor-Free 点（例如，YOLOv6[15]，YOLOv8[12]，YOLOv9[16]）和非极大值抑制（YOLOv10[19]）设计。

基于Transformer编码器-解码器架构的目标检测器，如DETR[20]系列，利用自注意机制的全局特征建模能力，实现了与最先进检测器相当的表现。然而，平方的计算复杂性在平衡速度和准确性方面带来了挑战。受到注意力机制有效性的启发，基于CNN的通道注意力机制，如SE[21]，ECA[22]，及其变体(23][24]，也展示了显著的改进。最近的研究表明，基于状态空间模型的方法（SMMs），如Mamba(25][26]，由于其强大的全局建模能力和线性复杂度的优势，在视觉任务中取得了显著成功。

作者受到以前工作的启发，提出了一种新颖的目标检测器DS MYOLO。该检测器集成了简化意愿扫描融合块（SimVSS Block），以实现深度全局特征融合，并引入了高效卷积算子（ECAConv）来解决标准卷积（SC）在跨通道交互中的缺陷。作者使用公开的CCTSDB 2021[30]交通标志数据集和VLD-45[31]车辆标志数据集来验证DS MYOLO的优势。实验结果表明，与相似规模的现有最先进检测器相比，DS MYOLO具有较强的竞争力。

总的来说，作者的贡献可以归纳为以下几点：

通过对特征融合进一步提升检测性能，作者设计了一种简化意愿扫描融合块（SimVSS Block）。该块由具有前馈网络的状态空间模型（SMM）系列组成，通过残差连接进行增强，有效地集成全局和局部特征。
作者提出了一种高效卷积算子（ECAConv）。通过在卷积后解耦通道并进行跨通道注意力交互，ECAConv显著确定了通道之间的依赖关系，增强了表示，同时保持了与SC相似的计算复杂度。
作者进一步根据提出的简化意愿扫描融合块（SimVSS Block）和高效卷积算子（ECAConv）设计了几种不同大小的实时目标检测器DS MYOLO（-N/-S/-M）。在CCTSDB 2021[30]和VLD-45[31]交通场景数据集中，DS MYOLO与现有最先进的实时目标检测器相比表现出强大的竞争力。

2.Related works

自20世纪50年代以来，人工智能领域已经取得了许多进步。尽管有许多成功的尝试，但实现通用人工智能（AGI）仍然是一个具有挑战性的目标。自2010年代以来，深度学习技术的兴起已为实现这一目标提供了一条途径。此外，在许多领域，如自然语言处理、图像识别和语音识别，人工智能已经广泛应用于日常生活和工作之中。

尽管人工智能已经取得了许多进展，但仍然存在许多问题需要解决。在本文中，作者将探讨人工智能领域中的几个关键问题，以了解为什么实现通用人工智能仍然具有挑战性，并提出一些可能的解决方案。

Real-time Object Detectors

随着自动驾驶技术的快速发展，开发实时且高效的目标检测器对于实际应用至关重要。研究行人已经投入大量时间和精力来开发高效目标检测器。在这些中，YOLO系列模型由于其简单的结构和端到端检测特性而受到了广泛关注。从最初的YOLOv3[9]， Backbone -颈-头网络的结构设计一直是提高模型性能的关键因素。YOLOv4[13]采用CSPNet[32]优化了先前使用的DarkNet Backbone 结构[9]，并引入了一系列数据增强方法(13][33] YOLOv5[14]结合了自适应边界框计算和自动学习率调整等策略。YOLO-X[10]采用标签分配策略（SimOTA）并引入了解耦头，以进一步提高训练效率和检测性能。YOLOv6[15]将再参数化方法集成到YOLO架构中，以平衡准确性和速度。YOLOv7[11]引入了扩展的Efficient Layer Aggregation Network（E-ELAN）作为 Backbone ，以进一步提高性能。YOLOv8[12]专注于分析之前YOLO模型的不足，并通过集成它们的优点实现了更高的性能。Gold-YOLO[34]提出了GD机制来提高多尺度物体融合性能。YOLOv9[16]引入了GELAN Backbone 并通过PGI增强模型的表达能力。YOLOv10[19]提出了一个无NMS的双标签分配策略，提高了模型的整体效率。

Transformer-base object detection

Transformer （Transformers）[35]凭借其自注意力机制在处理长距离依赖问题方面表现出色。DETR[20]是第一个将 Transformer 架构应用于目标检测的算法，通过消除人工设计的 Anchor 框和NMS组件简化了流水线，获得了广泛关注。然而，DETR的训练收敛效率仍然较低。随后，Deformable-DETR[36]通过将变形卷积与自注意力计算相结合，有效地加速了收敛速度。Conditional DETR[37]引入了条件交叉注意力机制，以加速DETR的训练。DAB-DETR[38]利用动态 Anchor 框直接作为 Transformer 解码器中的 Query ，提高了训练速度和推理性能。Anchor DETR[39]将基于 Anchor 点的 Query 设计和Row-Column Decoupled Attention (RCDA)相结合，在提高效率的同时实现了与DETR comparable的性能。DN-DETR[40]引入了一种基于 Query 去噪的训练方法，以加速DETR的训练过程并进一步提高性能。Group DETR[41]采用基于组的训练策略，实现了一对多分配，从而提高了训练效率。RT-DETR[42]通过分离不同尺度之间的交互和跨尺度融合，提出了一个高效的混合编码器结构，从而进一步提高模型效率和准确性。Rank-DETR[43]引入了一种以排名为导向的建筑设计，显著提高了推理精度。

SSMs-Based Vision State Space Model

近期，Mamba(25][26]由于在解决长程依赖问题方面的线性时间复杂度而受到了广泛关注。随后，Vision Mamba[27]是首个将SSM应用于视觉骨架网络的，实现了与视觉变形器（ViT）相当或甚至超过的性能。VMamba[44]引入了交叉扫描模块（CSM）来捕获全局感受野，以线性计算复杂度增强视觉表示。LocalMamba[45]提出了一种局部扫描策略，在保持局部窗口全局视图的同时，增强特征之间的依赖关系。EfficientVAMaba[29]将高效选择性扫描与骨架中的卷积相结合，实现了准确性和效率的平衡。MambaOut[46]探索了在视觉任务中SSM的必要性，实验验证了长序列和自回归特性的任务中SSM更高的重要性，并为后续任务如分割等提供基础支持。MSVMamba[47]引入了一种多尺度扫描机制，增强了在不同分辨率下学习依赖关系的能力。受到Mamba在各种视觉任务中突出贡献的启发，作者将SSM模块集成到网络特征融合中，实现了显著的性能提升。

3.Method

如图1所示，DS MYOLO的总体架构。在 Backbone 网络中，Stem由SC，批标准化和SiLU激活函数堆叠顺序，并下采样两次，得到一个2D特征图，尺寸为( \frac {H}{4},\frac {W}{4}),且包含C_{i}个通道。为了有效提取 Backbone 网络中的丰富特征，使用下采样步长为2的ECAConv，并在 Backbone 网络前引入ECACSP进一步提取丰富的局部特征。作者的目标检测模型在颈网络前引入融合层。这个融合层使用三个SimVSS Block来实现特征层{P3,P4,P5}的深度集成，同时保持低计算复杂度。在颈中，作者遵循PAFPN[12]的方法，使用下采样步长为2的3x3 SC，并通过ECACSP进一步集成局部特征。作者采用实用的解耦头和无NMS设计[19]，有效地解码输入中的小，中和大目标，实现不同尺度的有效检测。

Fusion Layer Based on SimVSS Block

YOLO传统模型将 Backbone 网络提取的特征直接传送到 Neck 网络进行特征通信。尽管这种方法有效地增强了局部特征的显著性，但它忽视了全球感受野内的特征依赖关系。以前的研究表明，增加感受野可以有利于提高模型性能。鉴于浅层网络的特征图大小较大，作者采用基于SSM的简化SimVSS块来处理 Backbone 网络输出特征。然后，将融合的全局特征通过前向网络进行非线性变换，以提高模型的拟合能力。

ECAConv and ECACSP Module

先前的研究(21][22]表明标准卷积忽略了通道的重要性。借鉴ECA[22]，作者提出了一种新的高效通道自注意力卷积（ECAConv），如图3所示。具体来说，作者在标准卷积之后进行自适应通道剥离，并通过全局池化聚合显著特征。然后，作者使用具有自适应核的一维卷积快速映射显著特征并生成权重。这些权重应用于相应通道，并通过逐元素乘法增强显著特征表达。最后，将加权通道与无权通道合并，并使用混合操作重新组织通道，以便于不同通道之间的信息交换和增强特征表达的多样性。

此外，作者还设计了一种轻量级特征提取模块ECACSP，其架构如图3(b)所示。具体来说，ECACSP 通过1✖️1 SC 调整维度，并应用两个3✖️3 ECAConv层进行深度特征提取。这些深度特征随后与通过深度可分离卷积处理的输入特征进行合并，并通过混合操作实现不同通道之间的特征交互。在 Backbone 网络中，作者使用ECAConv进行下采样，并使用ECACSP从特征图中提取丰富的信息。

4.Experiments

Setups

数据集：作者在公开的交通标志检测数据集CCTSDB 2021[30]和车辆标志检测数据集VLD-45[31]上进行了广泛的实验，以验证所提目标的检测器的有效性。值得注意的是，CCTSDB 2021数据集包括三个类别，每个类别都包含在不同照明条件下来自真实交通场景的多个尺度的目标。VLD-45数据集包含45种大型的车辆标志，这些标志是通过网络爬虫从互联网上收集的。为了确保公平的比较，作者遵循了CCTSDB 2021和VLD-45中所提供的数据集划分方法。

实现细节：作者在PyTorch框架中使用单个NVIDIA 4090 GPU进行实验。所有实验均从零开始训练200个 epoch，且没有使用预训练权重。前3个 epoch 采用预热。作者使用SGD优化器，将初始学习率从0.01减小到0.0001，并将动量设置为0.937。输入大小固定为640✖️640，批量大小设置为16。作者的数据增强策略包括随机缩放、平移和Mosaic[13]，其中在最后10个 epoch 中禁用了Mosaic数据增强。

Comparison with state-of-the-arts

在本节中，作者将比较提出的DS MYOLO与其他YOLO系列中最先进的实时检测器，包括YOLOv5[14]，YOLOv6[15]，YOLOv7[11]，YOLOv8[12]，Gold YOLO[34]，YOLOv9[16]，以及YOLOv10[19]。作者主要衡量模型的参数（M），FLOPs(G)，mAP(%)，检测框精确度，以及召回率。如表1所示，作者在CCTSDB 2021[30]上比较了DS MYOLO的各个版本与YOLO系列实时检测器的最新版本。总体上，DS MYOLO模型在多个指标上表现优秀。在轻量级模型中，DS MYOLO-N在4M参数和9G FLOPs下，实现了52.22%的mAP，超越了类似模型YOLOv5-N[14]，YOLOv6-N[15]，YOLOv7-Tiny[11]，的最新Gold YOLO-N[34] (49.98%)和YOLOv10-N[19] (51.37%)。随着通道扩展因子的增加，DS MYOLO进一步表现提高，DS MYOLO-S和DS MYOLO-M的mAP分别提高了0.58%和0.5%。值得注意的是，引入的SimVSS Block极大地提高了检测框的精确度，分别达到了88.1%，89.7%，和91%，超过了所有状态最先进的实时检测器版本。

表2: 对比与YOLO系列轻量级模型在VLD-45[31]上的状态最先进实时目标检测器.

在VLD-45数据集上，作者对DS MYOLO与YOLO系列的不同变体的轻量级模型进行了类似的比较。如图4所示，作者的DS MYOLO在CCTSDB 2021[30]和VLD-45[31]数据集上的验证指标随训练迭代的变化趋势。可以看出，DS MYOLO模型在不同的数据集和模型规模上表现出高准确率和稳定的检测能力。具体来说，在CCTSDB 2021上，DS MYOLO的检测准确率和召回率在前50个周期内迅速增加，然后持续改善，mAP一直呈上升趋势。在VLD-45上，DS MYOLO保持了相当稳定的性能，随着训练迭代增加到最大值，表现出显著的性能。

Ablation Studies

在这一部分，作者对提出的DS MYOLO进行了在CCTSDB 2021数据集上的系列消融研究。为了进一步验证DS MYOLO的有效性，作者选取DS MYOLO-N作为例子，独立检查其各个主要模块，重点关注Params (M)， FLOPs (G)，和 mAP (%)。为了便于观察各个模块对整体模型性能的影响，所有模型均训练了80个周期，以放大差异。

如表3所示，ECAConv通过在相似的参数和计算成本下，将mAP提高了1.14%，表明通过引入局部跨通道依赖性，模型性能得到了提升。在SimVSS模块中引入基于SSM的融合层，进一步提升了模型性能2.17%，尽管参数增加了1.3M，计算指令（指令）增加了2.1G，突出了其有效性。引入的ECACSP提高了模型性能1.68%，同时保持了与模型复杂性相近的水平。当ECAConv和SimVSS Block结合时，参数和计算成本略微增加，但mAP达到49.08%。后续加入ECACSP导致了0.27%的mAP提高。总体而言，将这些模块集成到DS MYOLO中，显著增强了相对较低计算成本的目标检测性能。此外，作者在YOLOv8[12]上针对ECAConv与其他降采样算子（降采样操作）的性能进行了消融研究，结果如表4所示。