导读
本文针对传统 Bottleneck 结构(由于过度强调批处理统计导致实例可区分性降低)和解耦 Head (计算冗余)在目标检测框架中的固有局限性,提出了两个新颖的模块:全通道全局自注意力的实例特定 Bottleneck (ISB)和实例特定非对称解耦 Head (ISADH)。ISB 模块创新性地重构特征图,通过批处理统计和实例特定特征的协同融合,建立了一个高效的全通道全局注意力机制。与之相辅相成的是,ISADH 模块开创了一种非对称解耦架构,通过双流批处理-实例表示融合,实现了分层多维度特征集成。
在 MS-COCO 基准数据集上的大量实验表明,在 YOLO-PRO 框架中协调部署 ISB 和 ISADH,在所有计算尺度上均实现了最先进的性能。具体来说,YOLOPRO 在 AP(N/S/M/L/X 尺度)上比 YOLOv8 高出 1.0-1.6%,在关键 M/L/X 组别中比 YOLO11 高出 0.1-0.5% AP,同时保持了有竞争力的计算效率。这项工作为开发适用于边缘设备的超高精度检测器提供了实用见解。
1. 引言
作为单阶段目标检测领域最具代表性的算法,YOLO(You Only Look Once)[1]在其发展历程中展现了显著的进化轨迹。自 2016 年 Joseph Redmon 等人[1]提出 YOLOv1 架构以来,该系列在架构设计和性能优化方面实现了革命性的突破,直至 2024 年发布 YOLO11[16]。从技术演化的角度来看,YOLO 系列的发展主要体现在三个关键技术维度:网络架构优化和图像增强技术的根本性创新,特征提取机制和损失函数设计的变革性进步,以及通过 Transformer 架构[21]集成实现的突破性范式转变。在注意力机制[22, 23, 24]优化、轻量级模型[18, 16]设计和多尺度特征融合[25, 26, 27, 28]方面取得了尤为显著的突破。值得注意的是,硬件计算能力的指数级增长与算法优化形成了正反馈循环,这不仅显著提高了平均精度(AP)[29]指标,还实现了前所未有的推理速度优化。这些技术创新极大地扩展了算法在自动驾驶[30]、智能安全[31]、医学图像分析[32]和工业检测[33]等领域的应用边界,确立了其在计算机视觉领域实时目标检测基准算法中的关键地位。这一进展为下一代目标检测技术的发展提供了理论基础和实践范例。
YOLO 系列算法的推理过程可以系统地分为三个关键阶段:图像预处理、模型推理和后处理。在图像预处理阶段,自 YOLOv5[6]版本以来,方法已经稳定,主要包括 HSV 颜色空间增强、仿射变换、马赛克数据增强[4]、MixUp[34]混合和 Copy-Paste[35]技术。这些预处理技术的核心目标是增强输入数据的随机性和多样性,从而有效提高模型的一般化性能。在模型推理阶段,性能优化主要依赖于网络架构和功能模块的创新设计。精心设计的模型结构或模块不仅显著提高了平均精度 AP,还优化了推理效率。YOLO 系列中的代表性结构模块包括残差块[36]、跨阶段部分网络(CSP)[25]、空间金字塔池化(SPP)[37]、特征金字塔网络(FPN)[26]、路径聚合网络(PAN)[27]和解耦头[10]。这些模块的协同作用共同构建了高性能的 YOLO 模型框架。在后处理阶段,非极大值抑制(NMS)[1]是核心方法,通过过滤冗余边界框,显著提高了检测结果的准确性,从而优化了 AP 指标。然而,NMS 对检测效率的负面影响不容忽视,其优化已成为一个关键的研究方向。例如,YOLOv10[15]创新性地引入了双重分配策略,成功消除了对 NMS 的需求,实现了更快、更高效的目标检测性能。
本研究采用 YOLOv8[13]作为 Baseline 框架,并系统地优化了 Backbone 网络和 Neck 网络中的 Bottleneck 结构[36],以及解耦 Head 架构,以实现 AP 和推理效率的协同提升。通过对现有 Bottleneck 结构的分析,作者识别出双层 3 × 3 卷积-批量归一化-激活(Conv-BN-Activation)[36]的两个关键局限性。首先,批量归一化操作过度强调批量样本的统计特征,导致单个实例特征表示的区分度减弱。其次,当前架构缺乏对空间位置信息的显式建模能力,阻碍了像素级全局上下文关系的捕捉。为了解决这些问题,作者提出了具有全通道全局自注意力的实例特定 Bottleneck (ISB)。该结构将基于实例归一化的卷积层与全通道全局自注意力机制相结合,不仅增强了通道特征在批量 Level 特征之上的区分度,而且实现了真正的全通道全局自注意力机制,从而有效地强化了全局加权特征之间的上下文关系,并强调了空间位置表示。
为了解决解耦头中的计算冗余问题,作者提出了一个实例特定非对称解耦头(ISADH),通过以下两个关键设计实现:1)构建非对称分支结构,以区分处理分类和回归任务中的特征流;2)在分类预测和边界框回归分支中构建并行特征处理路径,其中额外的分支采用实例归一化(IN)操作(卷积-归一化-激活)通过双流特征融合实现实例特定的差异化。通过这些设计,不仅有效地减少了解耦头结构的参数和 GFLOPs,而且还能实现针对批量样本特征的实例特定特征补偿,从而实现提高 AP 和效率的双重目标。
贡献,所提出的 YOLO-PRO 模型基于 YOLOv8 Baseline 架构,在 N/S/M/L/X 计算规模变体上分别实现了 1.0%、1.6%、1.4%、1.0%和 1.1%的一致 AP 提升(图 1)。此外,它在关键的 M/L/X 规模组中相对于 YOLO11 的对应模型实现了额外的 AP 提升,分别为 0.1%、0.5%和 0.2%,从而证实了其卓越的多尺度检测能力。
本研究的三个主要贡献如下:
- 作者提出了一种新颖的 Bottleneck 结构——全通道全局自注意力实例特定 Bottleneck (ISB)。该架构在卷积层上实现实例归一化(Conv-IN-Activation),以显式区分和放大实例间的通道特定判别特征。通过策略性地将图像块展开到通道维度,通过空间重组,作者构建了位置敏感的特征表示,这些表示与全通道信息与空间上下文内在相关。所 YOLO-PRO 在通道特征和空间位置之间建立了显式关联,同时保持相对于输入大小的线性复杂度增长。
- 作者提出了一种新型的解耦 Head ——实例特定非对称解耦 Head (ISADH)。所提出的网络架构采用非对称解耦 Head [28]设计,根据损失函数与检测 Head [28]之间的计算逻辑为不同的分支配置卷积核大小。具体来说,分类分支采用 3 × 3 的核,而边界框回归分支采用 1 × 1 的核,有效减少了结构的参数和 GFLOPs。
- 此外,该架构引入了一个实例特定特征分支,通过与原始分支的特征融合来补偿批量样本中实例 Level 的特征变化。这种创新的集成机制实现了双重优化目标:显著减少模型参数和 GFLOPs,同时通过增强特征表示能力保持具有竞争力的 AP。
2. 相关工作
2.1. Bottleneck
作为 YOLO 系列算法中 Backbone 和 Neck 网络的核心组件, Bottleneck 结构主要关注四个关键研究维度:计算效率优化、特征融合增强、梯度传播稳定性和模型轻量化设计。这些研究目标在 YOLO 系列算法的进化优化过程中始终得到体现。具体而言,在计算效率优化方面,代表性的方法如残差 Bottleneck [36]采用 1 × 1 卷积核进行通道减少,有效降低了后续大卷积核的计算复杂度。在特征融合增强方面,残差 Bottleneck 和 ELAN Bottleneck [40]都利用残差连接来保留多尺度特征信息。在梯度传播稳定性方面,这些 Bottleneck 结构通过 Shortcut [36]来解决深层网络中的梯度消失问题。模型轻量化主要通过深度可分离卷积[41]和重新参数化[42]技术实现。分析 YOLO 系列的演变过程揭示:YOLOv3[3]中引入的残差 Bottleneck 一直延续到 YOLOv5;YOLOv6[11]采用了 RepBottleneck 和 RepVGG 风格的架构;YOLOv7[12]和 YOLOv8 分别实现了 ELAN 及其改进版本;YOLOv9[14]回归到 Rep-Bottleneck;而 YOLOv10-11[15, 16]保持了 YOLOv8 的 Bottleneck 结构。总体而言, Bottleneck 结构的进展展示了渐进式改进,保持了基本的“Conv-BN-Activation”范式,并辅以 RepVGG[42]的轻量化策略。值得注意的是,当前方法在特征提取方面表现出同质性,缺乏对实例特定特征差异化的考虑,并且在特征处理中对注意力机制的探索不足。
2.2 解耦 Head
自 YOLOX[10]中首次引入解耦 Head 机制以来,YOLO 系列后续迭代广泛采用了这种架构范式,并在实施中进行了渐进式改进。解耦 Head 主要解决耦合结构中存在的两个关键局限性:1)由于分类和回归任务之间参数共享冲突导致的次优优化性能;2)由于不同任务之间特征分布差异引起的性能下降。为了解决这些问题,解耦 Head 将分类和定位任务分配给独立的子网络,为每个任务建立专门的计算路径和特征通道。这种架构分离已经在实验中被证明可以提升网络 AP、加速模型收敛,并在训练过程中减轻梯度冲突。在 YOLOX 之后,优化的解耦 Head 变体已被系统地集成到主流衍生版本中,包括 YOLOv6、YOLOv8-v11 和 YOLOCS[28]。然而,尽管在缓解任务冲突和提高推理效率方面取得了显著进展,现有的解耦 Head 设计存在一个关键的疏忽:它们没有考虑到不同检测场景中实例特定的特征变化。具体来说,任务特定分支的分离无法动态适应不同目标实例固有的异质特征表示,这可能会限制模型对复杂或模糊案例的判别能力。
3. YOLO-PRO
Bottleneck 结构是 YOLO 系列算法中 Backbone 网络和 Neck 网络的关键组成部分。其主要形式包括 YOLOv5 中的残差块结构(图 3(a))、YOLOv7 中的 ELAN 结构(图 3(b))以及 YOLOv8 中的改进 ELAN 结构(图 3(c))。甚至 YOLOv10 和 YOLOv11 也采用了 YOLOv8 的 Bottleneck 结构。这些结构不仅通过多级特征融合增强了特征提取能力,还提高了梯度传播的稳定性,防止了梯度消失。此外,它们在计算效率和模型轻量化方面表现出色,显著提升了推理速度,增加了模型的 AP 值,并增强了实时推理能力。然而,在作者对这些 Bottleneck 结构的研究中,作者发现所有这些结构中的卷积层都利用 BN 对批量样本的特征进行归一化,并通过可训练参数调整特征分布。虽然这种方法有效地增强了模型的一般化能力,但它忽略了单个样本通道特征之间的差异。过分强调批量的统计特征可能导致具有相似或模糊特征的物体类别(例如,远处的飞机和鸟)被错误分类。这可能导致在用新样本进行推理时 AP 值下降,并在训练过程中优化模型权重时产生梯度冲突。此外,这些 Bottleneck 结构主要是继承或仅作最小程度调整自图像分类网络[36]。应强调的是,图像分类任务侧重于识别整个图像的全局语义信息,其中物体定位和数量估计是不相关的。相比之下,目标检测需要精确识别多个实例,包括准确的空间定位和类别识别。因此,直接移植或轻微调整面向分类的 Bottleneck [36]结构与检测目标不完全匹配。其关键局限性在于它们仅关注特征提取,而缺乏显式的空间位置建模能力,因此无法建立像素级的全局上下文相关性。这种架构缺陷直接导致检测网络的位置不敏感,从而降低了 AP 性能。为了解决这些问题,作者提出了一种新的 Bottleneck 结构,命名为实例特定 Bottleneck 与全通道全局自注意力(ISB)(图 4)。
ISB 结构向 YOLOv8 的瓶 Neck 分引入了一个额外的分支。该分支的主要目标是增强模型学习单个实例特征表示的能力,同时提高模型对全局上下文关系的关注度,并增加其对空间位置信息的敏感性。基于这两个目标,ISB 分支被设计为包含四个关键组件:实例特定模块、特征 Patch -通道重构器、自注意力模块和特征 Patch -通道重组器。
与 ViT 和 Swin-Transformer 相比,YOLO-PRO 在输入自注意力特征图的构建上进行了根本性的重新设计,通过将多头机制中的 Head 分离方法[21]替换为特征块大小自适应(图 6(a))。处理后的特征图(x3)被输入到自注意力模块中,基于特征块内的固定位置像素推导出低分辨率的全通道全局加权特征(图 6(b))。这些部分特征随后被聚合,形成全面的全通道全局表示(图 6(c))。为了解决块内像素信息交互不足的问题,作者实现了一个 3x3 卷积层(CIS),以促进每个块内跨像素特征共享,从而实现完整全通道全局注意力加权。这种方法不仅有效地捕捉了特征块 Level 的跨通道全局依赖关系,而且显著提高了自注意力机制的计算效率。此外,考虑到与分类任务相比,目标检测模型对位置敏感性的提高,作者提出的全通道注意力机制在建模特征块及其组成像素之间的全局空间关系方面表现出卓越的能力,最终提高了目标检测的 AP 值。
总结来说,ISB 模块的设计初衷是通过融合实例级特征到批量级特征表示中,从而增强实例特征的区分度。同时,ISB 模块创新性地跳出了传统的具有子空间划分的多头注意力范式,将特征图重构为特征块,并在每个块的全通道维度和空间固定位置上建立全局注意力关联。随后,使用卷积层来实现跨块特征交互,从而构建了一个高效的完整通道全局自注意力机制。这种结构不仅加强了上下文依赖建模和空间位置感知表示,还在 AP 上实现了显著的提升。
3.2 实例特定非对称解耦 Head (ISADH)
解耦头的优化一直是研究的重点,因为其将分类和回归任务解耦到独立的网络分支中,这必然导致模型参数和计算成本(GFLOPs)的大幅增加,从而降低模型的总体推理效率。此外,由于解耦头直接生成最终的检测输出,其结构设计对 AP 有重要影响。为了解决这两个目标,作者通过架构精炼和计算效率提升来优化解耦头,提出了两个关键设计创新。
第一个关键设计(如图 7(b)中橙色虚线框所包围的区域)涉及将 YOLOv8 解耦头(图 7(a))中边界框预测分支的 Kernel 大小从 3×3 减小到 1×1。这种修改显著减少了解耦头的参数和 GFLOPs,同时保持了 AP 性能。作者的设计理念借鉴了 YOLOCS 对检测 Head 与损失函数之间逻辑关系的分析[28]。在目标检测中,置信度分支(在 YOLOv8 中与分类分支合并)主要处理全局网格预测,使得边界框回归在任务优先级上从属于分类。因此,战略性地最小化分配给回归任务的参数不仅保持了检测精度,还提高了解耦头的效率。
第二个关键设计(图 7(b)中绿色虚线框所包围的区域)涉及向分类和回归任务分支引入并行实例特定分支。具体来说,作者在每个任务分支中构建了一个专用的特征处理路径,该路径包含一个 1×1 卷积层、实例归一化层和激活函数。这种结构旨在从单个样本中提取实例特定的通道归一化特征,并自适应地将它们与批量 Level 的统计特征融合,从而增强解耦检测 Head 表征样本独特判别特征的能力。所提出的双流特征融合机制不仅融合了批量归一化中的全局统计信息,还保留了实例特定特征。通过这些互补特征的协同优化,这种方法在检测 Head 的 AP 上实现了显著提升。
总之,这两个关键设计共同构成了作者提出的实例特定非对称解耦 Head (ISADH)模块。该结构旨在实现双重目标:1)通过优化参数和 GFLOPs,显著提高推理效率;2)通过协同整合实例特定特征与批统计特征,显著提升检测精度,如 AP 的显著提升所示。
4. 实验
作者的实验框架基于 YOLOv8 作为 Baseline ,所有配置均严格与原始实现保持一致,以确保可比性。受控实验设置包括四个关键方面:1)数据增强 Pipeline :保持相同的预处理策略(Mosaic 增强、MixUp 混合和 Copy-Paste 合成);2)网络架构:保留 Backbone、Neck 和 Detection Head 的结构完整性(仅替换目标模块);3)后处理:一致应用非极大值抑制(NMS);4)超参数:完全继承原始训练配置。提出的 ISB 和 ISADH 模块直接集成到 YOLOv8 架构中,以进行端到端训练和验证。为了与最先进(SOTA)方法进行综合比较,作者在 MS-COCO 2017 基准数据集[29]上进行了实验,遵循标准划分:train2017[29]用于模型训练,val2017[29]用于性能验证,test2017[29]用于最终评估。所有模型均使用配备 8 个 NVIDIA RTX3090 GPU 的计算集群训练了 500 个 epoch。
4.1 可视化分析
可视化分析采用了 Eigen-CAM[45]对从 val2017 数据集中选取的代表性样本生成注意力 Heatmap 。选取的样本被分为五类:单类单目标、单类多目标、单类重叠目标、多类重叠目标和多类多目标。使用 Baseline YOLOv8 模型、最先进的 YOLO11 模型以及作者提出的 YOLO-PRO 模型对这些样本生成注意力 Heatmap ,随后进行了比较分析。
在单类单目标类别组(图 8(a))中,作者提出的 YOLO-PRO 模型在注意力 Heatmap 中对目标特征区域的覆盖比其他模型更精确,背景噪声干扰最小。在单类多目标类别(图 8(b))中,YOLOv8 模型在目标之间的注意力 Heatmap 分布不均匀,显示出对位于中心的目标的偏好。YOLO11 模型为每个目标生成了更宽的注意力 Heatmap 区域,但遭受了过多的背景噪声和对外围目标的注意力分配不一致的问题。相比之下,作者的 YOLO-PRO 模型在所有目标之间实现了均匀的注意力分布,同时保持了最小的背景干扰。
对于单类重叠目标组(图 8(c)),YOLOv8 和 YOLO11 都表现出不同程度的注意力偏差,未能区分重叠区域内的不同实例。然而,YOLO-PRO 模型却产生了均匀分布的注意力 Heatmap ,能够清晰地区分重叠实例。在多类重叠目标组(图 8(d))中,YOLO11 模型对特定类别(例如,优先检测“狗”)表现出严重的注意力偏差,而 YOLOv8 为共存类别生成了不均匀的 Heatmap 。YOLO-PRO 模型在两者之上,实现了平衡的注意力分布,没有类别特定的偏差。
在多类别多目标组(图 8(e))中,YOLO11 模型继续表现出显著的关注偏差。YOLOv8 模型在相邻目标之间(例如,最左侧和第二左侧的人实例)存在特征混淆,并优先考虑高频类别(例如,MS-COCO 中的“人”类别),导致全局注意力分配不理想。
YOLO-PRO 模型避免了过度优先考虑主导类别,并减轻了大型目标对小型目标的压制。虽然所有三个模型都表现出不均匀的全局注意力分布,但 YOLO-PRO 在抑制过度的大型目标主导和类别优先级方面表现出更优越的性能。可视化分析最终证明了 YOLO-PRO 的卓越性能。
4.2 消融实验
为了验证所提出模块的有效性,作者在 MS-COCO 数据集上进行了消融实验。基于 Baseline YOLOv8 架构,作者逐一引入创新的 ISB 和 ISADH 模块,并组合使用这些模块,同时比较了 AP 指标的变化,并评估了参数(Params)和计算成本(GFLOPs)的变化。表 1 所示的实验结果展示了与 Baseline 模型相比的 AP 提升,绿色高亮表示提升幅度。
在将 ISB 模块集成到 Baseline 架构中后,作者观察到关键检测指标 AP 提升了 0.9%,同时参数增加了 200 万,计算成本上升了 8.3 GFLOPs。通过最小资源开销实现的成绩提升证实了该模块的结构有效性。值得注意的是,将 ISADH 模块集成到 Baseline 模型中不仅使 AP 提升了 0.2%,而且分别将参数和计算成本减少了 0.4M 和 1.5 GFLOPs,展示了其优化能力。ISB 和 ISADH 模块的联合集成最终实现了 1.0%的 AP 提升,额外参数增加了 160 万,计算增量达到 6.7 GFLOPs,证实了双模块协同作用在可接受的资源约束内实现了最佳性能提升。
4.3 比较实验
本研究通过同时调整网络深度因素和宽度因素,同时约束最大通道数,进行多尺度模型比较实验,从而构建了五个计算尺度模型变体(N/S/M/L/X),具体细节如表 2 所示。为确保实验可比性,所有尺度模型的深度缩放比、宽度缩放比和最大通道配置均严格符合 YOLOv8 Baseline 模型规范(参数配置见表 2)。所有模型均在 MS-COCO 数据集上进行了训练和评估,以 AP 作为主要评估指标,并比较分析了包括参数(Params)、GFLOPs 和推理延迟在内的关键指标。在标准硬件条件下进行了延迟测量:使用配备 TensorRT 加速框架的 NVIDIA T4 GPU 和半精度浮点(FP16)模式。为了减轻硬件环境波动引起的测量偏差,最终延迟数据基于每张图像的最小推理时间确定。
如表 3 所示,在多个计算尺度上对所提出的 YOLOPRO 模型与 YOLOv8 Baseline 模型进行的比较分析表明,YOLO-PRO 变体在 AP(平均精度)上比其 YOLOv8 对应模型提高了 1.0%-1.6%,同时保持了可比的推理延迟、参数(Params)和 GFLOPs(每秒十亿次浮点运算)。所有 YOLO-PRO 变体在 AP 指标上均优于 Baseline 模型。值得注意的是,YOLO-PRO 的 L 尺度变体在 AP 上与 Xscale YOLOv8 模型相当,同时展现出更优的计算效率。这些结果证实了 YOLO-PRO 在保持资源效率的同时实现了全面的性能突破,确立了该领域领先的性能地位。
为进一步验证模型进步,本研究对 YOLO-PRO 与最先进的 YOLO11 模型(见表 4,其中红色高亮表示 AP 劣势,绿色高亮表示优势)进行了多维性能比较。实验结果表明,YOLO-PRO 变体(M/L/X)在 AP 上优于其 YOLO11 对应版本 0.1%至 0.5%。然而,由于 YOLO11 与 YOLOv8 在基本架构上的方法差异,YOLO-PRO 在参数、GFLOPs 和推理延迟等效率指标上与 YOLO11 存在微小的差距。关键的是,YOLO-PRO 在核心检测精度指标上保持了持续的优越性,这证实了其在目标检测任务中的最先进有效性。
4.4 与 SOTA 的比较
如表 5 所示,本研究在统一的基准框架下,对提出的 YOLO-PRO 与当代 SOTA 目标检测器进行了系统性的比较分析。评估涵盖了五个关键维度:主要检测准确度指标(AP)、输入分辨率、参数(Params)、GFLOPs 和推理延迟。值得注意的是,表中加粗的数值表示在其各自的计算规模组(N/S/M/L/X)中实现最优 AP 性能的检测器。
如表 5 中的实验数据所示,所提出的 YOLOPRO 在中等(M)和大型(L)计算规模组别中实现了最优的平均精度(AP),同时与同类模型相比,保持了可比的参数(Params)、GFLOPs 和推理延迟。这一核心指标的系统性比较证实了 YOLO-PRO 在目标检测任务中的架构进步,证实了其 SOTA(最先进的技术)地位。
5. 结论
本研究系统地探讨了传统 Bottleneck 结构和解耦头的固有局限性,提出了两种创新解决方案:具有全通道全局自注意力的实例特定 Bottleneck (ISB)模块和实例特定非对称解耦头(ISADH)模块。ISB 模块通过特征图重建协同整合批量统计特征和实例特定特征,建立了一个高效的全通道全局自注意力机制。同时,ISADH 模块开创性地提出了一种非对称解耦头架构,通过协同整合批量统计特征和实例特定表示,实现多维度特征的层次融合。大量实验证实,两种模块的协同部署有效地克服了现有的性能 Bottleneck ,同时保持了计算效率,最终在目标检测领域建立了新的 SOTA 基准。
参考
[1]. YOLO-PRO: Enhancing Instance-Specific Object Detection with Full-Channel Global Self-Attention
END
作者:小书童
来源:集智书童
推荐阅读
- SGLang MLA 实现解析
- 美团基于 SGLang 提供 INT8 无损满血版 DeepSeek R1 部署方案
- 革新文本-图像检索,视觉 Prompt 预测+轻量训练性能超 BLIP2
- ViT架构革新,Jumbo增强CLS Token,小模型性能涨13.5%,跨模态推理高效无损
欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。