Happy · 2月20日

YOLOv12 来袭,更高性能、更快速度~

image.png

Image

本文创新点

这篇论文围绕实时目标检测,在网络架构设计上引入创新,克服了传统注意力机制在实时应用中的速度瓶颈,提升了检测性能。

  • 构建注意力中心框架

    突破传统 YOLO 依赖 CNN 架构的局限,以注意力机制为核心设计 YOLOv12 框架,发挥注意力机制强大的建模能力,打破 CNN 模型在 YOLO 系列中的主导地位。

  • 高效的区域注意力模块

    提出简单有效的区域注意力模块(A2),通过简单的特征图划分方式,在减少注意力计算复杂度的同时,保持较大的感受野,显著提升计算速度,且对性能影响较小。

  • 残差高效层聚合网络

    引入 R-ELAN 解决注意力机制带来的优化挑战。通过块级残差设计和重新设计的特征聚合方法,增强特征聚合能力,降低模型计算成本和参数 / 内存使用,保证大模型稳定训练。

  • 优化基础注意力机制

    对基础注意力机制进行多项改进,如调整 MLP 比例、采用卷积算子、去除位置编码并引入大的可分离卷积感知位置信息等,使模型更适配 YOLO 系统的实时性要求,提升综合性能。

方法实现

Image

  • 区域注意力模块实现

    将分辨率为的特征图划分为个大小为或的区域(默认) ,仅需简单的 reshape 操作,避免复杂的窗口划分,减少计算成本,从降至。

  • R-ELAN 实现

    在整个模块中引入从输入到输出的带有缩放因子(默认 0.01)的残差快捷连接,类似层缩放技术,但针对区域注意力进行优化。重新设计特征聚合方式,先通过过渡层调整通道维度,再经后续模块处理后拼接,形成瓶颈结构。

  • 架构改进实现

    调整 MLP 比例,在 N/S/M 规模模型中设为 2,其他设为 1.2,合理分配计算资源;用 nn.Conv2d + BN 替代 nn.Linear + LN,充分利用卷积算子的高效性;去除位置编码,引入 7×7 的大可分离卷积(位置感知器)帮助区域注意力感知位置信息。

本文实验

Image

  • 对于 N 规模模型,YOLOv12-N 在 mAP 方面分别优于 YOLOv6-3.0-N 、YOLOv8-N 、YOLOv10-N  和 YOLOv11 3.6%、3.3%、2.1%和 1.2%,同时保持相似甚至更少的计算量和参数,并实现 1.64 ms/图像的快速延迟速度。
  • 对于 S 规模模型,YOLOv12-S 具有 21.4G FLOPs 和 9.3M 参数,以 2.61 ms/图像的延迟实现了 48.0 mAP。  它分别优于 YOLOv8-S [24]、YOLOv9-S [58]、YOLOv10-S [53]和 YOLOv11-S [28]3.0%、1.2%、1.7%和 1.1%,同时保持相似或更少的计算量。  与端到端检测器 RT-DETR-R18 [66] / RT-DETRv2-R18 [41]  相比,YOLOv12-S 取得了可比拟的性能,但推理速度更快,计算成本更低,参数也更少。
  • 对于 M 尺度模型,YOLOv12-M,具有  67.5G FLOPs 和  20.2M 个参数,实现了  52.5 mAP 性能和  4.86 ms/图像的速度。与 Gold-YOLO-M [54]、YOLOv8-M [24]、YOLOv9-M [58]、YOLOv10 [53]、YOLOv11 [28]  和 RT-DETR-R34 [66] / RT-DETRv2-R34 [40]  相比,YOLOv12-S 表现更优。
  • 对于 L 尺度模型,YOLOv12-L 甚至超过了 YOLOv10-L [53],FLOPs 少了  31.4G。YOLOv12-L 以可比拟的 FLOPs 和参数,比 YOLOv11 [28]  的 mAP 高  0.4%。YOLOv12-L 还优于 RT-DERT-R50 [66] / RT-DERTv2-R50 [41],速度更快,FLOPs 更少 (34.6%),参数也更少 (37.1%)。
  • 对于 X 尺度模型,YOLOv12-X 明显优于 YOLOv10-X [53] / YOLOv11-X [28],分别高出  0.8%  和  0.6%,速度、FLOPs 和参数方面则可比拟。YOLOv12-X 再次击败了 RT-DETR-R101 [66] / RT-DETRv2-R101 [40],速度更快,FLOPs 更少 (23.4%),参数也更少 (22.2%)。
  • 特别地,如果使用 FP32 精度评估 L/X 尺度模型(这需要分别以 FP32 格式保存模型),YOLOv12 将实现  ∼0.2% mAP 的改进。这意味着 YOLOv12-L/X 将报告  33.9%/55.4% mAP。

END

来源:AIWalker

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
6204
内容数
195
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息