本文创新点
这篇论文围绕实时目标检测,在网络架构设计上引入创新,克服了传统注意力机制在实时应用中的速度瓶颈,提升了检测性能。
构建注意力中心框架
突破传统 YOLO 依赖 CNN 架构的局限,以注意力机制为核心设计 YOLOv12 框架,发挥注意力机制强大的建模能力,打破 CNN 模型在 YOLO 系列中的主导地位。
高效的区域注意力模块
提出简单有效的区域注意力模块(A2),通过简单的特征图划分方式,在减少注意力计算复杂度的同时,保持较大的感受野,显著提升计算速度,且对性能影响较小。
残差高效层聚合网络
引入 R-ELAN 解决注意力机制带来的优化挑战。通过块级残差设计和重新设计的特征聚合方法,增强特征聚合能力,降低模型计算成本和参数 / 内存使用,保证大模型稳定训练。
优化基础注意力机制
对基础注意力机制进行多项改进,如调整 MLP 比例、采用卷积算子、去除位置编码并引入大的可分离卷积感知位置信息等,使模型更适配 YOLO 系统的实时性要求,提升综合性能。
方法实现
区域注意力模块实现
将分辨率为的特征图划分为个大小为或的区域(默认) ,仅需简单的 reshape 操作,避免复杂的窗口划分,减少计算成本,从降至。
R-ELAN 实现
在整个模块中引入从输入到输出的带有缩放因子(默认 0.01)的残差快捷连接,类似层缩放技术,但针对区域注意力进行优化。重新设计特征聚合方式,先通过过渡层调整通道维度,再经后续模块处理后拼接,形成瓶颈结构。
架构改进实现
调整 MLP 比例,在 N/S/M 规模模型中设为 2,其他设为 1.2,合理分配计算资源;用 nn.Conv2d + BN 替代 nn.Linear + LN,充分利用卷积算子的高效性;去除位置编码,引入 7×7 的大可分离卷积(位置感知器)帮助区域注意力感知位置信息。
本文实验
- 对于 N 规模模型,YOLOv12-N 在 mAP 方面分别优于 YOLOv6-3.0-N 、YOLOv8-N 、YOLOv10-N 和 YOLOv11 3.6%、3.3%、2.1%和 1.2%,同时保持相似甚至更少的计算量和参数,并实现 1.64 ms/图像的快速延迟速度。
- 对于 S 规模模型,YOLOv12-S 具有 21.4G FLOPs 和 9.3M 参数,以 2.61 ms/图像的延迟实现了 48.0 mAP。 它分别优于 YOLOv8-S [24]、YOLOv9-S [58]、YOLOv10-S [53]和 YOLOv11-S [28]3.0%、1.2%、1.7%和 1.1%,同时保持相似或更少的计算量。 与端到端检测器 RT-DETR-R18 [66] / RT-DETRv2-R18 [41] 相比,YOLOv12-S 取得了可比拟的性能,但推理速度更快,计算成本更低,参数也更少。
- 对于 M 尺度模型,YOLOv12-M,具有 67.5G FLOPs 和 20.2M 个参数,实现了 52.5 mAP 性能和 4.86 ms/图像的速度。与 Gold-YOLO-M [54]、YOLOv8-M [24]、YOLOv9-M [58]、YOLOv10 [53]、YOLOv11 [28] 和 RT-DETR-R34 [66] / RT-DETRv2-R34 [40] 相比,YOLOv12-S 表现更优。
- 对于 L 尺度模型,YOLOv12-L 甚至超过了 YOLOv10-L [53],FLOPs 少了 31.4G。YOLOv12-L 以可比拟的 FLOPs 和参数,比 YOLOv11 [28] 的 mAP 高 0.4%。YOLOv12-L 还优于 RT-DERT-R50 [66] / RT-DERTv2-R50 [41],速度更快,FLOPs 更少 (34.6%),参数也更少 (37.1%)。
- 对于 X 尺度模型,YOLOv12-X 明显优于 YOLOv10-X [53] / YOLOv11-X [28],分别高出 0.8% 和 0.6%,速度、FLOPs 和参数方面则可比拟。YOLOv12-X 再次击败了 RT-DETR-R101 [66] / RT-DETRv2-R101 [40],速度更快,FLOPs 更少 (23.4%),参数也更少 (22.2%)。
- 特别地,如果使用 FP32 精度评估 L/X 尺度模型(这需要分别以 FP32 格式保存模型),YOLOv12 将实现 ∼0.2% mAP 的改进。这意味着 YOLOv12-L/X 将报告 33.9%/55.4% mAP。
END
来源:AIWalker
推荐阅读
- 从文字到视觉:EvalMuse-40K 如何评价 T2I 模型的进化
- FoundIR: 释放百万规模高质量训练数据,助推图像复原基础模型
- CPU推理1ms的SHViT Backbone 来啦
- "羊驼"入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
- ICLR2024 | 东北大学提出用于移动端的高效调制方案EfficientMod,即将开源!
本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。