YOLO 家族大对决:YOLOv11 与 Transformer 称霸两类目标检测 !

image.png

中国摘要随着全球工业生产的迅速发展,对电力设备可靠性的需求不断提高。确保电力系统运行的稳定性需要准确的方法来检测电力设备中的潜在故障,从而保证电力能源的正常供应。

在本文中,全面评估了 YOLOv5、YOLOv8、YOLOv9、YOLOv10 和最新的 YOLOv11 方法在电力设备目标检测方面的性能。

实验结果显示,这几种方法在公共数据集上的平均精度(mAP)分别为 54.4%、55.5%、43.8%、48.0% 和 57.2%,其中 YOLOv11 方法的检测性能最高。

此外,YOLOv11 在召回率方面优于其他方法,并且在减少误检方面表现出色。

综上所述,研究结果表明,YOLOv11 模型为电力设备目标检测提供了可靠和有效的解决方案,代表着增强电力系统运行可靠性的一个有前途的方法。

I. INTRODUCTION

近年来,全球经济行业的迅猛发展突显了环境保护的重要性。依赖燃烧传统能源源极大地增加了温室气体排放和有害污染物的释放 [1], [2]。因此,对可再生和低污染能源的需求急剧上升,与可持续发展目标相契合 [3]。可再生能源因其可再生性和对环境影响较小的特点,提供了实现这些目标的有前景的道路。随着可再生能源尤其是电力领域的广泛应用,人们对这些系统的稳定性和可靠性提出了更高的期望。然而,传统的手动检测方法在满足这些需求方面存在不足。此类方法不仅效率低下,还需要技术行人进行操作。

与传统的手工检测方法相比,深度学习在目标检测方面提供了显著的优势,包括高效性、精确性和成本效益。传统深度学习技术通常使用滑动窗口算法逐步扫描目标图像,生成多个候选区域进行进一步分析。然后,在这些区域内提取特征,并利用支持向量机(SVM)[5]等方法进行分类。主要的特征提取方法包括维基-琼斯检测器[6]、方向梯度直方图(HOG)检测器[7]以及基于 AdaBoost 的集成学习算法[8]。然而,这些方法往往依赖于人工设计的特征,容易受到背景噪声导致的误检影响。因此,传统基于机器学习的目标检测方法已经无法满足现代工业生产的需要。

近年来,人工智能的发展推动了深度学习能力的提升,特别是在图像处理任务方面。深度学习技术提供了无与伦比的速度和准确性,使其在工业应用中越来越受欢迎[9]。因此,研究行人开始将深度学习模型应用于电力设备的目标检测任务中[10]。其中,仅需观看一次(YOLO)算法,作为一种实时目标检测算法,受到了广泛关注。

与传统方法不同,YOLO 算法无需预先生成候选区域,可以直接预测图像中目标的类别和位置。自从 2015 年首次提出以来,YOLO 经历了显著的进步,最新的版本 YOLOv11 在检测速度和性能上展现出了显著提升[11]。鉴于这些特性,YOLO 深度学习框架在电力设备目标检测方面具有巨大潜力,能够为满足现代工业需求带来的挑战提供一个稳健的解决方案。

II.EXPERIMENTAL DESIGN OF POWER EQUIPMENT OBJECT DETECTIONBASED ONYOLO

YOLO 是一种 renown 的一阶段目标检测算法,以其高效性和简洁性著称。YOLO 框架包含多个组件,包括构建目标检测数据集、图像预处理、使用目标检测训练数据集进行模型训练以及使用验证数据集验证结果。经过多次迭代,YOLO 的 Backbone 网络经历了显著进步,整合了更深层次的功能融合和多尺度特征提取,以增强其电力设备目标检测能力。

自 YOLOv5 [12] 起,通过引入 CSPNet 框架优化特征传播和网络容量,显著提升了检测效率和准确性。从 YOLOv8 [13] 开始,该系列首次采用 Anchor-Free 机制,使模型能够更好地适应不同尺寸电力设备目标的检测。与此同时,YOLO 系列的更新还包括对损失函数的创新改进,进一步细化了模型的检测精度。尽管原始的 YOLO 算法提供了卓越的检测速度,但其准确性仍然落后于两阶段检测算法。然而,随着迭代更新,新的 YOLO 版本在保留快速处理速度的同时,实现了检测准确性的大幅提升。

值得注意的是,YOLOv11 [14] 模型代表了一个重要里程碑,实现了速度与准确性的良好平衡,甚至超过了某些两阶段算法的性能。这使得 YOLOv11 在电力设备目标检测中非常有效,既具备现代应用所需的高度精准性又兼具效率。图 1 展示了 YOLOv11 网络的整体架构。

Image

A.UpdateofYOLO model

YOLOv3 [15] 引入了多尺度预测,使模型能够在三个不同的尺度上检测边界框。这一增强显著提升了模型检测不同大小目标的能力。将空间金字塔池化(SPP)层整合到 Backbone 网络中进一步扩大了模型的感受野,增强了其特征提取能力。YOLOv5 通过在 Backbone 网络中采用 C3 模块进一步提升了这些能力,该模块降低了计算复杂度并提高了推理速度。它还引入了 Mosaic 数据增强方法,特别是 Mosaic4,这种方法随机组合和变换四张图像以增强特征表示能力和模型学习能力。此外,还增加了自适应 Anchor 框优化,使模型能够更好地处理不同大小的目标。YOLOv8 进一步细化了架构,用 C2f 模块替换了 C3 模块,提升了特征提取效率,并引入了 Anchor-Free 检测机制以提高小目标的检测性能。

Mosaic 数据增强过程得到了优化,在最终十次训练周期中不再使用,从而提高了模型的泛化能力。此外,还集成了特定任务的损失优化以提升检测精度。YOLOv10 [17] 引入了双头架构,包括一对多和一对一的 Head 。在训练过程中,两个 Head 都参与其中,而在推理时仅使用一对一 Head ,以提升预测精度。SPPF 模块之后加入的 PSA 模块促进了全局特征学习,并进一步提高了检测性能。最新的迭代版本 YOLOv11 用 C3K2 模块替换了 C2f 模块,C3K2 是一种定制的 CSP 缓冲层,包含两个较小的卷积层,可以提升处理速度而不牺牲性能。虽然保留了 YOLOv8 的 SPPF 模块,YOLOv11 引入了 C2PSA 模块,该模块结合了通道和空间信息以及多头注意力机制,以实现更高效的特征提取。

还对自适应 Anchor 框机制进行了优化,以适应多样化的数据集,从而提升检测精度。除了在电力设备中的目标检测外,YOLOv11 还将其功能扩展到了实例分割、图像分类、姿态估计和旋转边框检测(OBB),以应对广泛的计算机视觉任务和挑战。

为了进一步提高检测性能,YOLOv9 [16] 引入了渐进梯度集成(PGI)技术,解决了在极深架构中深度监督存在的局限性,并使轻量级架构更加实用。提出了一种新的网络架构,称为广义高效层聚合网络(GELAN)。

GELAN 结合了跨阶段部分网络(CSPNet)和高效层聚合网络(ELAN)的设计,平衡了模型的轻量化设计、推理速度和准确性。跨阶段部分连接被用于在不同阶段之间链接特征图,丰富了语义信息并改进了

B. Power equipment object detection method based on YOLOv11

YOLOv11 目标检测方法通过最小化综合损失函数来提升其性能,该损失函数整合了多种组件。此损失函数包括分布式 Focal Loss、边界框回归损失以及类别概率损失。优化过程涉及结合这些单独的损失项,并采用先进的优化算法以精炼模型在目标检测任务中的性能。YOLOv11 损失函数的具体公式表示为:

image.png

YOLOvl1 模型由三个主要组件构成:Backbone、Neck 和 Head。Backbone 作为基础部分,用于从输入图像中提取多尺度特征图,这通过一系列卷积层和特殊模块实现,旨在生成不同分辨率的特征图。这些特征图捕捉了后续处理所需的空间和语义信息。Neck 作为中间阶段,负责聚合和增强来自多个尺度的特征,然后传递给 Head 网络进行预测。

这一过程通常涉及特征图的上采样和拼接,使模型能够高效地捕捉和利用多尺度信息。Neck 在连接 Backbone 和 Head 组件方面发挥着关键作用,增强了特征表达能力并支持稳健的预测。Head 负责生成最终输出,包括物体边界框和类别标签。它处理 Neck 传递过来的丰富特征图,以高精度预测物体的位置和分类。

总结而言,Backbone 提取了关键的特征表示,Neck 负责整合和精炼这些特征跨尺度信息,并生成最终的预测。Neck 作为关键的连接部分,通过上采样和拼接多尺度的 Backbone 特征,增强了其表达能力,从而为 Head 提供了一个坚实的基础,使其能够产生精确可靠的预测。

C. ExperimentSetup

在本文中,对 YOLOv5、YOLOv8、YOLOv9、YOLOv10 和 YOLOv11 进行了全面评估。每种模型均训练了 100 个周期,批量大小为 32,使用随机梯度下降(SGD)作为优化器,并设置初始学习率为 0.01。

实验配置包括 10 个工作线程、IoU 阈值为 0.5 以及标准化输入图像尺寸为 640 × 640 像素。实验在配备 NVIDIA Tesla V100 GPU(16 GB)、10 核心 Intel Xeon Platinum 8160T CPU 以及 16 GB 内存的云服务器上进行。开发环境包含 Python 3.8、CUDA 11.3 和 PyTorch 1.10,运行于 Windows 11 操作系统上。

D.Experimentalresultsand analysis

在本文中,作者使用了一个电力设备目标检测的数据集来评估模型性能。具体而言,作者采用了一个从 Roboflow 平台获取的公开电力设备目标检测数据集。

该数据集包括两类已标注的目标:电线和 Transformer 。数据集中缺陷的分布情况如图 2 所示,总共包含 497 张图像。作者将数据集分割为训练数据集和验证数据集,其中 397 张图像分配给训练数据集,100 张图像用于验证,比例为 4:1。

Image

测试配置的性能结果呈现在图 3 中。可以观察到,YOLOv11 模型在单个和多个电力设备目标场景下的检测准确性、漏检和误检方面均显示出显著的性能提升。

Image

因此,新开发的 YOLOv11 模型在电力设备目标检测方面具有显著的应用价值。为了展示 YOLOv11 模型出色的特征提取能力,作者使用 Grad-CAM [18] 工具可视化了 YOLOv5、YOLOv8、YOLOv9、YOLOv10 和 YOLOv11 在识别电力设备目标时的检测结果。如图 4 所示,在电力设备目标检测区域的空间范围内,YOLOv11 模型表现出明显的注意力集中现象。与之相比,其前辈生成的注意力图分布更加分散,无法像 YOLOv11 那样精确地确定电力设备目标检测区的具体坐标。这些可视化结果突显了 YOLOv11 模型在复杂环境中更加强化和识别关键特征的能力。

Image

本文使用了标准的图像检测评估指标,包括平均精确率(mAP)、召回率和精确率。

image.png

在目标检测中,真正例(TP)表示模型正确识别的目标数量。假正例(FP)对应于模型将背景元素误分类为目标的情形,而假负例(FN)表示模型未能检测到的目标。mAP 通过计算每个类别平均精度的平均值来评估模型在所有类别的整体性能。精确率(Precision)衡量预测为正样本的比例中有多少被正确分类,提供了模型产生假正例倾向的见解。召回率(Recall)量化了模型成功识别的实际正样本比例,反映了其减少假负例的能力。此外,所有检测结果指代模型识别为正样本的总数量,而所有地面真相则包含数据集中实际存在的所有正样本总数。这些指标共同提供了对模型检测性能的全面评估。

表 1 展示了 YOLOv5、YOLOv8、YOLOv9、YOLOv10 和 YOLOv11 在 mAP、精确率和召回率方面的比较结果。最新的模型 YOLOv11 在 mAP 和召回率方面都取得了最高的成绩,分别为 57.2% 和 64.8%。mAP 反映了模型的整体检测性能,而召回率则突显了其减少假负例的能力。这些结果显示,YOLOv11 模型在检测精度和降低误检率方面表现出色,使其在电力设备目标检测中具有很高的效用,并展示了其巨大的应用潜力。

表 2 展示了使用 mAP 作为评估指标,YOLOv5、YOLOv8、YOLOv9、YOLOv10 和 YOLOv11 在电线和 Transformer 检测上的测试结果比较。最近开发的 YOLOv11 模型在检测效果上脱颖而出,展现出在两类目标检测领域的无与伦比的表现。这项研究实验框架内电力设备目标检测的这一卓越成就表明,YOLOv11 不仅仅是一种渐进式的改进,而是一种在目标检测技术上的革命性飞跃。这些发现的意义深远,预示着 YOLOv11 在科学研究和实际应用场景中将迎来一个崭新的时代。

Image

参考

[0]. Comprehensive Performance Evaluation of YOLOv11, YOLOv10, YOLOv9, YOLOv8 and YOLOv5 on Object Detection of Power Equipment .

END

作者:小书童
来源:集智书童

推荐阅读

欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18888
内容数
1416
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息