AI学习者 · 1 天前

小目标检测新标杆,SimAM无参数注意力+NWD指标完胜YOLOv7

图片

精简阅读版本

本文主要解决了什么问题

  1. 红外图像检测中存在复杂背景、低信噪比、小目标尺寸和弱亮度等问题,导致传统方法难以准确检测红外小目标。
  2. 针对现有深度学习方法在计算效率、误报抑制以及复杂环境下保持高检测精度方面面临的困难进行了优化。
  3. 提出了适用于资源受限平台的轻量级网络架构,以降低计算成本并提升检测性能。

本文的核心创新是什么

  1. 轻量级网络重构:对YOLOv7进行轻量级重构,设计了一种三尺度轻量级网络架构ISTD-YOLO,提升了浅层特征的利用率,减少了模型参数和计算量。
  2. 无参数注意力机制SimAM:引入SimAM注意力机制,在不增加额外参数的情况下增强了局部上下文信息的相关性,提高了小目标检测能力。
  3. 轻量级 Neck 网络LTSN:通过用VoV-GSCSP模块替代ELAN-W模块,并结合GSConv卷积技术设计了轻量级 Neck 网络LTSN,降低了模型权重和计算复杂度。
  4. 归一化Wasserstein距离(NWD):提出使用NWD优化IoU指标,提升了小目标定位和检测精度,特别是在边界框无重叠或重叠较少的情况下表现更优。

结果相较于以前的方法有哪些提升

  1. 检测精度显著提高:实验结果表明,ISTD-YOLO在HIT-UAV和IRSTD-1k数据集上的mAP0.5分别达到77.84%和提升11.4%,显著优于原始YOLOv7及其他主流算法。
  2. 计算成本大幅降低:通过轻量化设计,模型尺寸减小至21.8MB,推理时间减少13.5%,适合硬件资源有限的平台部署。
  3. 多类别检测性能增强:改进算法在多类别目标检测中的正确预测比例显著提高,假检率和漏检率分别降低,尤其对难以检测的类别效果明显。
  4. 泛化能力验证:在IRSTD-1k数据集上测试显示,ISTD-YOLO具备良好的鲁棒性和泛化能力,Precision、Recall和mAP50分别提升5.4%、9.6%和11.4%。

局限性总结

  1. 轻量化设计虽然显著提升了计算效率,但在极端复杂条件下可能牺牲部分特征丰富性。
  2. SimAM注意力机制虽无需增加额外参数,但其跨不同尺度的适应性仍需进一步研究。
  3. NWD指标有效解决了小目标检测中IoU的敏感性问题,但在目标严重重叠的情况下,其性能仍有待改进。

深入阅读版本

导读

针对红外图像检测中存在的复杂背景、低信噪比、小目标尺寸和弱亮度等难题,提出了一种基于改进YOLOv7的轻量级红外小目标检测算法ISTD-YOLO。首先,对YOLOv7网络结构进行轻量级重构,设计了一种三尺度轻量级网络架构。其次,将模型 Neck 网络中的ELAN-W模块替换为VoV-GSCSP,以降低计算成本和网络结构的复杂度。再次,将无参数注意力机制引入 Neck 网络,以增强局部上下文信息的相关性。最后,采用归一化Wasserstein距离(NwD)优化常用的IoU指标,以提升小目标的定位和检测精度。

实验结果表明,与YOLOv7及当前主流算法相比,ISTD-YOLO能有效提升检测效果,各项指标均得到显著改善,能够实现对红外小目标的高质量检测。

1 引言

红外小目标检测是计算机视觉领域的重要研究方向。它是一种利用红外热成像技术检测红外图像中微弱且难以识别的目标的方法。由于红外暗目标本身亮度弱、尺寸小,加之缺乏明显的形状、纹理和颜色信息[1],直接检测难度较大。此外,在实际场景中,误报也是一个难以解决的问题。因此,从红外图像中准确、快速地识别暗小目标是当前研究的下一个重点。

传统的目标检测技术,如Viola Jones检测器、方向梯度直方图(HOG)、可变形部件模型等,能够有效地检测一些简单物体。然而,对于复杂物体的检测效果相对较差。此外,它们主要依赖于人工设计的特征提取和分类算法,并且需要针对不同的目标进行特定的调整和优化,这存在很大的局限性。

如今,深度学习发展迅速,目标检测技术日趋成熟。针对上述红外小目标检测问题,可以通过深度学习来解决。基于深度学习的目标检测算法大致可分为以下四类:

  1. 两阶段目标检测算法,作为候选区域算法的代表,以R-CNN系列[2, 3, 4]为代表,其检测过程从粗到细。
  2. 单阶段目标检测算法,以YOLO系列[5, 6, 7]和SSD[8]为代表,是基于回归框架的目标检测与识别算法。这些算法直接将整张图像作为神经网络的输入,以预测目标的类别和边界框的位置。
  3. Anchor-Free 框目标检测算法基于CenterNet[9, 10]所表示的关键点和中心区域。该算法摒弃了复杂且低效的 Anchor 框操作,因此相对简单。
  4. 基于注意力机制的靶标检测算法是一类以transformer为代表的算法。其核心思想是将靶标检测视为一个序列到序列(Seq2Seq)问题,并使用transformer来解决该问题。

为了解决红外小目标检测中存在的问题并提高检测效率,本文着重于改进相关算法,并提出了一种基于改进YOLOv7的红外小目标检测算法。

贡献如下:

  • • 设计一种三尺度轻量级网络架构ISTD-YOLO,以提升小目标检测能力。引入无参数注意力机制SimAM,在不增加原始网络结构参数的情况下,提高了模型的学习效果。
  • • Neck 网络被重新调整,设计了一种轻量级 Neck 网络LTSN,以降低模型的计算成本、减少模型权重并加快推理时间。
  • • 归一化Wasserstein距离(NWD)度量用于优化标准IoU(IoU)度量,以提高小目标检测的准确性。

2 相关工作

红外小目标检测由于存在复杂背景、低信噪比以及目标尺寸小、亮度弱等问题,一直是一个具有挑战性的研究课题。多年来,人们提出了各种方法来提升检测性能。这些方法大致可分为传统模型驱动方法和基于深度学习的方法。

2.1 传统模型驱动方法

早期的红外小目标检测方法主要依赖于模型驱动方法,该方法利用手工特征和统计模型来区分目标和背景。常见技术包括:基于滤波的方法、基于局部对比的方法、Sparse表示和低秩逼近。Lee等人[11]针对红外搜索和跟踪系统中的小目标检测问题,提出了一种基于增强红外强度图和密度聚类的方法。通过结合红外强度和标准差,提高了小目标检测的速度和准确性,并通过密度聚类识别目标的形状和质心。

2.2 基于深度学习的方法

随着深度学习的发展,卷积神经网络(CNN)和基于transformer的模型在红外小目标检测方面取得了显著进步。一些关键进展包括:基于CNN的检测器、轻量级网络设计、改进的损失函数和位置度量。Gang等人[12]提出了一种基于卷积神经网络的改进红外目标检测SSD方法,通过使用自建的红外飞机数据集,显著提高了检测精度和效果。Ciocarlan等人[13]提出将contrario决策准则集成到YOLO网络中的方法,该方法能够提高小目标检测的精度,减少背景噪声的干扰,并显著提升YOLO在样本量少和资源有限环境下的性能。

2.3 摘要和挑战

深度学习方法在红外小目标检测方面取得了显著进展,但仍存在若干挑战。现有方法常在计算效率、误报抑制以及复杂环境下保持高检测精度方面面临困难。为解决这些问题,本文提出ISTDYOLO,一种基于改进YOLOv7的多尺度轻量级检测算法。通过集成轻量级网络结构、增强型注意力机制和NWD指标,ISTD-YOLO旨在以降低计算成本的方式实现高精度检测。

3 方法论

3.1 网络重构

传统的YOLOv7网络难以处理红外图像中的小目标和弱信号以及复杂背景,导致冗余计算和特征提取不足。为解决这一问题,本研究采用轻量级网络架构来提升小目标特征提取能力,并减少模型参数和计算量,使其适用于资源受限的平台。

轻量级 Backbone 网络。由于背景在红外图像中占主导地位且小目标比例较小,所提出的模型更侧重于浅层细节特征,并避免过于复杂的特征提取结构。基于此,作者尝试减少网络卷积次数并突出底层特征图,以实现提升模型检测效果的目的。ISTD-YOLO模型通过调整 Backbone 网络提取结构CSPDarkNet来提高检测效率。表1展示了重构的CSPDarkNet结构。

图片

重构CSPDarkNet结构的优势如下:

  1. 优化多尺度特征融合:提升浅层小目标特征的感受野,使模型更易使用,并使原始结构轻量化,更适合在低性能平台上部署。
  2. 降低网络复杂度:在保持高精度的同时,显著降低了计算需求和模型大小,并缩短了训练和推理时间。
  3. 参数数量大幅减少: Backbone 网络参数数量从13371808减少到6023584,仅为原始模型的45%。

image.png

图片

结合第四部分的实验验证,与原始YOLOv7相比,重建的网络模型参数数量减少了约5.5%,计算量显著减少,同时检测精度得以保持,这充分说明了本文提出的轻量级网络架构设计的优势。

3.2 无参数注意力机制

在红外小目标检测中,小而暗的目标在红外图像中仅占据很少的像素。注意力机制可以帮助网络从复杂的红外图像中快速筛选出小而暗目标的特征信息,增强局部上下文信息的关联性,从而更准确地提取目标的空间位置。目前,现有的注意力机制主要从特征X生成一维或二维权重,然后将生成的权重泛化到通道或空间注意力。然而,SimAM[14]直接估计三维权重,其结构原理如图2所示。

在计算机视觉领域,常见的注意力模块如SE、CBAM和GC主要关注通道域或空间域。这对应于人脑的基于特征或基于空间的注意力机制。然而,SimAM模拟人脑注意力机制以生成逼真的3D权重,并为每个神经元分配唯一的权重。首先,作者为每个神经元定义一个能量函数:
image.png

图片

图像分析显示,原始YOLOv7模型的目标检测热力图存在漏检(已用红圈 Token )。引入SimAM后,模型捕捉目标特征信息的能力显著提升,网络的整体注意力更加集中于目标区域,相较于原始网络,具有更优的检测性能。

3.3 轻量级 Neck 网络

为了完成红外小目标实时检测任务并实现令人满意的检测精度,本文基于重构的特征提取网络重新调整了模型的Neck网络,并设计了一种更适合小目标检测的轻量级三尺度Neck(LTSN)网络。在尺度变换的基础上,LTSN将结构中的ELAN-W模块替换为更轻量级的单一聚合模块VoVGSCSP[18]。它采用了一种新的卷积算子GSConv,在不增加额外操作的情况下降低了模型的计算成本,并实现了显著的精度提升。

轻量级卷积。为了使深度可分离卷积(DSC)的输出尽可能接近标准卷积(SC),以便由大量DSC构建的轻量级模型能够实现更高的精度,并使大型模型能够完成实时检测任务,Li等人提出了一种新的轻量级卷积技术,这是一种结合了SC、DSC和shuffle的混合卷积,命名为GSConv,其结构组成如图4所示。针对红外小目标检测任务的特殊需求,本文考虑引入轻量级卷积GSConv。实验结果表明,采用GSConv方法的模型减少了DSC缺陷对检测的负面影响,降低了模型权重,降低了计算成本和复杂度,并提高了检测精度。

图片

单一聚合模块。Li等人设计了基于单次聚合的跨阶段部分网络(GSCsP)模块,并提出了VoVGSCSP的三种设计方案(图5 (a)(b)(c))。其中,(a)具有最简单的结构且推理时间最快,而(b)和(c)具有更高的特征重用率。由于简单结构更利于硬件,本文选择了更具成本效益的方案(a)。在VoV-GSCSP模块中,输入特征图被分为两个分支。

图片

为了减少推理时间并提高推理速度,本文考虑使用单次聚合模块VoV-GSCSP来替换模型 Neck 中的ELANW模块,以提高算法的推理速度。VoV-GSCSP能够减少计算量并降低网络结构的复杂度,同时保持足够的精度。

3.4 归一化高斯Wasserstein距离

image.png
image.png

3.5 ISTD-YOLO结构

为了准确检测小目标,YOLOv7的网络结构被重构并轻量化。首先,调整了YOLOv7 Backbone 网络中的CSPDarkNet结构,在模型的预设置端移除了20 20像素尺度的特征图输出,并添加了160 160像素大小的特征图输出,以增强小感受野的权重并加强浅层细节特征的注意力。其次,在 Neck 网络的前两个CBS模块之后,引入了无参数的注意力机制SimAM,形成了CBS_SimAM模块,该模块增强了网络的学习能力,而无需在原始网络结构中添加参数。最后,设计了一种轻量级 Neck 网络LTSN,并引入了一种新的卷积技术GSConv,用VoV-GSCSP替换ELAN-W,以减少模型的计算量和参数,从而实现轻量级 Neck 网络的目的。ISTDYOLO网络结构如图6所示。

图片

轻量化设计显著提升了计算效率,但在极端复杂条件下有时会牺牲特征丰富性。SimAM注意力机制通过为每个神经元分配独特权重而不增加额外参数,提供了计算效率,但其跨不同尺度的适应性仍需进一步研究。NWD指标有效解决了小目标检测中IoU的敏感性问题。然而,在目标严重重叠的情况下,其性能仍需改进。

4 实验

4.1 实验环境与数据集选择

实验环境。实验训练模型所使用的硬件平台和环境参数如表2所示。

图片

数据集选择。HIT-UAV[20]和IRSTD-1k[21]被选为实验数据集。

HIT-UAV是全局首个公开发布的高空人机红外成像数据集,基于无人机(UAV)采集,包含从数百个无人机在不同场景(如学校、停车场、道路、操场等)拍摄的视频中提取的2898张红外热成像图像。数据集中的每张图像大小为640×512像素。在本文中,70%的图像被选为训练集,20%作为验证集,10%作为测试集。

IRSTD-1k数据集包含1,000张真实图像,具有各种物体形状、不同物体尺寸以及杂乱丰富的背景,图像尺寸为512×512像素,背景具有精确的像素级标注。IRSTD-1k包含无人机、生物、船只和车辆等不同类型的小目标,该数据集涵盖了多种不同场景,背景包括海洋、河流、田野、山脉、城市和云层,背景存在严重的杂乱和噪声。在本文中,70%、15%和15%的图像分别随机选择作为实验的训练集、验证集和测试集。

4.2 评价指标

本次实验采用Precision(P)、Recall(R)以及IoU阈值0.5下的平均精度均值(mAP0.5)作为评估指标。此外,作者还从参数数量、模型尺寸和GFLOPs等方面对模型性能进行了全面评估。

4.3 消融实验

在实验中选择了HIT-UAV数据集,使用YOLOv7作为基准算法,并使用P、R、mAP0.5、模型大小、参数数量和GFLOPs作为评价指标。实验结果如表3所示。

图片

在复杂背景、弱目标和强噪声场景下,ISTD-YOLO展现出优异的鲁棒性。实验结果表明,在极端条件下,ISTD-YOLO的精度和召回率显著高于YOLOv7,这证明了采用轻量级网络架构和引入SimAM注意力机制对小目标检测的积极影响。同时,经过网络重构和轻量化处理,模型尺寸大幅减小,参数数量和GFLOPs显著降低,在使用LTSN或引入NWD后召回率也有所提升。因此,与原始YOLOv7算法相比,ISTD-YOLO的实验指标显著提升,验证了其优越性。

4.4 对比实验

不同 Backbone 网络对比。ISTD-YOLO重构了YOLOv7的原网络模型,并实现了轻量级网络模型的效果:调整了 Backbone 特征提取网络CSPDarkNet的结构,并将特征图的输出尺寸调整为40×80和160×160像素。在本实验中,为了研究网络重构对红外小目标检测的显著效果,作者将使用轻量级网络ShuffleNetV2[22]和MobileNetV3[23]来替换 Backbone 网络中的CSPDarkNet结构,特征图输出尺寸保持上述输出。MobileNetV3有Large和Small两个版本。为了更好地捕捉微小目标的特征信息,作者选择使用MobileNetV3-Large版本。

实验结果如表4所示。根据对比实验结果,可以看出尽管本文所提网络重建模型的计算复杂度略高,但模型参数和模型体积显著小于其他两个模型,且检测精度也保持良好效果。验证了本文所提网络重建模型实现了良好的轻量化设计,更适合小红外目标的检测。

图片

不同算法的比较。为了验证ISTDYOLO在红外小目标检测中的有效性,将其与HIT-UAV数据集上的多种流行YOLO系列目标检测算法进行了比较。如表5所示,比较实验表明,ISTD-YOLO模型的尺寸为21.8MB,mAP0.5达到77.84%,性能最佳,推理时间减少了13.5%。总体而言,ISTD-YOLO具有轻量化和高精度等优点,适用于在硬件资源有限的平台上进行高效部署。

图片

4.5 多类目标检测能力

为了评估ISTD-YOLO的检测性能,可以使用混淆矩阵来可视化结果,其中每一行代表实际类别,每一列代表预测类别,对角线上的值是正确预测的比例,而最后一行和最后一列中的值分别代表每个类别的假阳性率和漏检率。如图7所示,改进算法的准确率高于原始算法,并且假检率和漏检率显著降低。对于数据集中难以检测的OtherVehicle和DontCare类别,改进模型的正确预测比例分别提高了6%和20%。总体而言,ISTD-YOLO在多类别目标检测中具有良好的多尺度检测性能。

图片

4.6 实验结果与分析

为验证ISTD-YOLO算法在实际应用环境中的检测效果,本文将从HIT-UAV测试集图像中随机选取图像进行检测。最终检测效果的比较如图8所示。可以看出,YOLOv7存在误检和漏检问题,而ISTD-YOLO的检测精度高于原始模型。这证明改进模型在背景复杂、目标亮度弱的红外图像中表现良好,具有突出的背景抑制能力,有效提升了复杂样本的处理能力,并降低了误检率和漏检率。

图片

4.7 模型泛化验证

为了验证ISTD-YOLO模型在其他公开红外小目标数据集上的显著测试效果和良好泛化能力,本文选择在公开数据集IRSTD-1k上进行对比测试。实验结果如表6所示。与原始YOLOv7模型相比,改进模型的Precision、Recall和mAP50分别提升了5.4%、9.6%和11.4%。同时,与其他算法相比,本算法的mAP50提升效果显著,验证了ISTD-YOLO模型的良好鲁棒性和泛化能力。

图片

图9展示了算法改进前后的检测效果对比。可以看出, Baseline 算法存在误检问题,而改进模型的检测精度高于原始模型。本文提出的ISTD-YOLO模型在复杂背景和弱目标场景中表现出优异性能,验证了模型的有效性和泛化能力。

图片

5 结论

红外小目标检测是目标检测领域中的一个热点和难点问题。本文提出了一种基于改进YOLOv7的ISTD-YOLO算法。

创新点包括:

  • • 首先,对YOLOv7模型进行网络重构,以提升浅层特征的利用率并实现多尺度轻量级检测;
  • • 其次,引入无参数注意力机制SimAM,使模型能够聚焦于有效的目标特征;
  • • 第三,通过采用VoV-GSCSP替代ELAN-W并结合GSConv卷积技术设计了一种轻量级颈网络LTSN,降低了模型的权重和计算复杂度;
  • • 最后,引入了一种新的目标定位指标NWD,优化IoU指标以提升小目标检测性能。

实验结果表明,ISTD-YOLO能够实现对红外小目标的优质检测,并在实际应用中具备实时性、低计算成本和高检测精度的优势。随着目标检测技术的快速发展,未来的研究可能聚焦于进一步优化轻量级设计与新指标之间的平衡,探索在更复杂场景中的鲁棒性提升,以及将该方法的扩展可能性到其他目标检测任务。

参考

[1]. ISTD-YOLO: A Multi-Scale Lightweight HighPerformance Infrared Small Target Detection Algorithm.

END

作者:小书童
来源:集智书童

推荐阅读

欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18976
内容数
1489
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息