小目标检测是计算机视觉和目标检测领域的一个重大挑战。小目标检测器的性能往往因缺乏像素和不太重要的特征而受到影响。这个问题源于特征尺度的变化和特征处理过程中的信息丢失引起的信息错位。
为了应对这一挑战,本文提出了一种新的多对一模块(M2S),它通过改进特征提取和细化特征来增强特定层。具体而言,M2S包括所提出的跨尺度聚合模块(CAM)和所探索的双重关系模块(DRM),以提高信息提取能力和特征细化效果。
此外,本文通过利用M2S生成额外的检测头,提高了小目标检测的准确性。在VisDrone202I DET和SeaDronesSee V2两个数据集上评估了所提出方法的有效性。
实验结果表明,与现有方法相比,其性能有所提高。与基线模型(YOLOv5s)相比,M2S在VisDrone2021 DET测试数据集上的准确性提高了约1.1%,在SeaDronesSeeV2验证集上的精度提高了15.68%。
1、简介
小目标检测长期以来一直是目标检测中的一个挑战,其目的是准确检测图像中视觉特征很少的小目标(32像素乘32像素以下的目标)。在You Only Look One level Feature(YOLOF)中提出了一种由骨干网络、编码器和解码器组成的检测模型。YOLOF中提出,通过选择合适的尺度特征,将多输入和单输出输出到特定水平,可以获得与多输入和多输出相当的性能。
在小目标检测任务中,本文提出了一种对单个输出模块的多输入,该模块以低级别特征和高分辨率输出。它为检测器提供了更准确、更丰富的信息,从而提高了检测器的性能。
特征金字塔网络(FPN)的成功归功于分而治之的理念。分而治之可以确保图像特征在不同的层中可用,而如果只提供单向的信息流,那么FPN在每一层都会受到限制。结果是,每一层特征都只能从自己的角度预测。因此,以前的工作致力于增加不同层次特征的相互作用,并允许在每个层次进行更多的全局思考。FPN作为优秀检测器SSD、YOLO和RCNN的骨干网络出现。EfficientDet使用交叉边缘连接BiFPN,并重复它以获得更好的精度和效率。尽管之前的作品表现出了令人满意的性能,但目标检测仍然存在一个问题:
小规模实例对象检测不佳。基于这个问题,本文提出了一个模块来增强不同网络级别的通信,提高特征提取效率。跨尺度融合模块旨在更好地聚合更多特征,提高模型的特征提取能力,如图1所示。
对于注意力而言,在使用关于特征的上下文信息方面具有显著的效率。然而,仅使用一种类型的注意力很难充分利用多层次特征之间的潜在关系。受CBAM和Jiont注意力的启发,注意力机制面向通道和空间维度。一种创新的双重关系模块(DRM)结合了空间注意力和通道注意力机制。通过CBAM获得的信息只能从输入的单个特征中导出,从而导致缺乏丰富的信息。
本文针对不同层次的特征具有不同偏好的信息,提出了一个多输入到单输出的注意力模块。因此,DRM不仅结合了2种注意力机制,而且利用了3级特征信息的特性,实现了更有效的语义信息增强和补充。DRM嵌入在CAM之后,其概览图如图1所示。
在验证阶段,在两个具有大比例小目标数据集的数据集上验证了本文的方法,即VisDrone2021 DET和SeaDronesSeeV2。这2个数据集中的每一个都有大量的小规模目标,这是评估本文方法有效性的一个很好的方法。此外,将消融实验纳入实验中,以验证各个模块的作用。此外,还建立了一个比较实验,将本文方法的性能与之前的注意力模块进行了比较。
总之,上述两项创新提高了检测模型的整体性能。这项工作的贡献总结如下:
- 提出了一种跨规模聚合模块(CAM),用于融合骨干网络的5级特征并将其融合为3级特征。在本文中,CAM嵌入在骨干网络和Neck网络之间,以改进单层特征的视角。
- 将空间注意力和通道注意力相结合本文提出了一种双重关系模块(DRM),该模块弥补了一维注意力机制的不足。同时,使用DRM,来自跨尺度融合模块的3级特征也被聚合为一级特征。
- 在两个公共基准数据集VisDrone2021DET和SeaDroneSeeV2上评估了提出的小目标检测方法。并比较了几种最先进的方法。实验结果证明了本文的方法在小目标检测方面的优越性能。
2、本文方法
2.1、概览
对于图像对象检测,检测器在检测小目标方面效率低下,因为FPN中的不同Level之间存在未对准,并且由于多次卷积而导致信息丢失,这是提取特征信息后信息不确定这一事实所固有的。
为此,本文提出了一种新的多对单(M2S),以提高小目标的检测器性能。如图1所示,M2S由2个模块组成:跨尺度聚合模块和双重关系模块。
M2S通过2种方式来解决这个问题:
- 首先,收集足够丰富的语义信息;
- 其次,对收集到的信息进行特征提取。
M2S分两步实现操作:
- 第一步,将骨干网络的5级特征聚合为3级特征
- 第二步,使用不同特征的3级特征来增强瓶颈网络的Low-Level特征
与创建多个平行路径的PANet、Bi-FPN不同,本文提出的M2S将多个平行的路径聚合为一个路径。骨干网络的5级特征被馈送到跨尺度聚合模块(CAM)中,用于收集不同尺度的特征的语义并聚合它们。
有效的特征提取是M2S的第一步,第二部分是加强有效信息的过滤。为了更有效地细化聚合信息,引入了双重关系模块(DRM)。使用DRM增强Head网络功能,以实现更好的检测性能。
总之,本文利用CAM提高了检测器的特征提取能力,并综合了多尺度特征的信息,为后续工作奠定了基础。在获得更丰富的特征信息之后,使用DRM将信息融合并加权到头部网络中。结合以上两个步骤,获得了改进的检测器性能。
2.2、跨尺度特征聚合
生成具有丰富上下文信息的3级特征是CAM的目标。跨尺度融合节点(CFN)是CAM的一个子模块,用于相邻3层特征的融合。自上而下和自下而上的工作流程,CAM模块如图1所示,呈“V”形模块布局。其中,对CFN的输入的中间层是先前CFN的输出。它将更好地集成主干网络的自下而上的特征,同时允许顶部和底部信息进行交互。
跨尺度融合模块的结构如图2所示。来自主干的三个相邻特征、、,(2≤i≤4)分别作为输入馈送到CFM。有必要对和进行预处理,因为输入的3个特征来自不同深度的级别。注意到FOCUS下采样是通过对像素和通道进行整形来完成的。
作者认为FCOUs下采样方法允许通道和空间信息交互。因此,FCOUs被应用,而不是与朝向下采样的步长2进行卷积。使用双线性插值方法对进行上采样。和被reshape为与相同的形状。前2个特征与连接,并提供给瓶颈模块。
CAM由放置在一起的几个CFN组成,收集语义的目标是通过内部工作流实现的。最终,CAM将把5级特征聚合为3个特征映射:低、中、高。
2.3、双关系模块
检测任务解决了“在哪里”和“什么”的问题。通道注意力和空间注意力机制被广泛应用于计算机视觉研究,分别用于提高模型的“什么”和“在哪里”的能力。通道注意力集中在“什么”是有意义的输入图像,而空间注意力集中在信息量最大的部分“在哪里”。
DRM作为CAM和头部网络之间的桥梁发挥着关键作用。DRM从CAM捕获多维关系,以增强和校准输入。High、Mid和Low中的每一个被馈送到相对于DRM的模块中以获得更丰富的上下文信息。
1、通道关系模块
受SRM思想的启发,ECA等人在检测器中嵌入了通道注意力。通道注意力机制使得能够有效地提取目标信息。本文提出了一种CRM通道注意力模块,该模块也嵌入到FPN中,以实现增强的检测器性能。
CRM的详细信息如图3所示。“高”特征图是跨尺度聚合模块(CAM)输出融合特征。因此,作者认为利用“高”来加强通道维度的投入更有效。在“高”和输入的串联之后,首先应用卷积,以便卷积输出后的通道数量与输入相同。其次,通过采用结合全局平均池化和全局标准差池化来收集全局信息。2种不同的风格池化,每种风格池化都能够捕捉不同特征。
最后,2种风格的池化获得输入的通道特征信息,并通过全连接层生成通道权重向量。
那么激活操作的参数为m:
2、空间关系模块
通道注意力的局限性意味着它只能在通道方面得到增强和削弱。就其本身而言,空间关系模块(SRM)利用空间维度信息来增强。是从CRM中获得的。SRM的详细信息如图3所示。
来自更深一层的“Mid”也会通过更多的卷积。CAM的“低”包含3个浅层次的特征信息。前者包含语义丰富的信息,而后者包含准确的结构信息。基于上述两者在特性上的差异,SRM也被分为2个分支用于特征增强。
2.4、损失函数
3、实验
4、参考
[1].A NOVEL MULTI TO SINGLE MODULE FOR SMALL OBJECT DETECTION.
作者:小书童
文章来源:集智书童
推荐阅读
- YOLOv8官方支持多目标跟踪 | ByteTrack、BoT-SORT都已加入YOLOv8官方
- 深度剖析Tesla自动驾驶技术方案
- 改进YOLOX | Push-IOU+Dynamic Anchor进一步提升YOLOX性能
- EdgeYOLO来袭 | Xaiver超实时,精度和速度完美超越YOLOX、v4、v5、v6
- 阿里贾扬清:新一轮AI爆发的推动机制是工程化和开源 | MEET2023
- 【【BBuf的CUDA笔记】七,总结 FasterTransformer Decoder 优化技巧
更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。