AI学习者 · 22 小时前

微小目标检测新标杆 | DPNet首创动态神经网络范式,微小目标检测效率跃升35%!

图片

精简阅读版本

本文主要解决了什么问题

1. 微小目标检测的精度与效率平衡问题:在复杂环境中,精确检测微小物体至关重要,但单纯放大图像会显著增加计算成本和负样本数量,严重降低检测性能并限制其适用性。

2. 动态调整下采样因子的需求:传统的静态神经网络对所有输入图像使用相同的降采样参数进行推理,无法根据输入图像的内容自适应调整下采样策略。

3. 多尺度训练中的特征分布不一致问题:不同下采样因子(df)导致的特征图分布差异显著,使得单一模型难以兼容多种df。

本文的核心创新是什么

1. 提出动态池化网络(DPNet):通过引入一个可调节的下采样因子 ,将特征图的固定下采样过程转化为灵活的过程,实现输入感知的下采样。

2. 设计自适应归一化模块(ANM):解决混合尺度训练中不同df带来的特征分布差异问题,使统一检测器能够与不同的  良好兼容。

3. 引入下采样因子预测器(DFP):通过轻量级预测器预测每个输入图像的最佳 ,并设计引导损失来监督预测器的训练,实现动态分配计算资源。

4. 首次将动态神经网络思想应用于检测任务:通过动态调整下采样因子,在保持检测性能的同时显著降低计算成本。

结果相较于以前的方法有哪些提升

1. 显著降低计算成本:在TinyCOCO数据集上,DPNet可以节省超过35%的GFLOPs,同时保持相当的检测性能。

2. 更高的检测精度:在TinyPerson数据集上,DPNet的  达到52.33,优于其他Baseline方法(如RetinaNet-S-  和RetinaNet-SM)。

3. 广泛的适用性:DPNet不仅适用于ResNet等常规Backbone网络,还能与轻量级模型(如MobileNet-v2)协同工作,进一步减少计算量。

4. 实时性与精度的平衡:在VisDrone数据集上,DPNet实现了最优的效率-精度平衡,为无人机应用中的实时小目标检测提供了更优解决方案。

局限性总结

1. 依赖于候选df的选择:DPNet的性能在一定程度上依赖于预先设定的离散df值集合,若候选值不够全面,可能会影响最终效果。

2. 额外的训练开销:由于需要训练DFP和ANM,DPNet的整体训练过程比传统检测器更加复杂,增加了训练时间。

3. 对特定场景的适配性有限:尽管DPNet在多个数据集上表现出色,但对于极端条件下的微小目标(如极度低分辨率或高噪声环境),仍可能存在漏检问题。

4. 引导损失的设计依赖性强:引导损失的有效性高度依赖于检测器的原始损失函数,可能在某些特殊任务中表现不佳。

通过以上总结可以看出,DPNet在微小目标检测领域取得了重要突破,但在实际应用中仍需进一步优化以适应更多复杂场景。

深入阅读版本

在无人机系统中,特别是在复杂环境中,精确检测微小物体至关重要。调整图像大小是提高检测精度的常用策略,尤其对于小物体而言。然而,单纯放大图像会显著增加计算成本和负样本数量,严重降低检测性能并限制其适用性。

本文提出了一种动态池化网络(DPNet)用于微小目标检测,以缓解这些问题。DPNet通过引入一个因子,将特征图的固定下采样过程转化为可调节的过程,从而采用灵活的下采样策略。此外,作者设计了一个轻量级预测器来预测每个输入图像的,用于降低 Backbone 网络中特征图的分辨率。

因此,作者实现了输入感知的下采样。作者设计了一个自适应归一化模块(ANM),使统一检测器能够与不同的良好兼容。同时,作者还设计了一个引导损失来监督预测器的训练。通过这种方式,DPNet实现了计算资源的动态分配,以在检测精度和效率之间进行权衡。在TinyCOCO和TinyPerson数据集上的实验表明,DPNet分别可以节省超过35%和25%的GFLOPs,同时保持相当相当的检测性能。代码将公开提供。

1. 引言

image.png

图片

image.png

总之,作者的核心贡献如下:

• 作者提出了动态池化网络(DPNet),据作者所知,这是首次尝试将动态神经网络引入目标检测任务,以实现检测性能与计算量的平衡。

• 作者设计了自适应归一化模块(ANM)以解决混合尺度训练(MST)方案带来的尺度变化加剧问题。采用下采样因子预测器(DFP)在推理过程中自适应选择df,并设计了一个引导损失来监督其训练。

• 作者的DPNet能够在TinyCOCO数据集上保持相当检测性能的同时,将计算成本降低超过35%。不同 Backbone 网络上的实验验证了DPNet的有效性。

2. 相关工作

微目标检测是目标检测领域广泛关注的问题,吸引了越来越多的研究。目标尺度会影响检测性能。因此,许多研究工作集中于目标检测中的尺度问题。动态神经网络能够自适应地调整模型或输入,这有助于实现计算与性能的权衡。此外,为了减少计算量,使模型轻量化是一种传统思路。DPNet是一种新范式,可以与轻量化模型方法协同工作。

A. 微型目标检测

针对微目标检测,从多个方面进行了广泛的研究。低分辨率、弱信号和高噪声增加了微目标检测的难度,限制了其研究和应用。为了获取可靠的微目标特征表示,Yu等人[1]和Jiang等人[3]采用了使预训练数据集和目标数据集的尺度分布对齐的方法。Gong等人[5]设计了FPN[20]中相邻层之间有效的融合因子。

一些方法通过超分辨率(SR)技术恢复低分辨率目标的信息。EFPN[29]利用大规模SR特征,将原始FPN扩展到专门用于小尺寸目标检测的高分辨率 Level 。为了获取超分辨率特征,Noh等人[30]将高分辨率目标特征作为监督信号,匹配输入和目标特征的相应感受野。[31]提出了基于高斯感受野的标签分配(RFLA)策略,用于微目标检测。

B. 基于尺度的检测

目标尺度对检测任务的准确性具有重要影响,因此也必须在DPNet设计过程中加以考虑。因此,接下来需要讨论针对尺度问题的目标检测方法。目标实例间的大尺度变化是目标检测中的一个挑战性问题。处理这一问题可以提高检测器处理不同尺度目标检测任务的能力,特别是对于极端尺寸的目标,例如微小目标。改进检测方法的一种常见策略是多尺度图像金字塔32。基于该方案,SNIP[34]和SNIPER[35]将尺度正则化方法应用于多尺度训练,这保证了不同分辨率图像中目标的尺寸落入固定的尺度范围。另一种归一化方法TridentNet[36]构建具有不同感受野的并行多分支来生成尺度特定的特征图。这些特征图具有统一的表征能力。SSD[37]和MS-CNN[38]不使用多分辨率输入图像和感受野卷积核,而是利用多空间分辨率特征图来检测不同尺度的目标。他们将小目标分配给分辨率高的底层,将大目标分配给分辨率低的顶层。为了增强底层Low-Level特征的语义表征能力,TDM[39]和FPN[20]进一步引入自顶向下的通路和横向连接,将深层和浅层进行融合。在FPN的基础上,PANet[33]增加了一个自底向上的通路,并提出自适应特征池化来增强特征层的表征能力。

C. 动态神经网络

动态神经网络作为深度学习领域的新兴课题,具有高效性、强适应性及强大的表征能力等特点。为满足不同的计算资源需求,文献[40]、[41]、[42]、[43]通过动态网络深度进行推理,允许在浅层退出时输出"简单"样本而无需执行深层网络。文献[44]、[45]在Transformer[46]上实现停止方案,以在自然语言处理任务中达到动态网络深度。Yu等人[47]、[48]提出了可切换的批量归一化和原位蒸馏方法,用于训练可在不同宽度下运行的神经网络。根据设备端基准测试和计算资源限制,所训练的网络(命名为可缩放神经网络)能够动态调整其宽度。DS-Net[49]也是一种具有可变宽度的网络,通过学习可缩放超网络和动态门控机制,实现对不同样本的动态路由。RANet[50]在深度卷积神经网络中实现分辨率自适应学习,以高效地执行分类任务。DRNet[51]动态调整输入图像的分辨率进行分类,以实现效率与分类精度的权衡。DPNet首先将这些动态神经网络思想应用于检测任务,以实现更广泛的应用。

轻量级模型

高效的轻量级CNN模型,如MobileNet [52], [53]和ResNeXt [54],被广泛应用于目标分类任务,可作为目标检测器的 Backbone 网络。众所周知,特征提取的 Backbone 网络占据了检测器的大部分计算量,因此轻量级 Backbone 网络是高效网络的主要研究热点。MobileNet-v1 [52]采用深度可分离卷积来减少参数和计算量,同时不损失检测性能。MobileNet-v2 [53]引入了倒残差块和线性 Bottleneck 来进一步提升性能。ResNeXt [54]引入了聚合变换,通过并行堆叠具有相同拓扑结构的块来替代ResNet [55]的残差结构。这些模型通过简化网络来节省计算量,而DPNet通过动态控制输入特征图的大小来减少计算量,可以与这些轻量级模型协同工作。

3. 动态池化网络

在本节中,作者首先介绍DPNet的整体架构。接下来,作者分别详细阐述训练过程、自适应归一化模块(ANM)和下采样因子预测器(DFP)。放大图像可以显著提升微小目标检测的整体性能,如表8 (a)(第 IV-E 节)所示,并在文献 [2]、[6] 中有所描述,但同时也会带来巨大的计算成本。因此,在本文中,作者选择放大后的图像作为检测器的输入,以利用放大带来的信息优势。然后,作者对检测器主干网络的特征图进行自适应下采样处理,在保留必要信息的同时减少冗余计算。

图片

image.png

image.png

图片

混合下采样因子训练 (MST)

需要注意的是, 候选值可以是0到1之间的任意值,这使得它既困难又无意义。在实际需求下,作为一种简化策略,作者选择  个离散的  值  来缩小探索范围,其中  表示常见检测器中的默认下采样。

为了在所有不同的 上实现高检测性能,一种简单的方法是为每个训练一个独立的网络,且网络之间没有任何权重共享(表1中的行)。然而,以这种方式维护多个网络既不优雅也不适用于部署。因此,更常见的方法是在多个下训练单个网络(混合下采样因子训练),使其能够处理各种(表1中 的行)。

图片

A. DPNet 训练

image.png

image.png

B. 自适应归一化模块

image.png

图片

image.png

C. 下采样因子预测器

image.png

图片

image.png
图片

image.png

4. 实验

A. 实验设置

数据集。TinyCOCO数据集(MS-COCO 2017)[24]是用于评估微小目标检测任务检测性能的广泛使用的基准,包含118k张训练图像、5k张验证图像和20k张测试图像,分为80个类别。所有研究均在验证集上进行。TinyCOCO是COCO100 [1]的变体,将每张图像的较短边调整为100,同时保持高宽比不变。TinyCOCO中目标尺寸的平均值与[1]中对微小目标的定义相同。TinyPerson是一个常用的微小目标检测数据集,专门设计用于无人机航拍场景。该数据集从高质量的无人机视频和在线图像中收集,包含72,651个低视觉分辨率的标注人体目标,总共25,945张图像裁剪为640x512的大小,旨在验证模型在基于无人机的目标识别任务中的适用性。

指标。根据Tinybenchmark[1],作者主要使用平均精度(AP)[64]对微尺度性能进行评估,这是各种目标检测任务中最常用的指标。它反映了目标检测结果中的精度和召回率。IoU的阈值设置为0.25、0.5、0.75。在微尺度任务的场景下,作者更关注目标是否能够被找到,而不是其位置精度。因此,IoU=0.5自然成为主要的评估标准。作者使用微尺度、小尺度和大尺度作为MS-COCO评估指标中的小、中、大规则image.png

为了评估效率,作者计算平均GFLOPs。在计算所有不同df下的模型FLOPs时,作者使用验证集的平均大小作为输入大小。然后,预测器选择的每个df的比例被用作加权求和每个对应FLOPs的权重。对于TinyPerson,作者遵循[1]将微尺度[2, 20]分为3个子区间:tiny1[2, 8]、tiny2[8, 12]、tiny3[12, 20],并选择IoU=0.5作为评估阈值。

实现细节。DPNet的实现基于MMDetection [67],与MS-COCO上目标检测的默认设置相同。使用随机梯度下降(SGD [68])算法在8个GPU上进行1X训练计划,每个小批量包含16张图像(每GPU2张)。学习率设置为0.02,分别在第8个和第11个epoch时衰减0.1。对于大型检测器的候选dfs,作者选择dfs为[0.5, 0.33, 0.25](这意味着m=3)。

B. 消融研究

image.png

image.png

C. 性能比较

作者在TinyCOCO数据集上对比了之前的网络与作者的DPNet。如表3所示,作者对比了不同 Backbone 网络,特别是像ResNeXt和MobileNet等轻量级网络。这些对比验证了DPNet并非轻量级模型的替代品,而是与这些模型结合以节省计算量。轻量级模型主要通过减少模型结构的复杂度来节省计算量。DPNet从另一个方面减少计算量:自适应调整输入大小。 Baseline 表示性能基于TinyCOCO(COCO100),而放大性能是在输入重置为800时进行的,这带来了性能提升。这表明放大图像可以提高检测性能,特别是对于微小物体。第三行的性能代表DPNet,其中图像被放大(重置为800),并使用动态下采样进行检测。作者的基本 Backbone 网络是ResNet50,该方法性能为mAP 29.7。作者使用更大的ResNet-101来验证方法的稳定性,结果表明DPNet能有效减少计算量。

图片

image.png

图片

此外,在DOTA数据集上针对水平框目标检测,DPNet相较于当前最优方法,在表5中实现了63.55的AP,而faster-rcnn和repPoints分别为60.46和59.44。DPNet在表6的VisDrone数据集上也实现了最优的效率-精度平衡,为无人机应用中的实时小目标检测提供了更优解决方案。未来工作将集中于优化动态策略,以进一步提升精度边界。

图片

D. 可视化

图片

DFP的预测结果在图8中进行了可视化。占据图像大部分区域且尺寸较大或前景明显的七个图像被预测为0.25 df。中间七个图像中,物体较小或轻微模糊,被预测为0.33 df。底部七个图像具有非常小的物体,其隐藏的前景几乎与背景融合;因此选择了最大的df。尽管“简单”和“困难”的示例对人类和机器可能有所不同,但这些结果与人类感知系统相兼容。如图9所示,作者在TinyPerson数据集(一个真实场景)上,使用调整大小(放大)的输入,对DPNet、小物体域方法Scale Match以及Scale Match*的可视化结果进行了比较。结果表明,在相同的精度下,DPNet的漏检数量更少。

图片

作者展示了DPNet在低计算场景下进行小目标检测的可视化结果,并证明了其相较于 Baseline YOLOv11m模型的优势。所有图像均来自VisDrone数据集的测试集。在目标较少的场景中,特别是对于简单且常见的小目标,作者依次比较了原始图像、YOLOv11m检测结果以及DPNet-MobileNet-v2检测结果,如图10所示。

图片

左侧,YOLOvl1m未能检测到右下角的卡车,而DPNet-MobileNet-v2成功识别。中间,YOLOv11m错过的极小目标被DPNet检测。右侧,上中部附近的两辆微型汽车目标被YOLOv11m遗漏,但被DPNet-MobileNet-v2准确检测,同时捕捉到类别和位置。

可视化结果清晰地展示了DPNet的优越性能。与 Baseline 方法相比,DPNet在一般目标检测中表现出更高的准确率,且误报率更低。对于飞机,DPNet提供了更紧凑的边界框。同时,它在检测船舶和建筑物方面也表现出色,提供了更精确且位置正确的边界框。总体而言,DPNet在各种目标类型上实现了更高的准确率和精确度,突显了其相较于 Baseline 方法的有效性。

E. 分析

为什么是下采样因子?动态神经网络的构建方式有很多种,例如动态网络深度、宽度、参数或特征图比例。作者通过一系列实验来简单分析哪个因素对检测任务更为重要。表8 显示,当网络深度和宽度发生变化时,检测器的性能在一个狭窄的范围内波动,而调整输入图像的大小,性能将显著提高。这也是作者关注动态下采样的原因。

5. 结论

本文对扩大输入图像以检测微小物体的优势进行了视觉分析。此外,作者提出了一种新的DPNet,用于自适应地选择特征图中最合适的df。ANM旨在通过将联合网络中每个df切换的所有归一化层私有化来解决不同df切换之间特征聚合不一致的问题。引导损失通过根据图像中每个实例的大小重新调整其损失权重的方式,更好地优化 Backbone 网络中每个df下的检测器性能。

DPNet中的DFP预测df的概率分布,有助于为每张图像选择性能充分且成本高效的df。因此,它可以显著降低计算成本,并增强无人机系统中的应用识别。作为首个适用于检测任务的动态神经网络,DPNet可以为该领域的更多研究行人提供启发。

参考

[1]. DPNet: Dynamic Pooling Network for Tiny Object Detection

END

作者:小书童
来源:集智书童

推荐阅读

欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18978
内容数
1493
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息