HMPE革新Transformer检测,小目标mAP飙升1.9%,解码器砍掉5层,推理速度翻倍

图片

精简阅读版本

本文主要解决了什么问题

  1. Query生成不足:现有基于Transformer的检测方法在生成Query时未能充分利用位置、类别和边界框信息,导致在有限数据集上训练时性能欠佳。
  2. 高质量Query缺乏:检测质量差源于高质量Query的缺乏以及未能抑制低分Query,影响了边界框定位精度和类别生成。

3. 解码器冗余:多头注意力机制计算复杂度高,导致推理速度缓慢,且需要过多的解码器头来弥补无效信息嵌入的问题。

4. 特征提取不足:缺乏专门用于从大量多样化的微小物体类别中提取判别性特征的特性工程机制,使得复杂小目标的检测仍然具有挑战性。

本文的核心创新是什么

1. Heatmap位置嵌入(HMPE)

提出了一种新颖的Transformer优化技术——Heatmap位置嵌入(HeatMap Position Embedding, HMPE),通过Heatmap引导的自适应学习动态结合位置编码与语义检测信息,显著提升目标检测性能。同时,作者还提供了HMPE的可视化方法,为参数微调提供清晰的嵌入信息。

2. 多尺度目标框-Heatmap融合编码器(MOHFE)

引入了MOHFE模块,针对编码器设计,利用Heatmap嵌入实现多尺度特征融合,增强语义与位置信息的耦合,减少背景噪声的影响。

3. Heatmap诱导高质量解码Query(HIDQ)

设计了HIDQ模块,用于解码器侧生成高质量Query并减少背景噪声Query,通过减少冗余的多头层数量加速推理和训练过程。

4. 线性蛇形卷积(LSConv)

提出了LSConv模块,通过双路径互补架构(动态蛇形卷积分支与线性卷积分支)捕捉几何复杂且Sparse的小目标特征,进一步增强模型对复杂场景的鲁棒性。

结果相较于以前的方法有哪些提升

1. 性能提升

• 在NWPU VHR-10小目标数据集上,mAP提升了1.9%。

• 在PASCAL VOC通用数据集上,mAP提升了1.2%。

2. 计算效率提升

• 通过HMPE增强的嵌入,将解码器层数从8层减少到至少3层,显著降低了推理和训练成本。

• 消融实验表明,在仅使用3个解码器头的情况下,结合HMPE驱动的Query优化,性能接近全监督下的8个头配置,同时计算成本降低至57.056 GFLOPs。

3. 渐进式改进验证

• NWPU VHR-10数据集上的实验显示,逐步集成Linear-Snake Conv、MOHFE和HIDQ模块后,mAP从92.6%提升至93.1%,mAP95从60.2%提升至67.2%。

• PASCAL VOC数据集上的结果表明,完整框架结合HIDQ实现了最佳性能:mAP从69.4%提升至70.61%,mAP95从50.5%提升至51.52%。

局限性总结

1. 依赖梯度计算:HMPE的生成依赖于梯度加权类激活映射,可能在某些极端情况下对梯度敏感性产生依赖。

2. 计算资源需求:尽管减少了解码器层数,但HMPE和LSConv的引入可能增加额外的前处理计算开销。

3. 泛化能力限制:虽然在NWPU VHR-10和PASCAL VOC上表现优异,但在其他更复杂的实际场景中的泛化能力仍有待进一步验证。

4. 热力图可视化偏差:由于下采样过程中的填充及尺寸调整,可能导致Heatmap可视化结果超出映射边界,造成可视化位置与实际嵌入位置之间的差异。

深入阅读版本

导读

基于电流互感器的小目标检测方法持续涌现,但它们仍然存在显著缺陷。

本文引入了 Heatmap 位置嵌入(HeatMap Position Embedding,HMPE),这是一种新颖的Transformer优化技术,通过 Heatmap 引导的自适应学习动态地将位置编码与语义检测信息相结合,从而提升目标检测性能。作者还创新性地可视化了HMPE方法,为参数微调提供了清晰的嵌入信息可视化。随后,作者创建了多尺度目标框- Heatmap 融合编码器(Multi-Scale ObjectBox-Heatmap Fusion Encoder,MOHFE)和 Heatmap 诱导高质量解码 Query (HeatMap Induced High-Quality Queries for Decoder,HIDQ)模块。这些模块分别针对编码器和解码器设计,用于生成高质量 Query 并减少背景噪声 Query 。通过结合 Heatmap 嵌入和线性蛇形卷积(Linear-Snake Convolution,LSConv)特征工程,作者增强了海量多样化小目标类别的嵌入表示,并减少了解码器多头层数量,从而加速了推理和训练过程。

在泛化实验中,HMPE在小目标数据集(NWPU VHR-10)上比 Baseline mAP提升了1.9%,在通用数据集(PASCAL VOC)上提升了1.2%。通过采用HMPE增强的嵌入,作者将解码器层数从八层减少到至少三层,显著降低了推理和训练成本。

1 引言

小目标检测在过去十年中一直是计算机视觉领域一项具有挑战性但基础的任务。它涵盖了多个垂直领域,包括无人机航拍图像(UVAs)、遥感图像(RSI)、卫星检测、红外检测(IF)、陨石坑检测(CD)、高分辨率宽幅(HRW)图像等。小目标检测面临着诸多独特的挑战,例如目标密集排列、微小目标以及高噪声背景比例等。

与基于CNN的检测器相比,基于Transformer的检测在小型目标检测领域因其更高的性能上限而获得了更多关注。近年来,尽管基于Transformer的模型在小型目标检测领域取得了重大突破,但现有方法仍需在以下方面进行改进:

  1. 基于Transformer的检测方法在 Query 生成过程中未能充分利用位置、类别和边界框信息,导致在有限数据集上训练时模型性能欠佳。它们从根本上缺乏对位置嵌入与检测语义之间内在关联的探索。
  2. 检测质量差源于高质量 Query 的缺乏以及未能抑制低分 Query ,共同影响了边界框定位精度和类别生成。
  3. 解码器冗余导致推理速度缓慢。由于多头注意力机制的计算复杂度与模型深度和输入 Token 长度成正比,缺乏有效的信息嵌入需要过多的解码器头,从而显著增加了训练和推理的计算成本。
  4. 由于缺乏专门用于从大量多样化的微小物体类别中提取判别性特征的特性工程机制,复杂小目标的检测仍然具有挑战性。

为解决上述问题,作者提出了一种名为热力图嵌入(HeatMap Embedding,HMPE)的创新框架,该框架通过热力图引导的自适应学习动态对齐位置嵌入与目标检测语义。通过将热力图增强集成到图像嵌入中,作者有效地通过热力图整合了丰富的语义检测信息,深度统一了位置、类别和边界框数据。这显著提高了检测Head回归几何和语义属性时的精度,同时减少了背景噪声的影响。它实现了网络训练的快速收敛,并提升了网络推理的质量。作者还创新性地可视化了HMPE方法,为参数微调提供了清晰的嵌入信息可视化。

利用热力图嵌入技术,作者进一步提出了两种创新结构,分别用于增强编码器-解码器架构。作者引入了MOHFE(多尺度目标框-热力图融合编码器)和HIDQ(热力图诱导解码器高质量 Query )模块,分别利用HMPE增强编码器和解码器中的嵌入信息。在编码阶段,MOHFE模块创新性地将类别和边界框语义整合到嵌入中,通过不同尺度的热力图嵌入实现多尺度融合。在解码阶段,设计的HIDQ将混合热力图特征转换为高质量 Query ,通过减少冗余的多头层来增强解码器,从而加速推理并提高训练质量。此外,为应对复杂小目标和通用检测任务中极端特征Sparse性带来的挑战,作者设计了LSConv(线性蛇形卷积)模块来捕获这些Sparse特征,并通过HMPE将提取的特征嵌入到网络中。

总之,本工作的主要贡献如下:

• 作者创新性地设计了 Heatmap 嵌入及其可视化方法,实现了对嵌入信息的直观洞察,并将其用于参数微调。

• 利用 Heatmap 嵌入技术,作者分别针对编码器和解码器开发了MOHFE和HIDQ,以生成高质量的 Query 。

• 利用热力图嵌入和LSConv特征工程,作者减少了解码器层数,并加速了推理和训练。

2 相关工作

基于CNN的小目标检测方法。随着人工智能和机器学习的快速发展,传统的目标检测方法也取得了显著进展。基于CNN(卷积神经网络)[10],后者擅长提取代表性特征,成功解决了遥感图像中的小目标检测等任务。传统的基于CNN的目标检测方法可以分为两类。第一类是单阶段目标检测,以SSD[17]、YOLO系列[23, 26]和Retina-Net等网络为代表。第二类是基于区域 Proposal 的两阶段目标检测,以Mask-RCNN[9]和Faster R-CNN[24]等网络为代表。

张等人[32]提出了使用卷积神经网络(CNN)解决遥感图像场景分类任务,该模型能够从遥感场景图像中提取深层特征。PCNet[3]通过比较图像之间的特征信息差异来实现场景分类。陈等人[5]提出了一种新型策略,显著增强了实时检测器的多尺度特征表示。

然而,这些方法会生成大量候选边界框,通常需要非极大值抑制(NMS)[11]进行过滤。NMS本身是一种贪婪算法,无法保证全局最优解,可能导致漏检或误报。此外,NMS的阈值需要手动设置,通常基于经验经验和实验结果,这使得模型难以泛化到不同的数据集和任务中,从而延长了模型的训练和推理时间。

基于Transformer的小目标检测。Transformer在自然语言处理(NLP)领域取得了成功,其在视觉任务中的潜力也引起了广泛关注。与基于CNN的方法相比,基于Transformer的检测方法不会生成大量冗余的边界框,从而无需后续的非极大值抑制处理,这大大降低了漏检物体的可能性。传统的基于Transformer的目标检测方法可以分为两类。第一类是DETR架构,包括DETR[4]、RT-DETR[33]、condDETR[20]、Dino[31]和Def-DETR[35]等网络。这些方法采用编码器-解码器架构,其中CNN作为特征提取器,CNN负责特征提取,编码器负责特征融合,解码器负责检测任务的回归。第二类包括视觉Transformer(ViT)[22],它通过Transformer架构处理图像块来预测检测结果。这种方法采用纯Transformer框架进行图像分类任务。

为解决类别不平衡问题,Yang等人[19]将Focal Loss与Transformer相结合,提出了一种基于CAMs(类激活图)的弱监督定位方法,使模型能够更好地处理包含违禁物品区域的识别问题。Li等人[15]提出了一种Sparse视觉Transformer,通过选择性地关注Sparse分布的目标窗口并结合全局和局部注意力机制,显著提高了高分辨率广角图像中目标检测的准确性和速度。

然而,ViT处理高分辨率图像的计算成本是不切实际的。人们尝试了多种方法来降低ViT模型的成本,包括基于窗口的注意力机制[18]、自注意力中的下采样[28, 29]以及低秩投影注意力[30]。其他研究将Sparse策略应用于图像分类中的图像块[36]、自注意力头[33]和Transformer模块[33]。这些方法在检测小目标物体时,往往会导致精度下降或训练成本增加。

3 提出方法

3.1 HMPE:热力图嵌入与可视化

基于DETR的目标检测方法在全局上下文建模方面展现出显著优势,但它们从根本上缺乏对位置嵌入与检测语义之间内在关联的探索。嵌入信息耦合的缺失——表现为静态位置嵌入和语义特征之间的协同受限——从根本上限制了检测性能的进一步改进。如图2所示的方法流程图,本文提出了HMPE(HeatMap Embedding)算法,并实现了HeatMap Embedding可视化,该算法生成与检测语义相结合的高质量位置嵌入。这一进展显著提升了编码器-解码器结构中的 Query 质量,并提高了小目标检测的准确性。

图片

传统方法依赖于统一的二维正弦位置编码方案,该技术严重忽略了多尺度目标变化,且无法将语义特征与位置特征之间的空间依赖性解耦。这些局限性导致三个缺陷:高频位置信息的丢失,这对小目标至关重要;分类任务与边界框回归任务之间的相互干扰;以及用于区分杂乱环境中密集分布小目标的高维语义嵌入不足。这些缺点共同削弱了检测的鲁棒性,特别是在需要精确定位微型或重叠实例的场景中。

为解决这一局限性,作者提出了热力图嵌入(HeatMap Embedding,HMPE),这是一种通过梯度加权类激活映射生成高语义密度热力图矩阵的新机制,能够在多尺度检测任务中动态对齐位置嵌入与语义关键区域。

如图2所示的 Pipeline 框架所示

image.png

步骤3. 构建一个动态 Mask 机制(MAsK Filter),以解耦 Heatmap 中的冷区和热区,实现 Heatmap 引导的位置嵌入,如公式(6)所示。 Mask 矩阵与标准位置编码逐元素相乘,以抑制背景区域中的无效位置噪声,同时保留热区中的多尺度几何特征,从而增强编码器-解码器架构中类别、位置和边界框信息的语义整合。

图片

image.png

3.2 HMPE到高质量 Query

image.png

3.2.1 MOHFE:多尺度目标框-热力图融合编码器

image.png

3.2.2 HIDQ:基于热力图诱导的高质量解码 Query

image.png

本研究提出HMPE生成的优质 Query 显著提升了目标检测性能。

在编码过程中,MOHFE模块创新性地整合了类别和边界框 Heatmap ,采用基于梯度的 Mask 滤波器构建鲁棒的位置编码,并通过特征解耦和多尺度嵌入扩展感受野以抑制背景噪声。

在解码过程中,所设计的HIDQ将混合 Heatmap 特征转换为高质量的初始 Query ,利用可变形注意力机制整合语义-位置相关性,从而显著提高检测Head对几何属性和语义特征的回归精度。

3.3 线性蛇形卷积特征工程

image.png

图片

image.png

4 实验结果与分析

4.1 数据集与评估标准

作者的评估是在两个公开可用的基准数据集上进行的:一个是小目标检测基准数据集NWPU VHR-10 [6],另一个是通用检测数据集Pascal VOC [8]。

Pascal VOC数据集涵盖了每年竞赛的不同版本,基准为2007年和2012年版本。作者将VOC07和VOC12合并,包含20个类别。训练数据包括16,551张图像,共40,058个目标,测试数据包含4,952张图像,共12,032个目标。NWPU VHR-10数据集专注于航空和遥感检测,包含650张含目标的图像和150张背景图像,总计800张图像。这些图像从Google Earth和Vaihingen数据集中裁剪而来,并由专家手动标注。其余检测标准严格遵循文献[33]。

4.2 与最先进方法比较

为验证所提出方法在通用和小型检测数据集上的有效性,作者将其与多种现有目标检测方法进行比较,包括基于CNN和基于Transformer的方法。基于CNN的方法包括:FCOS[25]、RetinaNet[16]、Faster R-CNN[24]、CenterNet[7]、MobileNetV3[12]、YOLOv3[23]、YOLOv4[2]、YOLOv5[1]、YOLOv6[14]、YOLOv7[27]、YOLOv8、YOLOv11[13]。基于Transformer的方法包括:DETR、Deformable DETR、PR-Deformable DETR*、RT-Detr以及作者的工作。上述基于CNN任务的超参数保持一致,而基于Transformer的超参数与作者的工作保持一致。

4.3 消融实验

NWPU VHR-10数据集上的结果。系统实验验证了每个组件在NWPU VHR-10数据集上的渐进式增强机制。 Baseline 模型在不添加任何所提模块的情况下,实现了92.6%的mAP和60.2%的mAP95。通过双路径互补架构特征提取,Linear-Snake Conv显著提升了细粒度几何感知能力,将mAP95提升至63.6%,同时精度提高了1.8%,达到90.7%。激活MOHFE通过 Heatmap 驱动的位置编码优化将mAP提升至94.1%,较 Baseline 提升了1.5%。最后,集成HIDQ模块实现了全面的性能突破: Heatmap 诱导的 Query 精炼将检测精度提升至93.1%(绝对提升4.97%),同时将mAP95推升至67.2%(较 Baseline 提升6.94%)。这一渐进式改进表明,MOHFE通过语义敏感的位置编码增强了背景抑制,而HIDQ通过解码器侧的 Heatmap 引导高质量 Query 精炼进一步优化了目标定位精度。

PASCAL VOC上的结果。渐进式实现展示了所有指标上的持续改进。从 Baseline (69.4% mAP,50.5% mAP95)开始,线性蛇的顺序集成(+0.91% mAP95)证实了其几何建模优势。MOHFE加强了位置语义耦合(+0.83% mAP95),而完整框架结合HIDQ实现了最佳性能:+2.10%精度(78.80%),+1.21% mAP(70.61%),51.52% mAP95(+1.02%)。值得注意的是,召回率-精度平衡逐步提升,保持了0.82%的召回率增益。虽然由于数据集目标密度较低,这些增益相对NwPU较小,但结果验证了框架的跨域鲁棒性,特别是HIDQ在提取 Heatmap 衍生 Query 中的关键作用。

在NWPU VHR-10和PASCAL VOC数据集上的系统实验验证了各组件的渐进式增强机制。HIDQ显著提升了两个数据集中 Query 表示的质量,特别是在NWPU的高密度目标场景中实现了显著的性能提升。MOHFE通过优化由语义检测驱动的位置编码增强了背景抑制。LinearSnake Conv通过双路径互补架构特征提取改善了小目标特征提取,无论场景涉及密集目标还是Sparse目标。

4.4 Heatmap 嵌入的可视化

如图6所示,左侧两张图像展示了NWPU VHR-10的标准可视化结果,而右侧两张图像则呈现了PASCAL VOC2012的标准可视化结果。最上方的四张图像表示输入到检测器的原始图像,而最下方的四张图像则展示了在将编码器放大六倍以匹配原始图像尺寸后,结合热力图的热成像可视化结果。与1中的描述一致,热力图中的嵌入呈现中间“热”两端“冷”的模式,表明其有效地嵌入到了Query中。下采样过程中的填充以及尺寸调整可能导致嵌入的 Heatmap 可视化结果超出映射边界,从而造成可视化位置与实际嵌入位置之间可能存在差异。

图片

4.5多头注意力机制消融研究

image.png

图片

编码器-解码器架构参数结果。为特征提取而设计的编码器使用3.01 MB,而处理 Query 优化和检测的解码器需要16.8 MB。这种分配突显了解码器在精确定位和分类中的关键作用,确保了在参数数量平衡的情况下实现高效性能。

5 结论与展望

作者创新性地设计了热力图嵌入及其可视化方法,实现了对嵌入信息的直观洞察,并将其用于参数微调。作者提出了多尺度目标框热力图融合编码器(MOHFE)和热力图诱导高质量解码器 Query (HIDQ)模块,分别优化编码器和解码器的嵌入效果,有效提升了 Query 质量并减少了冗余计算。此外,LSConv模块进一步增强了复杂小目标特征提取能力,为小目标检测任务提供了一种更高效的解决方案。

实验结果表明,在小型目标数据集NWPU VHR-10和通用数据集PASCAL VOC上均取得了显著的性能提升,同时推理和训练的计算成本也显著降低。这些创新不仅为小目标检测领域提供了一条新的技术路径,也为其他视觉任务提供了宝贵的参考。

未来,作者将继续探索热力图嵌入在其他视觉任务中的潜在应用,并进一步优化模型架构以应对更复杂的实际场景。

参考

[1]. HMPE:HeatMap Embedding for Efficient Transformer-Based Small Object Detection

END

作者:小书童
来源:集智书童

推荐阅读

欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18977
内容数
1492
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息