Transformer在计算机视觉领域的成功促使人们多次尝试将其应用于移动设备,但在一些现实世界的应用中,其性能仍然不令人满意。
为了解决这个问题,本文提出了PP MobileSeg,这是一种在移动设备上实现最先进性能的语义分割模型。PP MobileSeg包括3个创新:StrideFormer Backbone、聚合注意力模块(AAM)和有效差值模块(VIM)。四阶段的StrideFormer主干由MV3块和跨SEA注意力构建,能够以最小的参数开销提取丰富的语义和细节特征。
AAM首先通过语义特征集合投票对详细特征进行过滤,然后将其与语义特征相结合以增强语义信息。此外,还提出了VIM来将下采样的特征上采样到输入图像的分辨率。它只对最终预测中存在的类进行插值,从而显著降低了模型延迟,这是对整个模型延迟的最重要贡献。
大量实验表明,与其他方法相比,PP-MobileSeg在准确性、模型大小和延迟之间实现了卓越的权衡。在ADE20K数据集上,PP-MobileSeg在mIoU中的精度比SeaFormer Base高1.57%,在高通骁龙855上的参数减少了32.9%,加速度加快了42.3%。
1、简介
与图像分类或目标检测等其他计算机视觉任务相比,语义分割是一项计算成本高昂的任务,因为它涉及预测每个像素的类别。虽然GPU设备上的语义分割取得了重大进展,但很少有研究涉及移动语义分割的挑战。这种研究的缺乏阻碍了语义分割在移动应用程序中的实际应用。
最近,视觉Transformer(ViTs)的激增证明了基于Transformer的神经网络在语义分割方面的良好性能。各种工作已经提出了用于轻量级神经网络设计的Transformer-CNN混合架构,例如MobileViT、MobileFormer和EdgeNext。这种混合架构以尽可能低的成本将全局和局部信息结合在神经网络中。
然而,多头自注意力(MHSA)的计算复杂性使得这些网络很难部署在移动设备上。尽管已经做出了一些努力来降低时间复杂性,包括转移窗口注意力、有效注意力、外部注意力、轴向注意力、SEA注意力等。但其中许多技术需要ARM CPU无法支持的复杂索引操作。除了延迟和准确性之外,内存存储也是移动应用程序的关键因素,因为内存存储在移动设备上是有限的。
因此,出现了一个根本问题:「能否为移动设备设计一个在参数、延迟和准确性之间具有卓越权衡的混合网络?」
在这项工作中通过探索模型大小和速度约束下的移动分割架构来解决上述问题,以实现性能飞跃。在广泛的搜索下,成功地提出了3个新设计的模块:四j阶段的骨干StrideFormer、特征融合块AAM和上采样模块VIM,如图2所示。通过组合这些模块提出了一系列称为PP-MobileSeg的SOTA移动语义分割网络,该网络非常适合具有良好参数、延迟和准确性平衡的移动设备。
改进的网络设计使PP-MobileSeg Base的推理速度比SeaFormer分别提高了40%和34.9%,同时保持了1.37的高mIoU。与MobileSeg-MV3相比,PP-MobileSeg Tiny的mIoU提高了3.13,同时速度快了45%,体积小了49.5%,这表明了它在高分辨率输入的模型性能方面的优越性。尽管PP-MobileSeg Base的延迟稍长,但它保持了模型大小的优势,同时在Cityscapes数据集上的mIoU比SeaFormer高1.96。
总之,本文的贡献如下:
- 介绍了StrideFormer,这是一种具有MobileNetV3块的4阶段主干,可以有效地提取不同感受野的特征,同时最大限度地减少参数开销。同时坐在还将SEA的注意力机制应用于最后两个阶段的输出,以改进计算约束下的全局特征表示;
- 提出了聚合注意力模块(AAM),它通过增强语义特征的集合投票来融合来自主干的特征,并进一步增强融合特征与最大感受野的语义特征;
- 为了减少最终插值和ArgMax操作造成的显著延迟,作者设计了有效插值模块(VIM),该模块仅在推理时间内对最终预测中存在的类进行上采样。用VIM代替最后的插值和ArgMax操作可以显著降低模型延迟;
- 将上述模块结合在一起,创建了一系列SOTA移动端分割模型,称为PP-MobileSeg。大量实验表明,PP-MobileSeg在ADE20K和Cityscapes数据集之间实现了延迟、模型大小和准确性之间的良好平衡。
2、本文方法
本节介绍了在速度和大小约束下设计的移动端分割网络的全面探索,旨在获得更好的分割精度。通过研究,已经确定了3个关键模块,它们可以导致更快的推理速度或更小的模型规模,并有轻微的性能改进。
PP-MobileSeg的完整架构如图2所示,主要包括StrideFormer、聚合注意力模块(AAM)、分割头和有效插值模块(VIM)。通过输入图像并生成一个特征金字塔,并将注意力应用到最后两个阶段,以合并全局语义。
AAM负责融合局部特征和语义特征,然后通过分割头部产生分割Mask。最后,利用上采样模块VIM进一步增强分割Mask,只对最终预测中存在的类对应的几个通道进行上采样,从而减少延迟。
3、实验
- 1、VIM
正如前面提到的,VIM可以代替插值和ArgMax操作,以加速推理速度。从轮廓比较(图3)可以看出,应用VIM后,分割的总推理时间占比从76.32%大大下降到48.71%。表3的实验结果显示,加入VIM后,模型延迟降低了49.5%。这些实验证明了VIM在具有大量类的数据集上的加速能力是特殊的。
- 2、StrideFormer
在模板中使用四阶段网络后,参数开销显著降低了32.19%。实验结果还显示,准确率提高了0.78%,作者将这归因于增强的骨干。
- 3、AAM
AAM提高了0.59%的精度,同时略微增加了延迟和模型大小。为了深入了解AAM的设计,作者将融合模块分为两个分支:集成投票和最终的语义,如表4所示。报告的结果揭示了这两个分支的重要性,特别是最终语义的重要性。如果没有它,准确率就会下降0.45%。
4、参考
[1].PP-MobileSeg: Explore the Fast and Accurate Semantic Segmentation Model on Mobile Devices.
原文:集智书童
作者: 小书童
推荐阅读
- 即插即用模块 | RFAConv助力YOLOv8再涨2个点
- 视觉GPT | SegGPT:大通用分割模型登场!利用视觉 prompt 分割万物
- 多面体编译技术学习笔记一
- 目标检测提升技巧 | 结构化蒸馏一行代码让目标检测轻松无痛涨点
- 首个完全量化Vision Transformer的方法FQ-ViT | AI大模型落地加速还会远吗?
更多嵌入式AI技术干货请关注嵌入式AI技术专栏。
迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。