最近对实例分割的关注集中在基于查询的模型上。尽管这些模型是无非最大值抑制(NMS)和端到端的,但在高精度实时基准测试上的优势尚未得到很好的证明。
在本文中展示了基于查询的模型在高效实例分割算法设计方面的强大潜力。作者提出了FastInst,这是一个简单、有效的基于查询的实时实例分割框架。FastInst可以以实时速度(即32.5 FPS)执行,同时在COCO测试开发中产生超过40的AP(即40.5 AP)。
具体来说,FastInst遵循了最近引入的Mask2Former的元架构。其关键设计包括实例激活引导查询、双路径更新策略和GT Mask引导学习,使之能够使用更轻的像素解码器、更少的Transformer解码器层,同时实现更好的性能。
实验表明,FastInst在速度和准确性方面都优于大多数最先进的实时模型,包括强大的全卷积Baseline。
1、简介
实例分割旨在分割图像中所有感兴趣的对象。Mask R-CNN等主流方法遵循检测然后分割的设计。尽管这些方法简单直观,但会生成大量重复的区域建议,从而引入冗余计算。为了提高效率,出现了许多基于全卷积网络(FCN)的单阶段方法。它们端到端地分割目标,而不包含区域建议。这种方法的推理速度很有吸引力,尤其是在实时场景中。然而,由于密集的预测,经典的单阶段方法仍然依赖于手动设计的后处理步骤,如非最大值抑制(NMS)。
最近,随着DETR在目标检测中的成功,出现了基于查询的单阶段实例分割方法。他们利用多功能、强大的注意力机制,结合一系列可学习的查询,来推断对象类别和分割掩码,而不是卷积。例如,Mask2Former通过在主干上添加像素解码器和Masked Attentension Transformer解码器,简化了实例分割的工作流程。与之前的方法不同,Mask2Former不需要额外的手工组件,如训练目标分配和NMS后处理。
Mask2Former虽然简单,但也有自己的问题:
- 它需要大量的解码器层来解码对象查询,因为它的查询是静态学习的,需要很长的过程来细化;
- 它依赖于重像素解码器,例如多尺度可变形注意力Transformer(MSDeformAttn),因为它的目标分割掩码直接依赖于像素解码器的输出,像素解码器被用作区分不同目标的每像素嵌入特征;
- 屏蔽注意力限制了每个查询的感受野,这可能导致Transformer解码器陷入次优查询更新过程。
尽管Mask2Former取得了出色的性能,但其在快速、高效的实例分割方面的优势尚未得到很好的证明,这对自动驾驶汽车和机器人等许多现实世界的应用至关重要。事实上,由于缺乏先验知识和注意力机制的高计算复杂性,基于查询的模型的效率通常不令人满意。高效的实时实例分割基准仍然由基于经典卷积的模型主导。
在本文中通过提出FastInst来填补这一空白,FastInst是一个简洁有效的基于查询的实时实例分割框架。证明了基于查询的模型可以在保持快速的同时在实例分割任务上取得优异的性能,在高效的实例分割算法设计中显示出巨大的潜力。例如,设计的基于ResNet-50主干的最快查询模型在COCO测试开发中以53.8 FPS(每秒帧数)实现了35.6 AP,在单个V100 GPU上进行了评估(见图1);此外,最佳权衡模型可以以实时速度执行,即32.5 FPS,同时产生超过40的AP,即40.5 AP,据我们所知,这在以前的方法中尚未实现。
具体而言,本文模型遵循Mask2Former的元架构。为了实现高效的实时实例分割,本文提出了3个关键技术。首先,使用实例激活引导查询,它从底层特征图中动态选择具有高语义的像素嵌入作为Transformer解码器的初始查询。与静态零或可学习查询相比,这些选择的查询包含了关于潜在目标的丰富嵌入信息,并减少了Transformer解码器的迭代更新负担。
其次,在Transformer解码器中采用了双路径结构,其中查询特征和像素特征交替更新。这样的设计增强了像素特征的表示能力,并将从重像素解码器设计中拯救出来。此外,它在查询特征和像素特征之间进行了直接通信,加快了迭代更新收敛,有效地减少了对解码器层数的依赖。第三,为了防止掩蔽注意力陷入次优查询更新过程,引入了基本事实掩蔽引导学习。
将标准Mask注意力中使用的Mask替换为最后一层二分匹配的GT Mask,以再次转发Transformer解码器,并使用固定的匹配分配来监督输出。该指南允许每个查询在训练过程中看到其目标预测目标的整个区域,并有助于Mask注意力在更合适的前景区域内注意力。
在具有挑战性的MS COCO数据集上对FastInst进行了评估。如图1所示,FastInst在保持快速的同时,在COCO基准上获得了强大的性能,超过了以前大多数最先进的方法。作者希望FastInst可以作为实时实例分割的新基线,并推动基于查询的实例分割模型的开发。
2、相关工作
现有的实例分割技术可以分为3类,即基于区域的方法、基于实例激活的方法和基于查询的方法。
「基于区域的方法」首先检测目标边界框,然后应用RoI操作,如RoI Pooling或RoI Align,以提取用于对象分类和遮罩生成的区域特征。作为一项开创性的工作,Mask RCNN在Faster R-CNN之上添加了一个掩码分支,以预测每个目标的分割Mask。后续方法要么专注于提高检测到的边界框的精度,要么解决Mask R-CNN中出现的低质量分割Mask。尽管在几个基准上的性能有所提高,但这些基于区域的方法存在许多重复的区域建议,这损害了模型的效率。
「基于实例激活的方法」使用一些有意义的像素来表示目标,并训练这些像素的特征以在预测期间被激活用于分割。一类典型的此类方法是基于中心激活,它迫使目标的中心像素与分割和分类相对应。例如,SOLO利用目标的中心特征来预测用于分割的Mask Kernel。MEInst和CondInst在基于中心激活的检测器FCOS上建立了模型,并增加了预测动态卷积的Mask嵌入向量的分支。最近,SparseInst学习了一个加权像素组合来表示目标。所提出的FastInst利用位于具有高级语义的目标区域中的像素作为目标的表示,并提取它们的特征作为查询。
DETR中出现了「基于查询的方法」,并表明具有端到端集合预测的Transformer编码器-解码器的卷积主干可以在实例分割任务上获得良好的性能。SOLQ和ISTR利用学习的目标查询来推断用于实例分割的Mask嵌入。Panoptic SegFormer添加了一个位置解码器来提供目标位置信息。Mask2Former引入了Mask注意力,以提高性能和更快的收敛速度。
Mask DINO将目标检测和图像分割任务统一起来,在实例分割方面取得了良好的效果。尽管性能出众,但基于查询的模型通常计算成本太高,无法在现实世界中应用。与卷积网络相比,它们在快速、高效的实例分割方面的优势尚未得到很好的证明。本文的目标是利用Transformer强大的建模能力,同时设计一个高效、简洁和实时的实例分割方案,以促进基于查询的分割方法的应用。
此外,许多工作还在图像分割任务中使用Dual path Transformer架构。然而,它们的设计通常很复杂,很难部署。只在简单的Transformer层上构建双路径架构,以提高效率。
3、本文方法
3.1、 总体架构
如图2所示,FastInst由3个模块组成:主干网、像素解码器和Transformer解码器。
3.2、轻量化像素解码器
3.3、实例激活引导查询
3.4、双路变压器解码器
(1)Positional embeddings
(2)Pixel feature update
(3)Query update
(4)Prediction
3.5、Ground truth mask-guided learning
3.6、损失函数
(1)Instance activation loss
(2)Prediction loss
(3)GT mask-guided loss
4、实验
4.1、主要结果
4.2、消融研究
(1)IA-guided queries
(2)Dual-path update strategy
(3)GT mask-guided learning
(4)Pixel decoder
(5)Transformer decoder layer number.
参考Table 6(a)。
(6)IA-guided query number
参考Table 6(b)。
(7)Auxiliary learnable query number
参考Table 6(c)。
(8)Query selection source.
参考Table 6(e)。
(9)Instance activation loss.
参考Table 6(f)。
(10)Positional embeddings
5、参考
[1].FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation.
原文:集智书童
作者: 小书童
推荐阅读
- 【机器学习算法】1、线性回归——深层理解
- 追求极致:Repvgg重参数化对YOLO工业落地的实验和思考
- 【ReID学习笔记】Auto-ReID:ReID结构搜索首次尝试(附单卡代码下载)
- 【项目实践】基于Mask R-CNN的道路物体检测与分割(从数据集制作到视频测试)
更多IC设计技术干货请关注IC设计技术专栏。
迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。