BANet：用于快速高效实现RGB-D数据显著性目标检测的双边注意力模型|TIP2020

转载自：3D视觉工坊
作者：明泽Danny

简介：
现有的大多数RGB-D显著物体检测(SOD)方法通常集中关注于深度图像突出的前景区域。然而，忽略了背景也可以为SOD方法提供重要的信息。为了获得良好的性能，我们可以从互补的前景和背景信息联合预测突出对象。因此，本文提出了一种用于RGB-D SOD任务的双边注意力网络(BiANet)。具体来说，提出了一个具有互补注意机制的双边注意模块(BAM)：前景优先(FF)注意和背景优先(BF)注意。FF的注意力集中在前景区域，呈现出逐渐细化的风格，而BF集中在背景区域，用于恢复潜在有用的突出信息。利用所提出的BAM模块，BiANet可以捕获更有意义的前景和背景线索，并将更多的注意力转移到细化前景和背景区域之间的不确定细节上。
本文主要贡献：

提出了一个简单而有效的双边注意模块(BAM)，从有着丰富的前景和背景信息的深度图像中协同探索前景和背景线索。
BiANet在九个标准度量下，在六个流行的RGB-SOD数据集上实现了更好的性能，并提供了比最先进的方法更好的视觉效果（例如，包含更多的细节和锐利的边缘）。
BiANet在NVIDIA GeForce RTX2080Ti GPU的不同设置下，运行速度为34fps∼80fps。是实际应用一个可行的解决方案。

与其他方法的比较的可视化图片：

模型框架：

1）特征提取：首先搭建两个编码流提取RGB和深度信息。具体来说，RGB和深度流都使用来自VGG-16的五个卷积块作为标准骨干，分别提取多级特征{firgb, fid},i=[1,5]，并附加一个包括三个卷积层的卷积块，分别预测显着性映射Srgb和Sd。然后将来自RGB流的第i侧输出firgb，来自深度流的第i侧输出fid全连接为特征张量F i, i=[1,5]。此外，F6由RGB流和深度流的第5侧输出分别先经过最大池化操作再全连接得到。
2）预测上采样：从高层特征预测的初始显着性图在低分辨率下是粗糙的，但对于预测前景和背景的初始位置是有用的，因为它包含丰富的语义信息。为了细化基本显着性映射S6（由F6得到），在BAM的帮助下，使用具有更多细节的低级特征F5来预测高级预测和地面真值(GT)之间的残差分量。我们将预测的残差分量R5添加到上采样的高级预测S6中，并得到一个精细的预测S5等，即，
其中U（·）表示上采样。最后，我们的BiANet得到了S=σ(S1)的显着性图，其中σ（·）是激活函数。
3）双边注意模块：为了获得更好的残差，区分上采样的前景和背景区域，本文设计了一个双边注意模块(BAM)使BiAnet能够区分前景和背景。在BAM中，高级预测作为前景优先注意(FF)映射，反向预测作为背景优先(BF)注意映射，将前景和背景上的双边注意结合起来。使用来自较高级别的上采样预测AiF,i=[1,5]作为前景优先注意映射，在它们被激活后，背景优先注意(B F)映射是通过从矩阵E中减去FF映射生成的AiB,i=[1,5]，其中矩阵E所有元素都是1。具体公式如下：

然后分别应用FF和BF对两个分支的侧输出特征进行加权，并进一步预测残差分量：

其中Fˆi是Fi的信道约简特征，使用32×1卷积来降低计算成本，表示由32个卷积核组成的特征提取操作，其大小为3×3, [ ，]表示全连接。在相同的特征提取操作后，PR是通过3×3核输出单通道残差映射的预测层。得到Ri后即可通过上述方程得到细化的预测Si。
自顶向下预测上采样是一个逐渐提高显著对象分辨率的过程。会导致不确定的粗边。可以看到，FF和BF特征都集中在不确定区域（如对象边界）。低水平和高分辨率FF分支将消除不确定区域的溢出，而BF分支将消除不属于背景的不确定区域。这就是为什么BiAnet在细节上表现得更好，并且容易预测锋利的边缘的一个重要原因。

双边注意模块工作机制的可视化图片：

损失函数：
为了快速收敛，将深度监督应用于深度流输出Sd , RGB流输出Srgb和每个自顶向下侧输出{S1, S2,···S6}。BiANet的总损失函数是:

实验结果：
BiANet和其他14种最先进的方法在6个数据集上的PR曲线。
定量评价结果：

总结：
本文提出了一种快速有效的双边注意网络(BiANet)，用于RGB-D SOD任务。为了更好地利用前景和背景信息，本文提出了一个双边注意模块(BAM)，它包括前景优先注意和背景优先注意机制的双重互补。为了充分利用多尺度技术，将BAM模块扩展到其多尺度版本(MBAM)，捕获更好的全局信息。在六个基准数据集上的广泛实验表明，BiANet在定量和定性性能方面优于以前最先进的SOD方法。所提出的BiANet在单个GPU上以实时速度运行，使其成为各种实际应用的潜在解决方案。

推荐阅读

重点介绍：1、3D视觉算法；2、vslam算法;3、图像处理；4、深度学习;5、自动驾驶;6、技术干货。 博主及合伙人分别来国内自知名大厂、海康研究院，深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号

推荐阅读

目录