NeurlPS 2019 | 旷视研究院推出可学习的树状滤波器，实现保留结构信息的特征变换 - 极术社区

旷视.gif

在图像语义分割任务中，学习到有足够判别力度的全局特征十分重要。现有大部分方法要么采用堆叠多层局部卷积层，要么使用非局部的block来获取远距离特征之间的语境。然而，由于这些方法都缺乏对空间结构信息的有效保留，在增大感受野的同时忽略了物体结构的具体信息。因此，在本文中，旷视研究院团队提出了一个可学习的树状滤波器，它能够在建模远距离语境关系时依然保留细节信息。
进一步，团队还提出了一个极大降低计算复杂度，能够在线性时间内执行运算的算法，保证了该滤波器模组能够方便地嵌入现有深度神经网络进行应用。最后团队提出了一个基于此树状滤波器模组的语义分割网络。在多个数据集上的实验结果显示，本文提出的方法达到了当前最佳性能。另外，本文已被NeurlPS 2019大会收录，代码与模型已经开源。

论文名称：Learnable Tree Filter for Structure-preserving Feature Transform
论文链接：https://arxiv.org/abs/1909.12513
开源链接：https://github.com/StevenGrov...

导语

基于语义分割的场景感知是一项基础又颇具挑战的机器视觉议题，其目标是为每个像素预测一个预定义的类别标签。

特征的表示能力在卷积神经网络的发展下取得了显著的提升。为了整合全局上下文中的特征信息，近来人们提出了很多增大感受野的方法，总体上可以分为局部（local）和非局部（non-local）两种类型。

传统的局部方案通过增加常规卷积层（或其变种atrous卷积）来扩大感受野。然而由于有效感受野呈高斯分布，因此很难保留图像结构的细节信息。考虑到这种局限性，一些non-local方法被提出，它们可以直接对远距离特征进行建模，比如attention方法和图神经网络方法。

但是由于无法同时保留与空间距离和特征差异有关的结构信息，因此这些方法依然会忽略物体细节。

更进一步看，上述方案都可以归类为粗粒度的的特征聚类方法，也就是说它们都不能很好保留原始结构中细节信息。

简介

针对上述问题，旷视研究院提出了一个全新的网络组件——可学习的树状滤波器（learnable tree filter），它可以让特征变换能够有效地保留结构信息。

受到图像降噪领域常使用的树状滤波器方法的启发，旷视研究院利用树状图对长距离上下文依赖关系进行了建模，这种方法同时也能够保留物体结构信息。具体来说，研究人员首先根据低层特征构建了最小生成树（MST），如图 1。然后再根据高层语义来计算MST中顶点之间的距离，这些距离可以通过反向传播算法进行优化。

因此，通过结合MST的结构特点，空间距离和特征差异度可以同时被建模到树状图中。为了使得该方法在实际应用中变得可行，研究人员进一步提出了一个高效算法，以将应用过程中的O(N^2)时间复杂度降为线性。不同于条件随机场（CRF），这一模块可嵌入到多种神经网络层中，以进行端到端的优化。

图 1：树状滤波器示意图

从本质上看，旷视研究院此次提出的树状滤波器模组与大部分基于CNN的方法不同，它从一个新角度切入思考，用树状图来进行保留结构信息的特征变换，在保证物体结构的细节信息的同时也照顾到远距离语境的依赖关系。另外，团队进一步提出的降低应用时间复杂度的高效方法，能够实现以更低的资源去实现多尺度特征的聚类。

方法

为了在建模长距离依赖关系时保留物体的结构信息，研究人员将本文提出的可学习的树状滤波器整合进了一个特征提取器，称为树状滤波器模组。从而，它能够很容易地被嵌入深度神经网络以进行端到端优化。接下来会首先介绍该滤波器算子，然后设计用于实际应用的高效实现方法，最后提出使用本文方法的语义分割模型框架。

技术细节

首先，将低层特征以无向图G=(V,E)表示，图中的边代表差异度权重w。顶点V对应语义特征的像素集合，顶点之间的边集合是E。低层特征图包含了丰富的物体细节，通过裁剪算法，将差异度大的边去掉后，就可以得到一个最小生成树（minimum spanning tree）。相对应的，图G就是最小生成树（MST），其差异度权重之和为所有生成树中最小。最小生成树的特性决定了它更倾向于相似顶点。因此，可将深度神经网络中树状滤波器定义为：

其中i、j是顶点索引，Ω是树G中所有顶点的集合，x表示输入的被编码特征，y表示与x相同维度的输出特征，E\_(i,j)是一条包含了从i到j所有顶点的超边（hyperedge）。相似度函数S将超边的特征映射到一个正标量值上，如方程2所示。

由方程1可知，树状滤波操作可以被看作一种加权均值滤波器。变量w\_(k,m)是相邻顶点k,m之间的差异度。两个顶点i，j间的距离D被定义为超边E\_(i,j)上w\_(k,m)的和。

所以，树状滤波器可重写为方程3。显然，输入特征x\_j和差异度w\_{k,m}决定了输出y\_i。因此输出关于输入的导数就是表达为方程 4、5。方程5中的 V\_{i}^{m} 由树中顶点m的子节点定义而来。

按照这种方法，本文提出的树状滤波器算子就可以写为一个可微的模组，能够使用bp算法进行端到端优化。

高效计算设计

如果令N为树G中顶点的数量，那么树状滤波器模组每输出一个顶点都得累加N次。对每个channel而言，计算复杂度都达到了O(N^2)，这使得无法进行实践应用。

为此旷视研究院引入了两个动态规划过程——aggregation和propagation。在aggregation过程中，系统会遍历从叶到根的全部节点。对于一个顶点而言，其特征会在所有子节点被遍历完以后才会更新。在propagation过程中，特征会从以递归方式从已更新的顶点传到其子节点。

方程6、7分别为aggregation和propagation过程。

算法1：用于树状滤波器的线性时间算法

如算法1所示，研究人员提出了一个在线性时间内完成树状滤波器操作的算法。

计算复杂度。由于batch和channel远小于输入特征中的顶点，所以研究人员从顶点的影响入手。对每个channel而言，所有过程的计算复杂度为O(N)，包括构建MST和逐一计算每条距离的消耗，它随顶点数线性变化。这显著降低了计算复杂度与计算时间消耗。

语义分割网络架构

基于本文提出的高效计算方法，研究人员能够很容易地将本文提出的树状滤波器模组嵌入到深度神经网络以进行高效的特征聚合。为了验证本文提出模组的有效性，研究人员用ResNet作为编码器来构建整个网络。

为了解决分辨率降低的问题，他们根据前人的工作设计了一个简单解码模组。具体而言，解码器中的特征会进行2倍上采样，并且与编码器中对应的低层特征进行相加。之后，解码器中自下而上的嵌入函数被替换为树状滤波器模组，以用来进行多尺度地特征变换，如图2所示。

图 2：本文提出的语义分割框架结构

实验

在Cityscapes上的实验

旷视研究院研究人员在Cityscapes数据集上使用2975,500张训练图像和1525张测试图像进行了实验，结果表明，在多尺度特征变换和图像翻转的策略下，本文方法在mIoU指标上得到了80.8%的测试结果成绩。

表 5：使用vanilla ResNet-101作为backbone，在Cityscapes集上的测试结果对比

在PASCAL VOC上的实验

在PASCAL VOC 2012数据集的实验结果同样达到了当前最佳水平。具体而言，旷视研究院此次提出的模型在没有MS-COCO预训练的情况下实现了mIoU 84.2%，如果使用MS-COCO预训练，本文方法依然实现了最佳性能，达到了mIoU 86.3%。

表6：使用vanilla ResNet-101作为backbone，在PASCAL VOC 2012上的测试结果对比

结论

在本文中，旷视研究院团队提出了可学习的树状滤波器，它可以实现保留结构信息的特征变换。不同于大部分现有方法，新方法通过树状图来建模远距离上下文的依赖关系，这样可以同时保留有关物体结构的细节信息。

进一步，研究人员给出了树状滤波器模组，以及一个能够让该模组在实践中得到有效应用的线性时间计算方法。在PASCAL VOC 2012和Cityscapes上的实验结果证明了本文提出方法在语义分割任务上的优越性，未来，团队会在与结构有关系的更多潜在领域（比如检测和实例分割）进行探索。

参考文献

Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, and Alan L Yuille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018.
Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In IEEE Conference on Computer Vision and Pattern Recognition, 2017.
Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In IEEE Conference on Computer Vision and Pattern Recognition, 2018.
QingxiongYang.Stereomatchingusingtreefiltering.IEEETransactionsonPatternAnalysisandMachine Intelligence, 2015.
Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and Andrew Zisserman. The pascal visual object classes (voc) challenge. International Journal of Computer Vision, 2010.
MariusCordts,MohamedOmran,SebastianRamos,TimoRehfeld,MarkusEnzweiler,RodrigoBenenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In IEEE Conference on Computer Vision and Pattern Recognition, 2016.

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果
加入旷视：career@megvii.com

NeurlPS 2019 | 旷视研究院推出可学习的树状滤波器，实现保留结构信息的特征变换

导语

简介

方法

技术细节

高效计算设计

语义分割网络架构

实验

结论

参考文献

推荐阅读

目录