CVPR2021|基于双边扩充和自适应融合方法的点云语义分割网络

转载自：计算机视觉工坊
编辑：PCB_Segmen

Semantic Segmentation for Real Point Cloud Scenes via Bilateral Augmentation and Adaptive Fusion

1、Motivation

本期带来的是一篇2021年CVPR接收的一篇关于点云语义分割的文章。本文的核心出发点是，认为目前设备获取的点云信息过剩，而现有方法却不能很好的利用这些信息。

2、目的

针对点云语义分割任务，识别真实点云场景中每个点的语义标签。

图1 点云场景的语义分割示例

3、引言

真实的点云场景通常包含非常复杂的环境，加上3D数据所具有的原始几何属性，针对点云的详细信息分析对于机器感知来说往往非常具有挑战性。随着3D获取技术的发展，获取到的点云信息愈加完善，但对这些信息的利用率远远不够，因此对点云信息的分析十分重要。尽管有许多经典的方法涉及具有简单结构的2D图像的语义分割，但是点云在3D空间中具有离散性、无序且分布不均匀的特点，这使得3D点云语义分割任务更具挑战性，特别是对于从现实世界中采集的由数百万甚至数亿个点组成的大型场景。

当然，这其中还会包括一些其他问题。例如在邻域构建过程中，邻域之间的噪点和重叠是很难避免的，往往会产生歧义；冗余特征的处理，导致网络框架的前处理和后处理非常耗时；再比如不充分的全局表达，会导致采样阶段破坏全局的信息表达等等问题。

4、本文的主要贡献

针对这些问题，作者提出了一种双边扩充结构来有效处理多分辨率点云，并利用自适应融合方法更全面有效地表示点对特征。主要贡献如下：

1）引入了一个双边区块来扩大点与邻域点的联系（local context）。

2）自适应地融合多分辨率特征，以获取更加全面的点云信息。

3）提出一种全新的语义分割网络用来处理真实点云场景。

4）通过在真实点云场景数据集上的评估，证明本文方法与SOTA方法相比具有优势

5、相关工作

在相关工作部分中，作者从三个方面对现有的文章进行缺点的描述（1.基于点的方法；2.点云特征的描述；3.语义分割的网络）。总结完总之就一句话，作者认为现有方法尚未充分利用点云的信息或者处理效率很低，获取数据详细信息的能力有限。

6、方法

首先，需要明确点数为N的点云可以从两个方面进行表述：

（1）三维坐标点P本身表示；

（2）用一种d维的特征空间F表示。

而作者的思路就是以某种方式利用P和F组合，从而完成训练学习全面的特征图以进行准确的语义分割。

6.1、双边上下文模型

双向上下文模型由多个双向上下文块（Blocks）组成，以完成不同分辨率下的点云信息收集，如图2所示。在双向上下文模块中，作者通过包含偏移量来扩展每个点的局部上下文：实现从双边输入信息（pi和fi）中相互学习，然后合并两种特征信息用于点特征表示，从而实现增强局部上下文。为此，作者特别提出了_两个新的unit_和_一个loss function_。

图2 所提方法的网络框架

6.2、自适应融合模型

为了有效地分析由大量点组成的真实3D场景，作者通过逐步降低分辨率来分析点云信息。但是通过这种方法会使得相应的输出特征却变得抽象不好理解。为了解决这个问题，作者选择通过自适应地融合多分辨率特征图中的细节信息，从而表示原始点云的特征图并更加全面的解释每个点的编码信息。（_PS:注意，这里需要说明的是，就每个点而言，基于多种分辨率的上采样特征表示可能会导致信息尺度不同_）

图2自适应融合模块的体系结构

需要说明的是，这里我觉得有两点很重要，一是作者在“双边上下文模块”探索了点云数据的不同分辨率，其使用基于CUDA的最远点采样（FPS）来对数据进行采样，即逐渐处理点云的低分辨率：

7 、实验部分

通过在三个公开数据集（S3DIS，Semantic3D，SemanticKITTI）上的实验表明所提方法效果还是可以的。表1是在S3DIS_数据的_ mAcc，OA和mIoU三个指标的对比结果。（_更多数据对比请参见原文_）

表1

在图3中作者展示了融合多分辨率特征图的模块效果。

图3 基于S3DIS数据集中的办公室场景的自适应融合模块效果

同时，针对作者提到的之前的方法有可能在处理特征时过于复杂，有可能重复处理信息，作者也通过进一步数据分析给予了所提方法更有效的证明。

表2 SemanticKITTI数据上不同语义分割网络的复杂性分析

图4 方法预测结果的展示

7、总结

本文着重于对真实点云场景的基础分析和语义分割。具体来说，作者提出了一个结合双向扩展局部上下文和自适应融合多分辨率特征的网络。并在三个基准数据（包括S3DIS，Semantic3D和SemanticKITTI）上均取得了出色的性能。同时也提出希望优化实时应用程序的效率，利用不同框架中的关键思想，为更多3D任务（例如对象检测，实例分割等）推广网络构架。

备注：作者也是我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区

推荐阅读

重点介绍：1、3D视觉算法；2、vslam算法;3、图像处理；4、深度学习;5、自动驾驶;6、技术干货。 博主及合伙人分别来国内自知名大厂、海康研究院，深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号

推荐阅读

目录