自适应采样非局部神经网络的点云鲁棒操作

作者：三弟
首发：3D视觉工坊微信公众号

原始点云数据不可避免地从3D传感器或在重建算法中包含异常值。本文提出了一种用于鲁棒点云处理的新型端到端网络，称为 PointASNL，可以有效地处理带噪声的点云。我们方法中的关键部分是自适应采样（AS）模块。它首先从最远点采样点的周围对点的邻域加权，然后在整个点云中自适应的调整采样。AS模块不仅有益于点云的特征学习，而且缓解受异常值的影响。为了进一步捕捉邻域信息和长期依赖于采样点，我们从非局部操作的角度出发，提出了局部-非局部 (local-Nonlocal, L-NL) 模块。这种L-NL模块使学习过程对噪声不敏感。大量的实验证明了在分类和语义分割任务上，在合成数据，室内、室外数据，是否有噪声的数据，都有良好性能和鲁棒性。并且在有大量噪声的真实户外数据集SemanticKITTI上，明显优于以前的方法。代码发布在：

https://github.com/yanx27/Poi...。

本文的主要贡献：1）提出了端到端鲁棒点云处理的模型 PointASNL，可以有效缓解异常值或噪声的影响；2）提出自适应采样（AS）模块，PointASNL可以自适应调整初始采样点的坐标，特征更能学习到内蕴几何 (intrinsic geometry) 信息，对异常值更鲁棒；3）进一步在点非局部单元提出了局部-非局部（LNL）模块中，从而增强了点在局部单元的特征学习。大量实验证明在分类和语义分割任务了我们方法的稳健性。

模型框架

作者提出了一个新颖的端到端网络健壮的点云处理，名为 PointASNL，其中可以有效地处理带有噪声或异常值的点云。PointASNL 主要包括两个通用模块：自适应采样（AS）模块和localNonlocal（L-NL）模块。AS模块用于调整采样点的坐标和特征，而L-NL模块用于捕获采样点的邻居和远程依赖关系。

自适应采样（AS）模块：因为最远点采样（FPS）有两个主要问题：（1）对异常点非常敏感。（2）对缺失地方，很难推断出原始几何信息。所以为了解决上述问题，再用 FPS 获得相对均匀的点作为原始采样点后，用提出的AS模块自适应地学习每个采样点的位移量。对于AS模块，令作为某层的从 N 个输入点的个采样点，采样点为，其特征，组成的特征矩阵为。我们通过k-NN搜索将采样点按邻域分组，然后使用自注意力机制进行组特征的更新。

如图2（a）所示，我们通过组中所有点来更新组特征。对于，其中是采样点的k个近邻，可以将组中的关注机制写为 (1)

其中函数 R 计算采样点和其邻域之间的关系。一元函数 γ 将每个组特征从维度变为另一个隐藏维度，是一个聚合函数。

为了减少计算量，作者考虑点特征 γ 的线性变换，关系函数 R 为两点的点积相似度，如下所示：

(2)

其中 φ 和 θ 是两个独立的线性变换并且可以应用独立的一维卷积：，分别是被输入和输出的通道。

此后，在K个组元素上使用逐点 MLP 和 softmax 激活函数来获得组中每个点的对应强度，可以将其表示为每个坐标轴和特征通道的归一化权重。

其中。最后，通过加权和运算实现对坐标空间和特征空间的更新。从而获得一个新的采样点及其特征

L-NL模块 在L-NL模块中有两个单元：点局部（PL）单元和点非局部（PNL）单元。PL单元可以用在算法上（例如PointNet ++，PointConv），PNL 单元考虑采样点与整个点云的多尺度关系。

点局部（PL）单元中，特征挖掘利用从局部到全局策略，逐渐增加感受野。对局部采样点，对应特征和邻域，使用 PL 的广义局部聚集函数可以表示为

其中是局部中心更新的特征。对于PointNet ++ [26]，是多层感知机（MLP），A 是最大池化。近年来，越来越多的工作直接在局部区域上设计卷积算子。作者在实现卷积操作时，自适应地将两点的相对位置投影映射到卷积权重，聚集局部特征。

其中为将三维相对位置转换到变换矩阵。代表输入的通道，是PL单元更新特征的通道。

点非局部（PNL)单元 ：（1）我们使用我们的采样点作为查询点，以计算与某些层中整个点的相似度（例如，关键点PK）。此外，我们的查询点不限于输入点云的一个子集，因为每个采样点都通过AS模块自适应地更新其坐标和特征（第3.1节）。（2）随着每一层的下采样操作，我们的输出通道逐渐增加，这避免了下采样编码器中的信息丢失。具体来说，与等式1类似，给定查询点和的关键点，非局部运算为定义为：

其中代表整个关键点 N 的某一层。最后，经过一个非线性卷积层 σ 。因此，对于采样点，其更新的特征由 PNL 可得：

通过结合PL和PNL，我们构建了一个Local-Nonlocal 模块以同时编码局部和全局特征。如图2（b）所示，它使用查询点和关键点作为输入，并利用邻域的k-NN分组搜索每个查询点。PL将组坐标和特征进行局部编码。对于PNL，使用通过注意力机制得到查询点的全局信息。最后对于每个更新的点，使用具有非线性卷积 σ 按通道求和融合局部和全局信息。

实验

作者在合成数据集，大型室内和室外场景分割数据集评估PointASNL。

在合成数据集ModelNet10和ModelNet40进行分类，其中ModelNet40 由 40个类9843个训练模型和2468个测试模型组成，而ModelNet10是ModelNet40的子集，包括10个类别，包含3991个训练模型和908个测试模型。结果如表1所示，除RS-CNN外，我们的方法在1024个输入点上几乎胜过所有最新技术。注意RS-CNN 采用了 tricky 的投票策略的情况下，可以从92.9％达到93.6％（最好的300重复测试），这与正常的随机抽样和一次投票设置不同。

对于室内3D场景分割，作者用3D大型室内空间 S3DIS 和ScanNet v2 数据集评估模型。S3DIS 数据集是从3座不同的建筑物中采样的，其中包括6个拥有271个房间的大型室内区域。此数据集中的每个点都有一个语义标签，标签共有13个类别，作者比较每类平均IoU （mIoU）。ScanNet 数据集包含1513 个扫描室内点云进行训练和100个进行测试。标签共有21个类别。表2中展示了在相同的训练和测试下，PointASNL与其他最新方法比较的结果。PointASNL胜过所有方法。尤其是 PointASNL 的结果比 ScanNet 上最新的 PointConv 高8％。虽然 PointConv 的卷积设计与点局部PL单元很像，但是没有合适的采样和全局信息，相同的网络结构很难达到这样的结果。

图6展示了模型即使在复杂的情况下也可以正确分割对象场景。

户外场景分割。与室内相比相应的，室外点云覆盖的区域更广，具有相对稀疏的点分布和噪声。因此从室外场景更具挑战性。作者在SemanticKITTI 上评估了模型。表3展示了 PointASNL 与其他最新方法的比较。Point ASNL 在很大程度上优于其他方法。，在19个类别中的13个类别中排名最佳。此外，图7展示了两个样本的可视化，即使数据中有大量噪声，模型仍然可以完美预测。

此外模型还做了消融实验和鲁棒性分析。模型在多个数据集中都有不错的表现，与自适应采样（AS）和局部-非局部（L-NL）模块的作用密切相关。初次以外，因为自适应采样是一种微分采样策略，可以微调采样点的空间分布，大大提高采样点的鲁棒性。

推荐阅读

重点介绍：1、3D视觉算法；2、vslam算法;3、图像处理；4、深度学习;5、自动驾驶;6、技术干货。 博主及合伙人分别来国内自知名大厂、海康研究院，深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号

模型框架

实验

推荐阅读

目录