作者:三弟
首发:3D视觉工坊微信公众号
原始点云数据不可避免地从3D传感器或在重建算法中包含异常值。本文提出了一种用于鲁棒点云处理的新型端到端网络,称为 PointASNL,可以有效地处理带噪声的点云。我们方法中的关键部分是自适应采样(AS)模块。它首先从最远点采样点的周围对点的邻域加权,然后在整个点云中自适应的调整采样。AS模块不仅有益于点云的特征学习,而且缓解受异常值的影响。为了进一步捕捉邻域信息和长期依赖于采样点,我们从非局部操作的角度出发,提出了局部-非局部 (local-Nonlocal, L-NL) 模块。这种L-NL模块使学习过程对噪声不敏感。大量的实验证明了在分类和语义分割任务上,在合成数据,室内、室外数据,是否有噪声的数据,都有良好性能和鲁棒性。并且在有大量噪声的真实户外数据集SemanticKITTI上,明显优于以前的方法。代码发布在:
https://github.com/yanx27/Poi...。
本文的主要贡献:1) 提出了端到端鲁棒点云处理的模型 PointASNL,可以有效缓解异常值或噪声的影响;2)提出自适应采样(AS)模块,PointASNL可以自适应调整初始采样点的坐标,特征更能学习到内蕴几何 (intrinsic geometry) 信息,对异常值更鲁棒;3)进一步在点非局部单元提出了 局部-非局部(LNL)模块中,从而增强了点在局部单元的特征学习。大量实验证明在分类和语义分割任务了我们方法的稳健性。
模型框架
作者提出了一个新颖的端到端网络健壮的点云处理,名为 PointASNL,其中可以有效地处理带有噪声或异常值的点云。PointASNL 主要包括两个通用模块:自适应采样(AS)模块和localNonlocal(L-NL)模块。AS模块用于调整采样点的坐标和特征,而L-NL模块用于捕获采样点的邻居和远程依赖关系。
自适应采样(AS)模块:因为最远点采样(FPS)有两个主要问题:(1)对异常点非常敏感。(2)对缺失地方,很难推断出原始几何信息。所以为了解决上述问题,再用 FPS 获得相对均匀的点作为原始采样点后,用提出的AS模块自适应地学习每个采样点的位移量。对于AS模块,令 作为某层的从 N 个输入点的 个采样点,采样点为 ,其特征 ,组成的特征矩阵为 。我们通过k-NN搜索将采样点按邻域分组,然后使用自注意力机制进行组特征的更新。
如图2(a)所示,我们通过组中所有点来更新组特征。对于 ,其中 是采样点 的k个近邻,可以将组中的关注机制写为 (1)
其中函数 R 计算采样点 和其邻域 之间的关系。一元函数 γ 将每个组特征 从维度 变为另一个隐藏维度 , 是一个聚合函数。
为了减少计算量,作者考虑点特征 γ 的线性变换 ,关系函数 R 为两点的点积相似度,如下所示:
(2)
其中 φ 和 θ 是两个独立的线性变换并且可以应用独立的一维卷积:, 分别是被输入和输出的通道。
此后,在K个组元素上使用逐点 MLP 和 softmax 激活函数来获得组中每个点的对应强度,可以将其表示为每个坐标轴和特征通道的归一化权重。
其中 。最后,通过加权和运算实现对坐标空间 和特征空间 的更新。从而获得一个新的采样点 及其特征
L-NL模块 在L-NL模块中有两个单元:点局部(PL)单元和点非局部(PNL)单元。PL单元可以用在算法上(例如PointNet ++,PointConv),PNL 单元考虑采样点与整个点云的多尺度关系。
点局部(PL)单元中,特征挖掘利用从局部到全局策略,逐渐增加感受野。对局部采样点 ,对应特征 和邻域 ,使用 PL 的广义局部聚集函数可以表示为
其中 是局部中心 更新的特征。对于PointNet ++ [26], 是多层感知机(MLP),A 是最大池化。近年来,越来越多的工作直接在局部区域上设计卷积算子。作者在实现卷积操作时,自适应地将两点的相对位置投影映射到卷积权重,聚集局部特征。
其中 为 将三维相对位置转换到 变换矩阵。 代表输入的通道, 是PL单元更新特征的通道。
点非局部(PNL)单元 :(1)我们使用我们的采样点作为查询点,以计算与某些层中整个点的相似度(例如,关键点PK)。此外,我们的查询点不限于输入点云的一个子集,因为每个采样点都通过AS模块自适应地更新其坐标和特征(第3.1节)。(2)随着每一层的下采样操作,我们的输出通道逐渐增加,这避免了下采样编码器中的信息丢失。具体来说,与等式1类似,给定查询点 和 的关键点,非局部运算 为定义为:
其中 代表整个关键点 N 的某一层。最后,经过一个非线性卷积层 σ 。因此,对于采样点 ,其更新的特征由 PNL 可得:
通过结合PL和PNL,我们构建了一个Local-Nonlocal 模块以同时编码局部和全局特征。如图2(b)所示,它使用查询点和关键点作为输入,并利用邻域的k-NN分组搜索每个查询点。PL将组坐标和特征进行局部编码。对于PNL,使用通过注意力机制得到查询点的全局信息。最后对于每个更新的点,使用具有非线性卷积 σ 按通道求和融合局部和全局信息。
实验
作者在合成数据集,大型室内和室外场景分割数据集评估PointASNL。
在合成数据集ModelNet10和ModelNet40进行分类,其中ModelNet40 由 40个类9843个训练模型和2468个测试模型组成,而ModelNet10是ModelNet40的子集, 包括10个类别,包含3991个训练模型和908个测试模型。结果如表1所示,除RS-CNN外,我们的方法在1024个输入点上几乎胜过所有最新技术。注意RS-CNN 采用了 tricky 的投票策略的情况下,可以从92.9%达到93.6%(最好的300重复测试),这与正常的随机抽样和一次投票设置不同。
对于室内3D场景分割,作者用3D大型室内空间 S3DIS 和ScanNet v2 数据集评估模型。S3DIS 数据集是从3座不同的建筑物中采样的, 其中包括6个拥有271个房间的大型室内区域。此数据集中的每个点都有一个语义标签,标签共有13个类别,作者比较每类平均IoU (mIoU)。ScanNet 数据集包含1513 个扫描室内点云进行训练和100个进行测试。标签共有21个类别。表2中展示了在相同的训练和测试下,PointASNL与其他最新方法比较的结果。PointASNL胜过所有方法。尤其是 PointASNL 的结果比 ScanNet 上最新的 PointConv 高8%。虽然 PointConv 的卷积设计与点局部PL单元很像,但是没有合适的采样和全局信息,相同的网络结构很难达到这样的结果。
图6展示了模型即使在复杂的情况下也可以正确分割对象场景。
户外场景分割。与室内相比相应的,室外点云覆盖的区域更广,具有相对稀疏的点分布和噪声。因此从室外场景更具挑战性。作者在SemanticKITTI 上评估了模型。表3展示了 PointASNL 与其他最新方法的比较。Point ASNL 在很大程度上优于其他方法。,在19个类别中的13个类别中排名最佳。此外,图7展示了两个样本的可视化,即使数据中有大量噪声,模型仍然可以完美预测。
此外模型还做了消融实验和鲁棒性分析。模型在多个数据集中都有不错的表现,与自适应采样(AS)和局部-非局部(L-NL)模块的作用密切相关。初次以外,因为自适应采样是一种微分采样策略,可以微调采样点的空间分布,大大提高采样点的鲁棒性。
推荐阅读
重点介绍:1、3D视觉算法;2、vslam算法;3、图像处理;4、深度学习;5、自动驾驶;6、技术干货。 博主及合伙人分别来国内自知名大厂、海康研究院,深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号