旷视研究院 · 2022年03月23日

论文解读 | 基于双分支特征交互的 3D 点云配准方法

image.png

3D 点云配准是匹配和叠加在不同时间、不同视角以及不同传感器下获取的两个或多个点云的过程,此技术被广泛应用于三维场景重建(3D Scene Reconstruction)、同步定位与建图(Simultaneous Localization And Mapping)、增强现实(Augmented  Reality)和自动驾驶(Autopilot)等应用和领域。

近年来,针对合成数据与室内场景数据配准涌现出一些优秀的基于深度学习的方法,其相较 ICP、FGR 等传统算法大幅提升了对于存在较大位姿差异、较低重叠比例以及较强噪声干扰的点云配准精度。

image.png

图1 合成数据与室内场景数据示例

现有的基于深度学习的方法依据其算法流程主要可以分为两类:(1)基于对应点匹配的方法,例如 PRNet、RPMNet 和 PREDATOR;(2)基于全局特征的方法,例如 FMR 和 OMNet。本文首先介绍此两类方法的求解思路,并从其存在的主要问题出发,介绍一种新颖的双分支特征交互网络结构。

基于对应点匹配的方法

此类方法依赖于每个点的局部特征提取,如果仅使用 PointNet 以及PointNet++ 提出的基于 kNN 或固定半径的局部几何特征提取方法,其点特征无法获取全局信息,进而可能导致错误匹配,如图 2(左)所示;而如果使用注意力机制(self/cross attention)来增强源点云与目标点云在特征提取过程中的信息交互,虽然其可以帮助获取全局信息,但其会引入较大的计算量与显存占用,且随着输入点云点数增大呈指数增长,如图 2(右)所示。

image.png

图2 基于对应点匹配方法的问题

基于全局特征的方法

此类方法不同于传统的点特征提取与匹配的求解路线,针对源点云和目标点云提取全局特征后,直接通过神经网络去回归 3D 刚体变换的旋转和平移参数。

针对于完全重叠的点云配准问题,由于不存在外点,其特征包含的全局信息相对基于对应点匹配方法中点特征的局部几何信息有一定优势。

然而,当应用于更一般的部分重叠点云配准场景时,如果缺乏特征提取过程中的源点云和目标点云之间的信息交互,就无法对点云的重叠与非重叠区域具备感知能力,如图 3(左)所示;而如果加入重叠与非重叠区域掩模预测,虽然可以一定程度上解决外点对于配准过程的干扰,但是又会引入额外的计算量,且不可避免地增加了配准所需时间,如图 3(右)所示。
image.png

图3 基于全局特征方法的问题

为什么需要双分支结构?

对于基于对应点匹配的方法,在提取源点云和目标点云的特征时,其编码器是共享网络权重的,且该特征仅用于求解 3D 刚体变换中的旋转参数。然而,对于基于全局特征的求解路线,由于刚体变换的旋转和平移参数是从同一特征回归得到的,其对编码器有更高的要求,即提取到的特征必须同时包含旋转与平移信息。

在此类方法中,3D 旋转一般使用四元数表示,而四元数与平移距离分属不同的解空间,简单地使用同一特征回归容易导致旋转与平移的求解精度无法兼顾。因此,我们将旋转与平移使用双分支结构分治处理,分支独立的编码器可以缓解上述问题。
image.png

图4 网络结构对比图

如何约束双分支特征提取?

即使使用双分支结构来提取旋转和平移特征,如果不加入额外的约束,依然无法保证特征会对于旋转和平移具备不同的敏感度。因此,基于“旋转与平移分支的编码器应该分别对于旋转与平移变换更加敏感,而同时对于平移和旋转变换更不敏感”的认知,我们基于三元损失函数设计了刚体变换敏感性损失函数来约束双分支编码器提取得到的特征,具体的数学表示如下:

image.png
image.png
image.png

其中,上标 r 和 t 分别表示旋转和平移,F 表示特征提取模块输出的全局特征,下标 X 表示特征来自于源点云,下标    和    表示特征来自于经过当次迭代预测的刚体变换矩阵中的平移和旋转分别进行变换后的源点云,δ 表示tripletloss 中的 margin 项。

image.png

图5 配准流程与多级特征交互结构示意图

多级特征交互

对于部分重叠的点云配准问题,网络必须具备对于输入点云的几何形状感知能力,即在特征提取过程中编码器必须能同时获取源点云和目标点云的整体信息。为此,我们设计了一种多级特征交互结构,分别对点特征和全局特征进行交互,如图 5 所示。

如果不进行特征交互,对于部分重叠的源点云和目标点云,编码器更倾向于提取相似的特征。然而,这样不仅会导致特征关注点不明确,无法有效利用点云的几何特征,还会增加后续刚体变换参数回归的难度。如图 6(a)(d)(f)所示,当不存在形状缺失时,编码器对于源点云和目标点云会输出相同特征,但部分重叠时,加入特征交互的特征差异要明显大于未加入特征交互。同时,加入特征交互后的编码器在不同的迭代中会关注输入点云的相同区域,而未加入特征交互则没有较显著的关注点,如图 6(g)(h)所示。
image.png

图6 特征可视化分析

实验结果

image.png
图7 不同算法在 ModelNet40 验证集上的评估结果

图 7 展示了经典的传统算法和部分最新的深度学习方法在 ModelNet40 验证集上的性能表现对比,可以观察到我们的方法在所有的评估指标上均优于对比方法,同时,图 8 展示了部分验证和测试样本的主观结果对比。量化和主观结果证明了我们的方法的有效性。

image.png

图8 不同算法在 ModelNet40 验证集上的主观结果

此外,为了进一步说明我们方法各组成部分的有效性,我们在 ModelNet40 测试集上进行了消去实验,如图 9 所示。其中,PFI 和 GFI 分别表示点特征和全局特征交互模块,SP 表示显著性点回归,PFDL 和 TSL 分别表示点特征丢弃和刚体变换敏感性损失函数。不难观察到当组合全部的模块,算法的各项评价指标达到最优。

image.png

图9 消去实验

为了进一步评估算法在室内场景中的表现,我们在 7Scenes 室内场景数据集上与经典的传统方法和最新的深度学习方法进行了对比,如图 10 所示。

image.png
image.png

图10 不同算法在 7Scenes 测试集上的评估结果

不难观察到,我们的方法在输入点数较少时取得了明显优势。虽然在输入点数较多时,我们的方法性能略差于 PREDATOR 与 D3Feat,但是其算法推理时间是我们的至少 10 倍。

总结

• 针对部分重叠的点云配准,我们提出了一种多级特征交互模块来促进源点云与目标点云间的信息交流,且在多个数据集上得到了最佳性能。

• 我们提出了双分支网络结构来解决旋转与平移分属不同解空间的问题。

• 我们设计了刚体变换敏感性损失函数来监督双分支特征提取器学习得到分别针对旋转和平移变换敏感的特征。此外,我们设计了点特征随机丢弃损失函数来促进全局特征的学习。

来源:旷视研究院
作者:R

专栏文章推荐

欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果
加入旷视:career@megvii.com
推荐阅读
关注数
7710
内容数
164
专注旷视研究院学术论文解读推送,涵盖计算机视觉,文字识别等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息