论文解读 | 基于双分支特征交互的 3D 点云配准方法 - 极术社区

3D 点云配准是匹配和叠加在不同时间、不同视角以及不同传感器下获取的两个或多个点云的过程，此技术被广泛应用于三维场景重建（3D Scene Reconstruction）、同步定位与建图（Simultaneous Localization And Mapping）、增强现实（Augmented Reality）和自动驾驶（Autopilot）等应用和领域。

近年来，针对合成数据与室内场景数据配准涌现出一些优秀的基于深度学习的方法，其相较 ICP、FGR 等传统算法大幅提升了对于存在较大位姿差异、较低重叠比例以及较强噪声干扰的点云配准精度。

图1 合成数据与室内场景数据示例

现有的基于深度学习的方法依据其算法流程主要可以分为两类：（1）基于对应点匹配的方法，例如 PRNet、RPMNet 和 PREDATOR；（2）基于全局特征的方法，例如 FMR 和 OMNet。本文首先介绍此两类方法的求解思路，并从其存在的主要问题出发，介绍一种新颖的双分支特征交互网络结构。

基于对应点匹配的方法

此类方法依赖于每个点的局部特征提取，如果仅使用 PointNet 以及PointNet++ 提出的基于 kNN 或固定半径的局部几何特征提取方法，其点特征无法获取全局信息，进而可能导致错误匹配，如图 2（左）所示；而如果使用注意力机制（self/cross attention）来增强源点云与目标点云在特征提取过程中的信息交互，虽然其可以帮助获取全局信息，但其会引入较大的计算量与显存占用，且随着输入点云点数增大呈指数增长，如图 2（右）所示。

图2 基于对应点匹配方法的问题

基于全局特征的方法

此类方法不同于传统的点特征提取与匹配的求解路线，针对源点云和目标点云提取全局特征后，直接通过神经网络去回归 3D 刚体变换的旋转和平移参数。

针对于完全重叠的点云配准问题，由于不存在外点，其特征包含的全局信息相对基于对应点匹配方法中点特征的局部几何信息有一定优势。

然而，当应用于更一般的部分重叠点云配准场景时，如果缺乏特征提取过程中的源点云和目标点云之间的信息交互，就无法对点云的重叠与非重叠区域具备感知能力，如图 3（左）所示；而如果加入重叠与非重叠区域掩模预测，虽然可以一定程度上解决外点对于配准过程的干扰，但是又会引入额外的计算量，且不可避免地增加了配准所需时间，如图 3（右）所示。

图3 基于全局特征方法的问题

为什么需要双分支结构？

对于基于对应点匹配的方法，在提取源点云和目标点云的特征时，其编码器是共享网络权重的，且该特征仅用于求解 3D 刚体变换中的旋转参数。然而，对于基于全局特征的求解路线，由于刚体变换的旋转和平移参数是从同一特征回归得到的，其对编码器有更高的要求，即提取到的特征必须同时包含旋转与平移信息。

在此类方法中，3D 旋转一般使用四元数表示，而四元数与平移距离分属不同的解空间，简单地使用同一特征回归容易导致旋转与平移的求解精度无法兼顾。因此，我们将旋转与平移使用双分支结构分治处理，分支独立的编码器可以缓解上述问题。

图4 网络结构对比图

如何约束双分支特征提取？

即使使用双分支结构来提取旋转和平移特征，如果不加入额外的约束，依然无法保证特征会对于旋转和平移具备不同的敏感度。因此，基于“旋转与平移分支的编码器应该分别对于旋转与平移变换更加敏感，而同时对于平移和旋转变换更不敏感”的认知，我们基于三元损失函数设计了刚体变换敏感性损失函数来约束双分支编码器提取得到的特征，具体的数学表示如下：

其中，上标 r 和 t 分别表示旋转和平移，F 表示特征提取模块输出的全局特征，下标 X 表示特征来自于源点云，下标和表示特征来自于经过当次迭代预测的刚体变换矩阵中的平移和旋转分别进行变换后的源点云，δ 表示tripletloss 中的 margin 项。

图5 配准流程与多级特征交互结构示意图

多级特征交互

对于部分重叠的点云配准问题，网络必须具备对于输入点云的几何形状感知能力，即在特征提取过程中编码器必须能同时获取源点云和目标点云的整体信息。为此，我们设计了一种多级特征交互结构，分别对点特征和全局特征进行交互，如图 5 所示。

如果不进行特征交互，对于部分重叠的源点云和目标点云，编码器更倾向于提取相似的特征。然而，这样不仅会导致特征关注点不明确，无法有效利用点云的几何特征，还会增加后续刚体变换参数回归的难度。如图 6（a）（d）（f）所示，当不存在形状缺失时，编码器对于源点云和目标点云会输出相同特征，但部分重叠时，加入特征交互的特征差异要明显大于未加入特征交互。同时，加入特征交互后的编码器在不同的迭代中会关注输入点云的相同区域，而未加入特征交互则没有较显著的关注点，如图 6（g）（h）所示。

图6 特征可视化分析

实验结果

图7 不同算法在 ModelNet40 验证集上的评估结果

图 7 展示了经典的传统算法和部分最新的深度学习方法在 ModelNet40 验证集上的性能表现对比，可以观察到我们的方法在所有的评估指标上均优于对比方法，同时，图 8 展示了部分验证和测试样本的主观结果对比。量化和主观结果证明了我们的方法的有效性。

图8 不同算法在 ModelNet40 验证集上的主观结果

此外，为了进一步说明我们方法各组成部分的有效性，我们在 ModelNet40 测试集上进行了消去实验，如图 9 所示。其中，PFI 和 GFI 分别表示点特征和全局特征交互模块，SP 表示显著性点回归，PFDL 和 TSL 分别表示点特征丢弃和刚体变换敏感性损失函数。不难观察到当组合全部的模块，算法的各项评价指标达到最优。