基于图割优化的多平面重建视觉 SLAM（ISMAR2021）

本文来自于AR领域最著名的学术会议ISMAR，结合了之前介绍过的图割理论。

作者提出了一种语义平面 SLAM 系统，该系统使用来自实例平面分割网络的线索来改进位姿估计和映射。虽然主流方法是使用 RGB-D 传感器，但在这样的系统中使用单目相机仍然面临着鲁棒的数据关联和精确的几何模型拟合等诸多挑战。在大多数现有工作中，几何模型估计问题，例如单应性估计和分段平面重建（piece-wise planar reconstruction，PPR），通常由标准（贪婪）RANSAC解决。然而，在缺乏场景信息（即尺度）的情况下，设置RANSAC的阈值是很非常困难的。在这项工作中，作者认为可以通过最小化涉及空间相干性的能量函数来解决两个提到的几何模型（单应性/3D平面），即图割优化，这也解决了经过训练的CNN的输出是不准确的问题。此外，作者根据实验提出了一种自适应参数设置策略，并完成了对各种开源数据集的综合评估。

语义平面SLAM在过去十年中备受关注，尤其是对于虚拟现实 (virtual reality，VR) 系统和增强现实(augmented reality，AR)应用。尽管现在很多人对这个主题进行了深入的研究，但目前大多数方法仍然集中在RGB-D传感器和从深度图像中提取平面图元。单目方法仍然面临一些挑战和困难，例如无纹理场景、动态前景、相机的纯旋转、帧之间的各种基线和尺度漂移，其中平面图元只能从有限的3D中获得的信息。现有的方法要么建立在间接 SLAM 上，要么建立在直接 SLAM上，但两者都面临着前面提到的挑战。

在这项工作中，作者认为在单目 SLAM 系统中通常无法有效解决数据关联和几何模型拟合问题，即在从不同视点（在小基线或大基线下）或从相同视点（在纯旋转下）的帧之间建立多平面的特征匹配，实现单应性估计和分解。为了相对地定位相机，通常通过三角测量（正深度验证）并最小化图像对之间的对称传递误差（symmetric transfer error，STE）来验证合理的单应矩阵。

然而，仅从相对姿态估计无法观察到映射尺度。同时，3D 平面只能根据单目设置下的多组包含噪声并且稀疏的点云拟合。

因此，为了解决单目系统的问题，作者首先将实时的实例平面分割网络集成到基于特征的 SLAM 系统中。然后，作者以顺序 RANSAC 方式解决多模型拟合问题，并使用了快速图切割优化引擎技术。其核心有以下2点：

引入了一种基于能量的几何模型拟合方法，即将具有图割优化的顺序 RANSAC 转换为基于特征的平面 SLAM 系统，该系统隐式地将 SLAM 视为优化不同类型的几何多模型估计。
提出了一个 SLAM 构建块，它集成了上述基于能量的方法和实例平面分割的最新的卷积神经网络 (CNN)。因此，作者没有将 CNN 的任何输出作为无噪声的“sensor”测量，而是在 SLAM 工作流程中对其进行进一步优化，从而提高了跟踪和优化的性能。

最后作者进行了详尽的实验，并总结了在单目和 RGB-D 设置下对各种室内数据集的综合评估。

图1 顺序图割 RANSAC实现鲁棒的分段平面重建（PPR）。图示为从稀疏和包含噪声的点云中重建轻量级语义图。不同的颜色表示不同的平面。

图2 所提框架

作者首先介绍了用于几何模型拟合的标准顺序RANSAC pipeline（一种单应性或平面结构），将语义线索作为图像序列的输入。然后，为了有效处理实例分割网络的可能错误分类，作者并没有简单地对每个检测到的平面段使用标准的 RANSAC 平面拟合算法，而是在内部优化步骤（算法1）中使用局部优化的 RANSAC 交替图割和模型重拟合实现更鲁棒的pipeline，以自适应不准确的实例分割和噪声。所提基于特征的 SLAM 框架，如图2所示。

方法核心：

通过 RANSAC 进行几何模型拟合

标准 RANSAC是一种众所周知的方法，用于在数据中进行单一的模型拟合。隐式一元能量函数为：

顺序 RANSAC 通过一个一个地检测模型实例，将检测到的实例的内点从数据点集 P 中删除。但这种方法的缺点是内点通常分配给包含最多内点的平面而不是实际的最佳实例。

具有空间连贯性的顺序模型拟合

多几何模型的拟合问题通常被表述为一个最优标记问题，其中二元能量 E(L) 可以扩展为一个附加项，表示标签计数惩罚（标签平滑度）和一个表示空间规律的项。本文中作者使用的能量函数如下：

视觉SLAM框架

实验环节：

实例分割是语义平面重建的先验信息。然而，如图 3 所示，基于全局的实例分割方法（即 PlaneSegNet）存在特征丢失，有时无法区分相同纹理的不同特征。需要注意的是，该网络未在作者用于评估 SLAM 的数据集上进行训练，该数据集模拟了实际情况，因为经过训练的 CNN 在不同的实际场景下可能无法泛化。这也是作者在这项工作中引入图割方法的原因，可以将其视为实例分割的后处理步骤。

图3 PlaneSegNet 和 PlaneRCNN 在数据集 TUM RGB-D上的分割结果比较。

图4 在数据集 TUM RGB-D 和 ICL-NUIM 的选定序列上构建的轻量级语义图（点和平面patch面，以及放大后的最佳视图）。

表 1：绝对轨迹误差 RMSE [cm]（X 代表跟踪失败，- 代表无法从相应论文中获得的结果）。作者的结果，ORB-SLAM2 和 OpenVSLAM 的每个结果都为每个序列执行 5 次的平均值!

表 2：在单目设置下，作者的平面 SLAM 系统与原始 ORB-SLAM2 和 OpenVSLAM 相比的运行时间分析 [ms]（在数据集 TUM RGB-D上评估的平均值：fr3 st tex far），使用台式 PC Intel Xeon(R) E-2146G 12 核 CPU @ 3.50GHz，32GB RAM。PlaneSegNet 在 NVIDIA GTX 1080 Ti 的标准 GPU 上进行评估。

原文：计算机视觉工坊
编辑： 3D视觉从入门到精通

推荐阅读

重点介绍：1、3D视觉算法；2、vslam算法; 3、图像处理；4、深度学习;5、自动驾驶; 6、技术干货。 博主及合伙人分别来国内自知名大厂、海康研究院，深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号

推荐阅读

目录