Single-Shot Calibration：基于全景基础设施的多相机和多激光雷达之间的外参标定

摘要：

在自动驾驶、机器人、AR/VR领域，越来越多的方案开始采用多相机、多激光雷达的配置来达到多传感器融合的目的。多模态传感器标定是这些系统正常运行的前提，但是目前的多模态传感器标定方案仍然很麻烦，需要大量的人工介入，不适合部署到产线上。本文提出一种多相机、多雷达系统的外参标定方案，只需要采集一帧数据即可完成标定。我们设计并建立一种全景基础设施，相机和激光雷达只需要一帧数据就能在这个基础设施中完成定位。我们在三种不同传感器配置的设备上进行实验，验证了我们提出的方法在极大的提高效率的同时可以保证标定精度。

图1 文中标定所用的全景基础设施

主要贡献：

1.本文提出一种全景基础设施，这种基础设施可以保证所有传感器在同一个参考坐标系中定位，从而克服了没有共视区域的传感器之间标定困难的问题；

2.本文使用随机分布的无特征基准Marker点来布置全景基础设施，同时基础设施中需要存在互相垂直的若干平面，这些特性帮助传感器可以在这个基础设施中鲁棒的定位；

3.本文的方法是一个多传感器标定的统一方法，可以完成相机-相机外参标定、雷达-雷达外参标定、相机-雷达外参标定，并且具有可扩展性。

代码地址：在公众号「计算机视觉工坊」，后台回复「外参标定」，即可直接下载。

理论：

图2 基于全景基础设施的多传感器标定框架

图1 的基础设施场景重建采用的是标准增量双目SfM Pipline方法来获得全景基础设施的稀疏点云，这种稀疏重建作为后续标定过程的标定参考。作者只需对传感器数据(包括多个摄像机和Lidar)进行一次扫描，即可进行基于定位的标定。具体来说，通过视觉匹配无特征基准标记点，将摄像机的位姿定位在稀疏地图中，然后进行多摄像机联合优化。同样，作者根据相同的稀疏重建方法，通过线和点等几何特征定位激光雷达的姿态。最后，可以从任意两个传感器对应的刚体相对于标定基准的变换得到它们之间的相对位姿。上述整个流程如图2所示。

对于相机定位，作者选择圆形标记点作为无特征基准标记点，因为圆形标记点的中心检测被普遍认为具有较高的准确性。为了重建全景基础设施，作者提出了一种基于无特征基准标记的标准增量双目SfM Pipline方法，该Pipline方法由以下三个步骤组成:立体帧跟踪、局部映射和全局优化。

立体帧跟踪：为了获得立体帧，作者平稳地移动双目摄像机，以统一的模式捕捉720度范围的房间场景，并利用立体SfM方法检测双目左右帧的无特征圆心。给定双目相机的内参外参，作者通过标准的极线搜索得到双目相机左右帧的特征匹配关系。一旦建立了左右帧之间的特征对应关系，就可以对对应的稀疏三维点进行三角剖分。为了建立连续立体帧间稀疏三维点的对应关系，作者提出了以下基于三角形的匹配算法：

局部映射：在每一次立体帧跟踪操作之后，作者提出一个闭环检测，以获得当前和以前的立体帧之间更鲁棒的三维对应关系。所提出的闭环检测策略是将当前立体帧的稀疏点按时间序列投影到远离当前立体帧的其他立体帧上。然后，提取与当前立体帧共视稀疏点最多的立体帧，通过执行算法得到其匹配对应关系。

全局优化：由于增量重建的结果受到累积错误的影响，因此采用Bundle Adjustment（BA）优化，同时细化摄像机的所有位姿和稀疏点。在全局优化之前，作者将距离小于2cm的稀疏点合并为一个，然后通过全局BA最小化以下重投影误差函数:

一旦全景基础设施的稀疏地图可用，作者便可以在单次拍摄中精确定位预校准相机。首先，标定基础设施中各摄像机的定位提供了多摄像机之间的初始外部条件，然后利用多摄像机的几何约束，采用迭代Levenberg-Marquardt (LM)算法进一步细化外部参数。

由于标定参考中的基准标记物无特征，传统的视觉定位方法无法估计待标定摄像机的姿态，所以作者采用了基于三角形的PnP结合RANSAC算法获得局部的相机姿态，该方法类似于基于三角形的在立体帧跟踪中引入三维点匹配方法，可以克服图像和三维稀疏点都缺乏显著的纹理特征的问题。

为了进一步优化输入激光雷达扫描的位姿，作者通过平面拟合对全景基础设施进行密集稀疏重建，并在激光雷达扫描和密集参考重建之间执行迭代最近点(ICP)优化算法。

实验：

作者选择CCTag作为实验中使用的无特征基准标记，在A4纸上印上340多个没有身份信息的CCTag，随意贴在地板和四壁上。各主要阶段的计算时间为每台相机的平均定位时间为3.797秒，激光雷达定位成本为0.855秒，其中省略了人工干预时间。

图3 实验中采用了四种类型的装置

SfM重建精度：

相机与相机的标定精度：

相机与激光雷达的标定精度：

激光雷达与激光雷达的标定精度：

多传感器的标定精度：

在移动机器人上的标定精度：

总结

在本文中，作者提出一种基于全景基础设施的多传感器标定解决方案，不需要专业知识并涉及很少的操作，适应多相机和激光雷达的各种配置。作者使用的参考环境是精心设计的，以便摄像机或激光雷达可以稳健地定位，从中可以导出传感器的相对变换。作者还提出了一种经济的方法来重建基础设施，使用低端立体相机，其精度可与昂贵的专业3D扫描仪媲美。

原文：计算机视觉工坊
编辑： Bin

推荐阅读

重点介绍：1、3D视觉算法；2、vslam算法; 3、图像处理；4、深度学习;5、自动驾驶; 6、技术干货。 博主及合伙人分别来国内自知名大厂、海康研究院，深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号

摘要：

主要贡献：

理论：

实验：

总结

推荐阅读

目录