旷视研究院联合电子科大、苏黎世理工共同提出DeepLiDAR模型,它可从一张彩色图像和一个稀疏深度生成室外场景之下的精确的稠密深度。
论文名称:DeepLiDAR: Deep Surface Normal Guided Depth Prediction for Outdoor Scene from Sparse LiDAR Data and Single Color Image
论文链接: https://arxiv.org/abs/1812.00488
导语
本文提出一个深度学习模型——DeepLiDAR,可从一张彩色图像和一个稀疏深度生成室外场景之下的精确的稠密深度。受到室内深度补全的启发,本文的这一方法通过把曲面法线估计为中间表征以生产稠密深度,并可实现端到端训练。
借助一个改良的编码器-解码器架构,这一模型可高效融合稠密的彩色图像和稀疏的激光雷达深度。为应对室外的特定挑战,该模型还预测一个置信度掩膜,以处理由于遮挡而造成的前景边界附近混合的激光雷达信号,并整合来自彩色图像的估量和带有已学习的注意力图的曲面法线,以提升深度的精度,尤其是远距离区域。
大量实验表明,该模型刷新了 KITTI 深度补全基准上的当前最佳结果;消融实验也证明了每个模型组件对最终结果的有效作用;同时该模型还可较好地泛化至带有较高稀疏性的输入或者来自室内场景的输入。
简介
测量室外环境的稠密而精确的深度对很多任务而言十分关键,比如自动驾驶和无人机。激光雷达是当下一个主导性的可靠方法,但是高端激光雷达价格异常昂贵,中低端设备的低分辨率则又臭名昭著,非常不利于中、远距离的感知。
时空融合带来了更稠密的深度,但前提是需要多设备或者面临动态的目标和延迟。目前依然不存在一个能够快速而精确地获得稠密深度的可行的方法。
图 1:DeepLiDAR 示意图
一个有希望的尝试是拿一个来自低成本激光雷达设备的稀疏但是精确的深度,并通过一个已对齐彩色图使其稠密。如果用深度学习方法来实现,那就是直接把稀疏深度和彩色图输入到一个神经网络,并回归其稠密深度。
本文提出一个端到端的深度学习方法,通过把曲面法线作为中间表征,它可从稀疏激光雷达数据和一张室外场景的彩色图中生成稠密深度。但是要达到像室内环境一样的效果并不简单,这主要是由于存在三个方面的挑战:
数据融合。受到利用 intermediate affinity 这一想法的启发,本文设计了一个编码器-解码器架构——深度补全单元 DCU,其中独立的编码器分别从彩色图学习 affinity,从稀疏深度中学习特征;解码器则学习给出稠密的输出。
DCU 属于后期融合架构的风格,但不同的是,来自稀疏深度的特征被加进解码器而不是普通的级联。求和有利于同一域两边的特征,解码器由此可以学习与深度更相关的特征,为了与稀疏深度的特征保持一致。这也会减少网络参数量和计算量。由实验发现,DCU 对中间曲面法线和最终的深度估计皆有帮助。
噪声敏感度。如图 2 所示,相较于近距离区域,相同的曲面法线误差在远距离的水平路面表面造成了更大的距离误差。由于上述区域很难借助曲面法线来解决,建议直接从原始输入中学习它们。
因此,本文的模型包含两个路径,分别从已估计的曲面法线和彩色图中估计稠密的深度图,接着它们通过自动学习的注意力图被整合。换言之,注意力图学习从更优的路径为每个区域收集更好的方案。
图 2:噪声敏感度
遮挡。由于 RGB 摄像头和激光雷达传感器之间不可避免地存在小的错位,因此当把激光雷达数据投影到彩色摄像头坐标系时(尤其是那些靠近摄像头的区域)(图 5(b)),边界上的不同深度值由于遮挡而经常相互混合。
图 5:遮挡与已学习的置信度
这样的深度混合会迷惑模型,造成模糊的边界。理想地讲,模型应该降级这些迷惑区域的稀疏深度的置信度。可以自动学习一个这样的置信度掩膜,它将替代输入到曲面法线路径的二值可用性掩膜。
尽管没有 groundtruth,本文模型将自监督地学习包含重叠稀疏深度的遮挡区域。完整 pipeline 如图 3 所示。
图 3:本文模型 pipeline
模型
本文方法包含两个路径:彩色图路径和曲面法线路径,前者把激光雷达重新投射的彩色图和稀疏深度作为输入,并输出一个完整的深度;后者则首先从输入的彩色图和稀疏深度中预测一个曲面法线图像,接着与稀疏深度和(来自彩色图路径的)置信度掩膜相整合,以生产一个完整的深度。
这两个路径中的每一个都用一个深度补全单元(DCU)来实现,然后来自两个路径的深度通过一个已学习的加权和来整合以产生最终的完整深度。
深度补全单元
通过借鉴传统彩色图的引导修复方法,本文提出一个网络架构,让编码器从彩色图或曲面法线中学习 local affinity,然后利用解码器对来自另一个编码器的输入稀疏深度的特征进行插值。
深度补全单元的细节如图 4 所示。RGB/normal 和稀疏深度的两个编码器包含一系列的 ResNet 模块。解码器包含四个 up-projection 单元,以逐渐增加特征分辨率,整合来自两个编码器的特征,从而给出稠密的输出。
如图 3 所示,通过相同的输入(但是使用目标 ground truth 进行训练),用 DCU 预测曲面法线或者深度。
图 4:DCU 详细架构图
基于注意力的整合
从曲面法线之中恢复深度并不会一贯地奏效,在一些区域,它会对法线噪音很敏感。本文提出可利用来自彩色图的先验生成这些区域的深度,而不是来自已估计的曲面法线的几何信息。
因此,本文的模型包含两个并行的路径,以分别从输入的彩色图和已估计的曲面法线预测稠密深度。最后的稠密深度应该是这两个已估计深度的整合,其中相对而言更准确的深度测量被选作正确的一个。
本文借助注意力机制整合从两个路径恢复的深度。具体而言,首先利用输出之前的最后一个特征图为每个路径预测一个分值图, 两个路径的两个分值图接着被馈送进一个 softmax 层,并转化成一个组合权重。最后的稠密深度输出可写为:
置信度预测
本文通过让网络自动地学习一个置信度掩膜的方式,以表明输入稀疏深度的可靠性,并用来自彩色图路径的已学习的置信度掩膜替代简单的二值掩膜。
如图 5 所示,尽管没有这样的掩膜的 ground truth,本文模型依然能够成功地学习带有重叠稀疏深度值的遮挡区域(比如树干的低权重)。
实验
本文进行了大量实验对模型的有效性进行证明,包括相关工作的对比和消融实验。由于本文模型的一个主要应用是车载激光雷达设备,所以绝大多数实验在 KITTI 深度补全基准上完成。此外,还进行了一些室内环境的实验,以证明模型的泛化能力。
在 KITTI 测试集上的评估
本文首先在 KITTI 深度补全基准的测试集上评估了这一方法,该方法与其他方法的性能对比如表 1 所示。
表 1:KITTI 测试集上的深度补全的性能对比
本文方法截止到提交时位列第一名,大幅领先第二名。与一些同类方法的定性对比如图 6 所示。通常来讲,本文方法借助更好的细节(比如,路边的栏杆)生产更精确的深度(比如,完整的汽车)。模型在单块GPU(Nvidia GTX 1080Ti)上的运行时间是 0.07s/张(图像)。
图 6:KITTI 测试集上的定性对比
在 KITTI 验证集上的评估
本文进一步在 NYU v2 测试集上与其他方法做了对比。模型只在训练集上训练,定量结果如表 2 所示,本文方法在最重要的指标 RMSE 上表现最好。
表 2:KITTI 验证集上的深度补全的性能对比
结论
本文提出一个端到端的神经网络,用于从稀疏激光雷达数据和单一彩色图像中预测深度。该网络把曲面法线直接作为中间表征,并表明这对室外场景(类似于室内场景)仍然奏效。本文还提出一个深度补全单元,以更好地融合带有稀疏输入深度的彩色图像。
本文还分析了室外场景的具体挑战,并给出了网络之内的解决方案,比如基于注意力的整合以提升远距离下的性能,估计一个置信度掩膜以处理遮挡。大量实验表明,该方法不仅取得当前最优结果,还可以很好地泛化至更稀疏的输入和室内场景上。
参考文献
- Y. Zhang and T. Funkhouser. Deep depth completion of a single rgbd image. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pages 175–185, 2018.
- C. Tomasi and R. Manduchi. Bilateral filtering for gray and color images. In Proc. of the IEEE International Conf. on Computer Vision (ICCV), pages 839–846, 1998.
- K. He, J. Sun, and X. Tang. Guided image filtering. In Proc. of the European Conf. on Computer Vision (ECCV), pages 1–14, 2010.
- J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, and T. S. Huang. Free-form image inpainting with gated convolution. arXiv preprint arXiv:1806.03589, 2018.
- I. Laina, C. Rupprecht, V. Belagiannis, F. Tombari, and N. Navab. Deeper depth prediction with fully convolutional residual networks. In Proc. of International Conf. on 3D Vision (3DV), pages 239–248, 2016.
- X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. Multi-view 3d object detection network for autonomous driving. In Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), pages 1907–1915, 2017.
专栏文章推荐
欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果
加入旷视:career@megvii.com