AI学习者 · 2023年12月12日 · 广东

超越BEV视角 | 新型紧凑占用Transformer助力自动驾驶3D占用预测

image.png

自动驾驶社区对3D占用预测表现出显著兴趣,这主要得益于其卓越的几何感知和通用物体识别能力。为了实现这一目标,当前的研究试图构建一个从鸟瞰视角出发的三角视图(TPV)或占用(OCC)表示。然而,压缩视图(如TPV表示)会失去3D几何信息,而原始且稀疏的OCC表示需要大量的计算成本。

为了克服上述限制,作者提出了紧凑占用Transformer(COTR),它包括一个具有几何意识的占用编码器和一个具有语义意识的组解码器,用于重构一个紧凑的3D OCC表示。占用编码器首先通过有效的显式-隐式视图转换生成一个紧凑的地理OCC特征。然后,占用解码器通过从粗粒度到细粒度的语义分组策略进一步增强了紧凑OCC表示的语义判别能力。

经验实验表明,与多个 Baseline 相比,COTR在多个基准测试中取得了明显的性能提升。COTR相对于 Baseline 的相对改进为8%-15%,这证明了作者的方法的优势。

1 Introduction

基于视觉的3D占用预测旨在估计周围 ego-vehicle 所包围的 3D  Voxel 的空间占用状态,这为 3D 场景提供了全面的 3D 理解。通过将整个空间划分为 Voxel 并预测其占用和语义信息,3D 占用网络赋予了通用的物体表示能力,其中超出词汇的物体和异常情况可以很容易地表示为 [占用;未知]。

3D 视觉感知正在从鸟瞰(BEV)感知过渡到占用(OCC)感知。BEV 感知在多摄像机输入的 3D 目标检测任务中表现出色,因为它们具有统一的表示能力,在 BEV 平面上极大地缓解了遮挡问题。然而,其在压缩高度维度方面的不足,在保持 3D 场景的全面理解方面,面临着挑战。

为了解决这个问题,[10] 提出了一个三视角视图(TPV)表示来划分 3D 场景。不幸的是,这引入了一个新的问题,即沿水平方向压缩会导致目标重叠。

从之前的实证研究中可以看出,在 3D 表示的特定维度上进行压缩会丢失大量的 3D 几何信息。因此,3D OCC(占用)表示的想法非常吸引人。它通过将 3D 空间划分为均匀网格并将其映射到 3D OCC 表示,从而将 3D 物理世界映射到 3D OCC 表示。显然,这种表示的成本比之前的 BEV 或 TPV 表示大得多。此外,由于稀疏性,这种未压缩表示的信息密度较低,有大量的区域对应于物理世界中的自由空间,导致显著的冗余。

另一个问题是,当前的 3D OCC 表示缺乏语义判别性,这阻碍了网络成功识别稀有物体的能力。这主要源于数据集中常见的类别不平衡问题,这在自动驾驶领域很常见。为了证实这个主张,作者进行了一个简单的代理实验。特别地,对于网络的预测,作者保持占用预测不变,用相应的真实语义替换非空区域的目标预测。实验结果显示大约提高了 95%,特别是对于稀有类别。

在本文中,作者提出了一种名为 ompact occupancy ansformer 的压缩占用 Transformer,简称 COTR,旨在构建一个紧凑的 3D OCC 表示。作者的目标是同时保留丰富的几何信息,最小化计算成本,并提高语义判别性。

在这个框架中,作者提出通过有效的显式-隐式视图变换来构建一个紧凑的具有几何意识的 3D 占用表示。具体而言,在通过显式视图变换(EVT)生成一个稀疏但高分辨率 3D OCC 特征之后,作者将它下采样到紧凑的 OCC 表示,其大小仅为原始大小的 1/16,而没有任何性能损失。将紧凑的 OCC 特征作为输入,通过隐式视图变换(IVT)进一步通过空间交叉注意力(SCA)和自注意力(SA)丰富它。然后,将更新的 OCC 特征上采样到原始分辨率,以便供下游模块使用。为了在降采样过程中恢复丢失的几何细节,作者将降采样和上采样过程配置为一个 U-Net 架构。通过这种方法,作者大大降低了 OCC 特征的稀疏性,同时保留了几何信息,并减少了 IVT 引入的无必要计算开销和训练时间。

其次,作者引入了一个从粗粒度到细粒度的语义感知组解码器。作者首先根据语义粒度和采样数量将真实标签划分为几组。然后,对于每个语义组,作者生成相应的掩码 Query ,并基于分组的一对多任务训练网络。分组策略导致平衡的监督信号,显著增强了识别不同类别的能力,从而得到紧凑的语义和几何感知的 OCC 表示。

image.png

本文所做的贡献可以总结如下:

  1. 提出了一种具有几何意识的占用编码器,通过有效的显式-隐式视图变换构建紧凑的占用表示。作者可以处理占用特征的稀疏性,同时保留几何信息和减少计算成本。
  2. 提出了一种新颖的语义感知组解码器,显著提高了紧凑占用特征的语义判别性。这种分组策略平衡了监督信号,并减轻了从常见物体到稀有物体的抑制。
  3. 将这种方法嵌入到几种流行的 Backbone 网络中,并在 Occ3D-nuScenes 和 SemanticKITTI 数据集上进行了实验。实验结果表明,作者的方法实现了最先进的性能。此外,作者的方法在相对基础上比 Backbone 网络提高了 8%-15%,如图 1 所示。

2 Related Work

Vision-based BEV Perception

近年来,基于视觉的鸟瞰(BEV)感知经历了显著的发展,成为自动驾驶领域的一个关键组件,因为它具有成本效益、稳定性和通用性。通过视图变换将 2D 图像特征转换为统一的和全面的 3D BEV 表示,各种任务,包括 3D 目标检测和地图分割,都被整合到一个统一框架中。

视图变换可以广泛地分为两种类型:一种是依赖显式深度估计形成伪点云并构建 3D 空间,另一种是预先定义 BEV 空间并隐式地通过空间交叉注意力建模深度信息,将图像特征映射到相应的 3D 位置。

尽管 BEV 感知在 3D 目标检测方面表现出色,但在驾驶场景中处理异常情况(如不规则障碍物和超词汇目标)时仍会遇到挑战。为了缓解这些挑战,提出了 3D 占用预测任务。

3D Occupancy Prediction

3D 占用预测任务由于其增强的几何信息和在通用物体识别方面优于 3D 目标检测的能力,而引起了广泛关注。TPVFormer 采用 BEV 感知概念,将 3D 空间划分为三个视角,并利用稀疏点云监督进行 3D 占用预测。SurroundOcc 通过将 BEV 特征的高度维扩展为占用特征,并直接对其进行空间交叉注意力来生成几何信息。此外,它们提出了一种新的构建占用事实的方法。

OccNet 通过构建一个通用的占用嵌入,将感知到规划的端到端框架进行桥接。FBOcc 提出了一种基于 BEV 特征的前向-后向视图转换模块,以解决不同视图转换的局限性。虽然上述方法在占用预测任务上取得了初步进展,但大多数方法仍然遵循 BEV 感知框架,直接将 BEV 特征转换为 OCC 特征进行最终预测。它们没有考虑原始 OCC 表示的稀疏性和缺乏语义判别性。

Semantic Scene Completion

3D 占用预测的定义与语义场景补全(SSC)最为相似。MonoScene 首先提出一个框架,从单目 2D RGB 图像中推理出密集几何和语义。Voxformer 借鉴了 BEV 感知的想法,并利用深度估计构建了一个两阶段框架,从而减轻了与注意力计算相关的开销。Occformer 提出了一个双路径 Transformer ,并采用掩码分类的概念进行占用预测。然而,Voxformer 的性能依赖于深度估计的鲁棒性,而 Occformer 中各种 Transformer 的利用显著增加了参数数量。在本文中,作者引入了一个高效框架,以提高占用预测性能,同时保持低计算成本。

3 Methodology

Preliminary

对于一系列多视图图像输入,视觉中心 3D 占用预测的目标是估计围绕 ego-vehicle 的 3D  Voxel 的状态。具体而言,任务输入是一个 -帧后续图像序列 ,其中 ,。此外,还已知摄像机的内参数 和外参数 ,用于坐标系转换和 ego-motion。

3D 占用预测旨在推理每个 Voxel 的状态,包括占用([occupied] 或 [empty])和类别([category] 或 [unknown])信息。例如,一辆车上的 Voxel 被标注为 [occupied; car],而自由空间中的 Voxel 被标注为 [empty; None]。3D 占用预测的一个主要优势是提供通用的物体表示,其中超出词汇的物体和异常情况可以轻松表示为 [occupied; unknown]。

Overall Architecture

COTR 的概述如图 2 所示。COTR 主要由三个关键模块组成:一个图像特征提取器,用于提取图像特征和深度分布;一个具有几何意识的占用编码器(第 3.3 节),通过高效的显式-隐式视图变换生成紧凑的占用表示;以及一个具有语义意识的组解码器(第 3.4 节),进一步增强紧凑 OCC 特征的语义判别性和几何细节。

image.png

图像特征提取器。 图像特征提取器旨在提取多摄像机输入的图像特征和深度分布,为几何感知占用编码器提供基础。

给定一组来自多个摄像机的 RGB 图像,作者首先使用预训练的图像 Backbone 网络(例如,ResNet-50)提取图像特征 , 其中 是第 - 个摄像机视图的特征, 是摄像机的总数。接下来,深度分布 可以通过将这些图像特征 输入深度网络来获得。

Geometry-aware Occupancy Encoder

占用任务的关键洞察是,它可以捕捉场景中关键障碍物的细粒度细节,例如物体的几何结构。

为此,作者决定使用显式和隐式视图变换来生成紧凑的具有几何意识的占用表示。在本节中,作者将首先简要回顾显式-隐式视图变换,然后详细阐述如何通过有效融合显式和隐式视图变换来构建紧凑的占用表示。

显式-隐式视图变换。 显式-隐式视图变换是 BEV 感知中将 2D 图像特征转换为 BEV 表示的关键步骤。为了构建可以保留更多 3D 几何信息的 3D 表示,作者扩展了显式-隐式 VT 来构建 OCC 表示。

具体而言,对于 EVT,图像特征 和深度分布 通过对乘 计算得到伪点云特征 。然后,作者不是创建一个 BEV 特征 ,而是直接通过 Voxel 池化生成 3D OCC 特征 ,其中 表示 3D 体积的分辨率。

对于 IVT,作者预定义一组网格形状的可学习参数 作为 OCC 的 Query ,其中每个 Query 负责对应于 3D OCC 空间中的每个网格单元。然后,通过空间交叉注意力(SCA)和自注意力(SA)更新 OCC  Query 集。

紧凑占用表示。 通过采用 EVT,作者已经得到了一个具有几何意识的 3D OCC 特征。直接将此特征作为 IVT 的输入是一种简单的方法。然而,计算具有高分辨率 3D OCC 特征(例如,200x200x16)的 SCA 将导致显著的计算开销。此外,由于 3D 空间的稀疏性,大部分自由空间的计算也是无效的。

因此,作者将高分辨率但稀疏的 OCC 特征 降采样为紧凑的 OCC 表示 ,其中 分别表示降采样比。将紧凑的 OCC 中的每个 3D  Voxel 作为 Query ,IVT 完成稀疏区域,并进一步丰富其中包含的 geometric 细节。与从零开始学习一组 Query 的标准编码器相比,这种操作显著节省了额外的训练时间和降低了计算开销。

然后,将紧凑的 恢复到原始分辨率 进行最终占用预测。由于降采样操作 inevitably 引入了信息损失,尤其是对于小物体,作者将降采样和上采样过程构建为一个 UNet 架构来减轻这个问题。在实践中,作者构建了一个紧凑的 OCC 表示,其大小仅为原始大小的 1/16,同时实现了更好的性能。

讨论。 使用紧凑占用表示有三个主要的优势。首先,3D 特征表示天然具有比 2D BEV 或 TPV 更好的几何优势。如图 3 (a) 所示,紧凑 OCC 表示具有最佳的 IoU 分数。其次,紧凑 OCC 表示有效地缓解了高分辨率 OCC 特征固有的稀疏性。对于户外自动驾驶数据集,如 Nuscenes,SemanticKITTI 和 Waymo,自由空间的比例分别为 78%,93% 和 92%。紧凑 OCC 表示压缩了空间域,丰富了特征,并扩展了感受野。最后,计算开销显著减小。如图 3 (a) 所示,原始高分辨率 OCC 表示的计算成本约为紧凑 OCC 表示的 500%。

image.png

Semantic-aware Group Decoder

在本节中,作者提出了一种语义感知的组解码器,进一步增强了紧凑 OCC 特征的几何占用,同时大大提高了语义判别性。作者将从一个旨在证实作者的主张的代理实验开始,即占用特征缺乏语义判别性,这严重阻碍了罕见物体的识别。随后,作者将详细介绍作者粗糙到细粒度的语义分组策略。

代理实验。 为了证明占用特征缺乏语义判别性,作者在占用预测中用相应的真实标签替换了语义预测。如图 3 (b) 所示,mIoU 分数有了很大的提高,尤其是对于尾部类别。这使作者寻求一种新的方法,以显著提高占用特征的语义判别性。

Transformer 解码器。 受到 MaskFormer 的启发,作者将占用预测转换为掩码分类的形式。这种预测将占用预测分为两个子问题,这便于作者解决语义模糊问题。

为此,作者将 Transformer 解码器中的图像特征替换为来自作者几何感知占用编码器 的紧凑占用特征 。此外,作者将原始编码器-解码器全局自注意力层替换为 3D SCA,以进一步降低计算成本。3D 空间交叉注意力(3D-SCA)可以表示为:

image.png

从粗粒度到细粒度的语义分组。 由于数据分布的不平衡,预测类别概率的分类器会使低样本类别的分类得分远小于许多样本类别的得分,导致语义误分类。为了增强罕见类别的监督信号,作者首先采用基于 [4] 的一对多组分配,旨在使每个掩码 Query 获得多个阳性匹配对。然而,实验表明这种简单的分组策略无效,不能带来性能提升。

受到 [2, 14, 37] 的启发,基于一对多组分配,作者进一步引入了从粗粒度到细粒度的语义分组策略。这涉及将掩码 Query 分为 组,其中每组根据语义粒度和样本数量将语义类别分为 个真实(gt)标签组,旨在在各组中平衡监督信号。

image.png

4 Experiments

Experimental Setup

数据集和指标。 Occ3D-nuScenes 是一个大规模的自动驾驶数据集,包含 700 个训练场景和 150 个验证场景。每个帧包含一个 32 束 LiDAR 点云和六个从不同视角的 LiDAR 摄像头捕获的六个 RGB 图像,以及密集的 Voxel 级别语义占用标注。占用范围定义为 X 和 Y 轴的 -40m 到 40m,以及 Z 轴的 -1m 到 5.4m 在自身坐标系中。 Voxel 大小为 的占用标签。语义标签包含 17 个类别,包括 16 个已知的物体类别以及一个额外的 "empty" 类别。

实现细节。 遵循常见做法 [9, 15, 19],作者默认为使用 ResNet-50 作为图像 Backbone ,图像大小调整为 () 对于 Occ3D-nuScenes。对于显式视图变换,作者采用 BEVStereo,深度估计由稀疏 LiDAR 监督。从显式视图变换获得的占用特征的分辨率是 ,特征维度 为 32,降采样比为 ,嵌入维度 为 256。

作者使用 8 个自注意力和交叉注意力头,并设置 和 SCA 的 为 4。作者简单地生成 组 gt 标签和掩码 Query ,其中作者简单地将前景和背景类分为两个单独的组,总共得到 4 组。这种划分是基于中位数训练样本数量。

作者还将作者的方法集成到两种主流的占用模型 BEVDet4D 和 TPVFormer 中,以证明作者方法的有效性。除非另有说明,否则所有模型都使用 AdamW 优化器进行 24 轮训练,其中使用梯度裁剪,学习率设置为 2e-4。

Comparing with SOTA methods

Occ3D-nuScenes。 如表 1 所示,作者在 Occ3D-nuScenes 上的 3D 占用预测任务现有最先进方法的定量比较。作者将作者的方法集成到 TPVFormer 和 BEVDet4D 中,作者的方法在几何完整性和语义分割方面都取得了显著的性能改进,分别比 Baseline 提高了 3.8%,1.2% 的 IoU 和 5.1%,5.2% 的 mIoU。

image.png

值得注意的是,作者的基于 BEVDet4D 的方法使用了一个较小的 Backbone 网络(ResNet-50)和一个较小的图像输入大小()来实现 mIoU 分数 44.5%,这分别比 Voxformer(ResNet-101,900 × 1600)和 SurroundOcc(InternImage-B)提高了 3.8%。这表明作者的方法通过为 3D 占用预测任务专门设计组件,用较少的参数挖掘更多信息。

与最先进的 FBOcc 相比,BEVDet4D 在没有测试时 augmentation 的情况下,提高了 2.3%。此外,作者还将图像 Backbone 网络扩展到 SwinTransformer-B 并扩展图像大小到 512 × 1408。实验结果表明,即使模型大小较大,作者的方法也始终带来性能改进。

Ablation study

为了深入探究不同模块的影响,作者在基于 BEVDet4D 的 Occ3d-nuScenes 上进行 ablation 实验。

每个组件的有效性。 结果如表 2 所示,作者可以观察到所有组件都做出了自己的性能贡献。 Baseline 在没有长期时间信息的情况下,实现了 70.36% 的 IoU 和 36.01% 的 mIoU。

image.png

首先,作者将具有几何意识的占用编码器(GOE)集成到 Baseline 模型中,这使得 IoU 和 mIoU 分别提高了 0.53% 和 1.98%。这表明 GOE 帮助网络构建了一个具有更多几何信息的紧凑 3D 占用表示,从而有助于语义识别。通过使用 Transformer 解码器(TD),将 3D 占用任务转换为掩码分类,网络的语义分割能力得到了显著提高。通过使用 GOE 和 TD,网络可以在几何完整性和语义分割方面都表现出色,比 Baseline 提高了 1.38% 的 IoU 和 4.21% 的 mIoU。

此外,粗粒度到细粒度的语义分组进一步增强了稀有物体识别,并实现了 41.05% 的 mIoU 分数,同时保持了基本的几何完整性能力。

紧凑占用表示的有效性。 为了进一步证明紧凑占用表示的效果,作者进行了一个实验,其中作者使用了不同的占用特征表示。如图 3 (a) 所示,通过引入 U-net 桥接 Voxel 表示中的显式和隐式视图变换,作者在性能和计算效率之间实现了平衡。

image.png

如图 4 所示的定性结果表明,紧凑占用表示能够带来几何完整性方面的改进,尤其是对于像行人和杆子这样的细长物体。此外,紧凑占用表示对于遮挡具有鲁棒性。

语义感知组解码器的效果。 在图 5 中,作者根据标签分布比较了采用语义感知组解码器(SGD)的结果。很明显,数据集中存在明显的类别不平衡现象,例如,6 个背景类别占总标签的 93.8%。SGD 通过 Transformer 解码器和粗粒度到细粒度的语义分组在每组内平衡监督,显著增强了紧凑占用表示的语义判别性。

image.png

从粗到细语义组分的有效性。 为了进一步证明 CFSG 的影响,作者比较了使用不同数量语义组的效果。

image.png

如表 3 所示,像 [4] 那样复制原始GT标签十次以形成一对多分配并增加模型参数数量,并不会导致性能提升。然而,添加一个简单的 {"foreground", "background", "empty"} 组可以显著提升性能。此外,作者生成了热力图来可视化各种组中的 Query 掩码。

image.png

如图 6 所示,摩托车这个罕见类在 {gt label} 或 {"foreground", "background", "empty"} 组中都能正确检测,这增强了该类的语义监督。相比之下,没有使用 CFSG 的网络在该位置上遇到了背景类的抑制。

5 Conclusion

在本文中,作者提出了 COTR,一种基于视觉的 3D 占用预测的紧凑占用 Transformer。为了对 3D 场景进行全面理解,作者通过高效的显式-隐式视图变换和从粗到细的语义分组构建了一个紧凑的具有几何和语义意识的 3D 占用表示。作者使用几个主流的 Baseline 来评估 COTR,并在 nuScenes 上实现了最先进的性能。

作者希望 COTR 能激发进一步的研究,以便更好地理解基于视觉的 3D 占用预测及其在自动驾驶车辆感知中的应用。

Appendix A Further Implementation Details

在这一节中,作者将进一步阐述 COTR 的实现细节。

具有几何意识的占用编码器。 正如作者在第 3.3 节中提到的,显式视图变换生成了一个占用特征 。然后,作者使用一个 3D-ResNet 根据 [8] 来生成多个 Scale 的占用特征 。接下来,作者使用三线性插值采样多个 Scale 的 OCC 特征到相同大小的 ,然后通过连接和卷积层将它们拼接和卷积,以构建紧凑的 OCC 表示 。

最后,将紧凑的 OCC 表示 输入到隐式视图变换进行进一步更新。由于紧凑的 OCC 特征 已经由 EVT 初始化,作者只使用 1 个 Transformer 层在 IVT 中。最终预测分辨率是 ,作者使用解卷积层将紧凑的 OCC 特征 上采样到 ,这仅用于语义感知的组解码器中的掩码预测。为了抵消降采样过程中几何细节的损失,作者构建了一个 U-net 架构,将多 Scale 特征 连接到上采样特征。

在训练过程中,作者使用了总共 4 种不同的损失函数:

image.png

Appendix B Further Experiments

作者在表 4 中报告了关于作者实验结果的更多定量细节,以便更好地与其他竞争对手进行比较。除了 TPVFormer 和 BEVDet4D 外,作者还将在 OccFormer 中集成 COTR。COTR 在几何完整性和语义分割方面都取得了显著的性能改进,分别比 OccFormer 高 1.6% 的 IoU 和 3.8% 的 mIoU。

image.png

值得注意的是,明显的改进主要存在于小物体和罕见物体中,这表明作者的方法确实可以感知更精细的几何细节,并显著提高语义判别性。

不同 OCC 分辨率下的消融研究。 表 5 比较了作者在实验中使用的不同 OCC 表示的分辨率。很明显,高分辨率 () 的 OCC 表示带来了巨大的计算开销,与紧凑 () 的 OCC 表示相比,FLOPs 约为 倍。此外,保留高度信息似乎对占用预测任务有利。总的来说,作者的紧凑 OCC 表示在性能和计算开销之间取得了平衡。

image.png

计算成本的消融研究。 如表 6 所示,作者的 COTR 是一个高效的方法,其中每个组件都不增加显著的计算成本。值得注意的是,由于在训练期间作者只使用了粗粒度到细粒度的语义分组(CFSG)策略,并在推理时只保留一个组,CFSG 没有引入任何额外的开销。

image.png

Appendix C Visualization

在这一节中,作者提供了更多关于作者方法的可视化结果。

遮挡场景下的视觉消融。 为了验证作者在处理遮挡场景方面的鲁棒性,作者提供了额外的视觉结果。如图 7 中的第一场景所示,作者的方法在没有使用长期时间信息的情况下,成功检测到位于有限遮挡范围内的较小物体(如行人和自行车)。然而,在第二场景中,当车辆的大部分被遮挡时,由于摄像机视角的约束,模型难以正确识别被遮挡的物体。

遮挡场景下的视觉消融。 为了验证作者在处理遮挡场景方面的鲁棒性,作者提供了额外的视觉结果。如图 8 中的第一场景所示,作者的模型能够成功检测黑暗中的未知物体。然而,第二场景表明,尽管作者的模型可以从远处成功检测到黑暗中的小物体,但在摄像机的大部分被遮挡时,它无法成功预测。这一限制主要归因于摄像机的感知能力,其他模态,如 LiDAR 或雷达,可能需要帮助成功检测。

参考

[1]. COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction.

作者:小书童
文章来源:集智书童

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18808
内容数
1351
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息