Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低！ - 极术社区

作者提出了一种用于使用时间LiDAR点云进行3D目标检测的Late-to-Early循环特征融合方案。作者的主要动机是将具有目标感知能力的潜在嵌入融合到3D目标检测器的早期阶段。这种特征融合策略使模型能够更好地捕捉具有挑战性的目标的形状和姿态，相对于直接从原始点学习。
作者的方法以一种循环方式进行从Late-to-Early的特征融合。通过对经过时间校准和对齐的稀疏Pillar标记施加基于窗口的注意力块，作者实现了这一目标。利用鸟瞰视图的前景Pillar分割，作者将模型需要融合到当前帧的稀疏历史特征数量减少了10倍。作者还提出了一种随机长度的FrameDrop训练技术，该技术可以在推理时将模型推广到可变帧长度，从而提高性能而无需重新训练。
在广泛采用的Waymo开放数据集上评估了作者的方法，并展示了在3D目标检测方面相对于Baseline模型的改进，特别是对于大目标这一具有挑战性的类别。

1、简介

激光雷达（LiDAR）时间融合的目标是汇聚学到的历史信息，以改善基于点云的任务。这些历史信息可以是各种隐式（例如潜在嵌入）、显式（例如点云、3DBBox轨迹）表示或两者的混合，具体取决于所处理的模型和任务。时间融合对于多个与驾驶相关的任务至关重要，如3D目标检测、跟踪、分割和行为预测。

在这里，作者主要研究基于LiDAR的融合方法，用于3D目标检测，这是现代自动驾驶系统中识别和定位周围目标的关键任务。单帧点云只能作为场景的部分观测，缺乏完整的环境背景和代理动态的覆盖。这种信息瓶颈由多种因素引起，如目标自遮挡、被其他目标遮挡、传感器视场限制和数据噪声等。

此外，对于移动目标，只有单帧数据的模型将难以理解它们的短期状态（速度、加速度）和长期意图（未来轨迹）。解决这些问题需要有效的LiDAR时间融合方法，可以使模型从广泛的时间范围内理解场景/目标属性和动态。

时间融合的主要挑战在于如何表示和聚合历史帧的长序列信息。通常来说，先前的解决方案可以分为两种类型。其中一种最广泛使用的方法是基于点云叠加的Early-to-early融合。多帧LiDAR点直接堆叠在一起作为模型输入，相对于单帧LiDAR点，可以获得更好的性能。然而，当更多帧简单堆叠在一起时，性能很快就会饱和，而没有仔细建模帧间关系。此外，当它们堆叠成不同的相邻帧时，每帧都需要重复处理，大大增加了计算成本。拟合长序列还会大大增加内存成本，降低模型效率，甚至导致内存不足（OOM）问题。

理想情况下，模型应该利用已经从数据中学到的知识，而不仅仅是堆叠其原始感知输入。为了克服这个问题，另一种融合方法转向Late-to-Late融合，以利用学到的历史嵌入。代表性的方法是ConvLSTM，它在模型的深层中对相邻帧之间的潜在嵌入进行递归融合。这种方法减少了内存使用和计算成本，但其结果通常不如Early-to-early融合，如图1b所示。作者怀疑这是因为在晚期融合之前，Backbone只能访问单帧数据。理解时间融合的深层特征的任务落在检测头上，通常由低容量的多层感知器（MLP）层组成。因此，大多数最先进的LiDAR 3D目标检测器（例如PVRCNN++、CenterPoint、SST、SWFormer等）仍然依赖于点云叠加的Early-to-early融合。

在本文中，作者提出了一种新的融合方法，称为LEF：Late-to-Early时间融合。作者认为，这种融合方案可以利用学到的历史知识，同时其Backbone不会受到单帧数据不足的问题的影响。长期历史LiDAR融合是自动驾驶的基本组成部分，作者的工作为实现这一目标开辟了一个有希望的方向。作者的论文有三个主要贡献：

作者提出了一种递归架构，将最终稀疏Pillar特征融合到下一帧的早期阶段。为了对齐底层的静态目标，作者提出了一个逆校准和对齐模块，用于融合历史和当前的稀疏Pillar特征。对于移动目标，作者利用基于窗口的注意力层，可以关联窗口内的相关特征，从而连接属于同一目标的Pillar标记。
虽然点云叠加在历史长度增加时很难缓存和预处理大量点云，但作者利用鸟瞰视图（BEV）前景Pillar分割模块以低恒定成本实现长序列融合。通过前景分割过程，作者的模型在每个递归步骤中需要融合的稀疏体素数量可以减少10倍以上。
作者还提出了一种随机长度的FrameDrop训练方法。它使模型暴露在不同速度的Pillar轨迹的扩增大运动空间中。因此，作者的递归模型可以捕捉不同速度的目标，并在推理过程中推广到不同的帧长度，以提高性能。

2、相关方法

3D目标检测

基于LiDAR的3D目标检测在自动驾驶中发挥着关键作用。早期的研究工作，如PointRCNN，通常通过PointNet(++) 处理原始的3D点云。但是它们在大规模数据上（例如，具有数百万个点的长序列融合的LiDAR）的泛化能力受到了挑战。这些检测器在很大程度上依赖于基于MLP的Backbone，很快就被具有更先进架构的模型超越，比如次流形稀疏卷积或 Transformers。

通过将自由形状的点集分解为规则的2D1或3D形状的体素，LiDAR-based检测器可以借鉴图像2D目标检测领域的许多进展，开始展示有希望的3D检测结果。特别是，CenterPoint利用稀疏卷积层和基于CenterNet的检测头来预测3DBBox。一些最近的工作，如SST和SWFormer，利用Swin-Transformer推动了检测性能达到了新的技术水平。与此同时，一些方法研究了替代的LiDAR表示方法，并努力在检测效率和效果之间取得平衡。

LiDAR时间融合

与3D检测Backbone取得的快速进展相比，LiDAR时间融合方法的研究较少。WOD中的单帧点云已经导致了巨大的计算负担（即，约200k个点），更不用说长历史序列了。正如在介绍部分简要讨论的那样，LiDAR时间融合的解决方案通常可以分为三种类型：Early-to-early，Late-to-Late和Late-to-Early融合。Early-to-early融合也被称为点云叠加。

最近的LiDAR目标检测器（例如CenterPoint、RSN、SWFormer等）最广泛采用这种方法，因为它的设置简单。多帧点集被合并在一起。相对于当前帧的时间戳偏移被附加到每个3D点的感知信号中，用作指示不同帧来源的标记。

然而，点叠加在处理长序列时很困难，因为需要合并、保存和联合预处理数百万个点。也可以使用Transformer来早期融合来自不同帧的点云。Early-to-early融合只是简单地堆叠原始感知输入，没有仔细建模帧间关系和忽略从先前帧学到的知识，而Late-to-Late融合尝试通过ConvLSTM 来解决这些问题。它在Backbone的深层之间递归融合稀疏的潜在嵌入，效率比点云叠加更高，但结果通常不如Early-to-early融合具有竞争力。这可能是因为它的Backbone直到深层的融合发生才能利用单帧数据。3D-MAN也可以看作是一种Late-to-Late融合的形式，因为这种方法中的时间融合是通过各种交叉注意力在BBox提议和存储器库中的特征之间完成的，这两者都位于网络的Backbone之后。FaF研究了早期融合和晚期融合两种方法。

据作者所知，Late-to-Early融合在LiDAR检测器中尚未被研究过。在[35] 中也研究了类似的融合框架，但是针对的是基于摄像头的检测，面临着与作者问题非常不同的挑战。作者需要处理广泛范围内分布的3D数据，这需要专门设计用于稀疏特征对齐、融合以及新的训练方法。

最后，作者注意到，到目前为止，作者的审查主要集中在一个可训练的单阶段模型上，该模型内部化了时间融合方案。也可以跟踪BBox预测，采用最近两阶段方法的Term，来进行第二阶段的离线优化，MPPNet是这种两阶段方法的最新示例之一。MPPNet在4帧堆叠的LiDAR点云上运行预训练的CenterPoint，以生成Anchor-BBox，然后跟踪并聚合长序列中的BBox。

具体地说，一个帧内BBox区域内的潜在嵌入或原始点将与从其他帧中提取的那些交织在一起，以优化BBox状态。这种两阶段方法的关键区别因素在于两个阶段/模型是分别训练，这意味着第一阶段内在地内置的改进与第二阶段的创新是互补的。

3、本文方法

A. 问题陈述

B. 递归的Late-to-Early融合

历史特征

融合位置

作者认为，Late融合可能会导致BackboneB失去对时间聚合的LiDAR序列信息的访问，从而使低容量的检测头H难以理解融合特征并预测目标的姿态和形状。作者在表IV和第IV-C节中提供了Early-to-early、Late-to-Late和作者提出的Late-to-Early融合方法的消融研究，从经验上证明了作者方法的优势。

C. 逆校准和对齐

D. 基于窗口的注意力融合

E. 随机长度的FrameDrop

4、实验

A. 主要结果和比较

与其他竞争方法相比，作者的整体车辆检测结果如表I所示。作者比较了带有BBox细化步骤和不带BBox细化步骤的方法，尽管作者的模型是一个不带细化的单阶段方法，通常比那些带有细化的方法更高效。

作者的方法LEF在L2测试数据上超过了以前最好的单阶段模型SWFormer，3D APH提高了+1.3（例如75.16 vs. 73.87），展示了作者方法的强大整体性能。

作者的方法特别适用于检测挑战性的大型目标，其最大尺寸超过7米：卡车、公共汽车、工程车等。作者在验证集上进行了详细的分析，如表II所示。作者的方法LEF在L1 3D AP上相对增加了+9.3%：54.35 vs. 49.74，优于SWFormer。

与小型或中型目标相比，大型车辆等难例更容易出现部分观察问题。要忠实地检测这些具有挑战性的情况，需要在较长的帧长度上进行LiDAR时间融合，以扩大感知数据的覆盖范围。此外，作者的后到前融合方案可以重复利用从之前帧中学到的场景和目标感知的潜在特征，而不仅仅是像RSN和SWFormer中堆叠的原始感知输入。

定性结果在图3中可视化。SWFormer的典型错误在红色区域中突出显示。作者的结果与GT更好地对齐（即3D IoU更高）比SWFormer的预测，特别是对于具有挑战性的大型目标。

此外，作者的结果包含的假阴性和假阳性预测较少。作者还在表III中测量了不同LiDAR 3D目标检测器的模型延迟、FLOPs和参数大小。PointPillars和SWFormer都使用点堆叠。结果显示了作者的后期到早期递归融合方法的效率优势。

B. 消融研究

融合策略

作者进行了苹果对苹果的比较，研究了如图1a所示的Early-to-early（E2E），Late-to-Late（L2L）和Late-to-Early（L2E）融合策略的影响。

具体来说，作者测试了所有融合变体，具有相同的Backbone和帧数（即3），以分解模型体系结构和LiDAR序列长度的影响。验证集大型目标的结果如表IV所示。

作者的L2E融合在L1 3D AP上超越了其他两种方法，相对增益为7.8%。通过比较E2E和L2L融合，作者观察到它们在2D AP上的结果是可比的。但是E2E在3D AP上明显优于L2L，表明了更高质量的3D目标检测。

这些结果验证了作者关于Late-to-Early融合优势的论点。与E2E融合相比，L2E使模型能够重复使用从之前帧中学到的场景和目标感知知识。与L2L相比，L2E融合的模型容量没有受到限制，因为其Backbone可以早期访问时间上聚合的感知数据。

不同的目标大小

除了在第IV-B节中的整体结果和难例分析之外，作者还对不同目标大小对作者方法的影响感兴趣。因此，作者将验证集目标分为：大、中、小。典型的大型目标是公交车和卡车。中型和小型目标

通常包括轿车和行人。详细的结果见表V。尽管作者的方法LEF在小目标上取得了与竞争方法相当的结果，但作者观察到随着目标尺寸的增大，收益越来越多。在L2中等目标上，LEF的改进值为0.73 AP，并且在大型目标上进一步提高为4.11 AP。一个可能的解释是小目标受到的部分视图观察问题较少，因此不太能从时间融合中受益。从结果来看，作者认为作者的方法在不同的目标大小上都能稳健工作。

C. 帧长度的泛化

由于计算设备（如GPU或TPU）的内存限制，具有LiDAR时间融合的3D目标检测器通常在训练期间采样一定数量的历史帧（例如2或3）。然而，在推断期间，根据历史长度，模型通常可以获得额外的帧。对于典型的基于Early-to-early融合的多帧检测器（例如CenterPoint、SWFormer），如果作者想要在不同的帧长度上测试已训练好的模型，需要修改训练设置并重新训练模型。通过随机长度的FrameDrop（SLF），LEF可以在不重新训练的情况下泛化到可变的帧长度。它可以利用额外的帧，并获得越来越好的结果。表VI中显示了大型目标的3D AP。

相比之下，没有SLF的SWFormer和LEF可能无法充分利用较长的历史，甚至可能面临性能下降。这是因为长历史帧可以展示时间上聚合数据的多种运动模式，对于没有SLF训练的方法来说，这会带来泛化困难。

此外，由于SWFormer基于点云堆叠，如果作者只是将长LiDAR序列堆叠成数百万个3D点并将它们用作输入，它将遇到OOM。这些观察结果表明，随机长度的FrameDrop和循环融合对于在推断期间将作者的LEF方法泛化到可变帧长度是至关重要的。

前景Pillar分割

为了以递归的方式高效融合历史Pillar特征，作者在将历史潜在Pillar嵌入传递到下一帧之前，对BEV前景进行分割。需要递归融合的历史Pillar数量可以从∼20k平均减少到∼2k，去除了大量无信息的背景数据。因此，作者的后期到早期时间融合方案的计算负担可以大大减轻，并保持在相对较低的固定成本。

逆校准和对齐

如图2所示，逆校准和对齐对于在先前帧和当前帧之间融合两个稀疏的Pillar特征集是重要的。经过这个时间对齐过程后，属于相同基础静态目标的特征可以有效地对齐。

在表VII中，作者展示了逆校准和对齐在不同尺寸目标上实现了一致的检测改进，包括卡车、轿车、行人等。

基于窗口的注意力融合

作者在时间上对齐的稀疏Pillar标记上应用基于窗口的注意力块，以进一步融合历史和当前帧的信息。如第III-D节所解释的，作者探索了三种不同的注意力设计：自注意力/交叉注意力/混合注意力。

WOD验证集上的大型目标检测AP如表VIII所示。对于所有方法，作者使用从经过时间上对齐的BEV特征图转换而来的Pillar标记的稀疏集合作为查询张量。在自注意力中，Query、Key和Value基于相同的张量。在交叉注意力中，Key和Value张量是从校准历史特征转换而来的稀疏Pillar标记。混合注意力使用前两种方法的并集作为Key和Value。

作者观察到，自注意力一直优于其他两种注意力变体。这可能是因为历史标记存在于与时间上对齐标记非常不同的潜在空间中。因此，在和之间的注意力可能很容易导致难以处理的特征融合，最终损害检测。与此同时，由于已经合并了历史和当前的信息，自注意力能够很好地关联相关的Pillar标记并完成融合任务。

基于窗口的注意力融合在融合来自移动目标Pillar的信息方面发挥着重要作用。在表IX中，作者展示了在有和没有基于窗口的自注意力融合的情况下的验证集3D AP比较。作者报告了不同速度范围的不同大小目标的子类指标：[0, 0.45)、[0.45, 2.24)、[2.24, 6.71)、[6.71, 22.37)、[22.37, +∞)英里/小时，用于静态、缓慢、中等、快速、非常快速的目标。这些指标是在不同大小的目标上进行平均的。作者观察到，注意力融合在不同的目标速度范围内带来了一致的检测增益。

特别是，在高速目标上取得的改进大于在低速目标上取得的改进：+9.4（快速）vs.+6.1（静态）3D AP增益。这些比较从经验上证明了基于窗口的自注意力融合对于关联属于相同基础目标的相关Pillar非常重要，这对于移动目标检测尤为重要。

5、参考

[1].LEF: Late-to-Early Temporal Fusion for LiDAR 3D Object Detection.

作者：AI视界引擎
文章来源：AI视界引擎

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

Waymo提出全新Fusion方法LEF | 让3D目标检测的难度再次降低！