​OverlapMamba 具备超强泛化能力的定位方法

I.论文摘要:

精准的定位是自动驾驶系统独立决策和安全运行的基石,也是SLAM中环路闭合检测和全局定位的核心。传统方法通常采用点云数据作为输入,和基于深度学习的激光雷达定位(LPR)技术。然而,新近提出的Mamba深度学习模型与状态空间模型(SSM)相结合,展现出处理长序列数据的巨大潜力。基于此,作者开发了OverlapMamba——一种创新的定位网络,它将输入的视距视图(RVs)转化为序列数据。该方法采用了一种新颖的随机重构方法来构建偏移状态空间模型,有效压缩了视觉数据的表示。在三个不同的公共数据集上进行评估,该方法能够有效地检测环路闭合,即便是在从不同方向重访先前的位置时也能保持稳定性。依赖于原始的视距视图输入,OverlapMamba在时间复杂度和处理速度上优于传统的激光雷达和多视图融合方法,展现了卓越的定位能力和实时处理效率。

论文标题:OverlapMamba:Novel Shift State Space Model for LiDAR-based Place Recognition

论文链接:https://arxiv.org/abs/2405.07966

image.png
图1.OverlapMamba模型的核心思想。

II.背景介绍

定位技术使自动驾驶系统能够在没有先验知识的情况下感知周围环境,并在复杂和动态环境中准确识别自身位置。当前基于图像的定位技术通常包括回归图像相似性或匹配描述符来从数据库中检索最相似的参考。然而,由于动态环境变化和光照变化会影响精度,这些方法在自动驾驶系统重新访问先前绘制的位置时可能会导致定位不准确。相比之下,基于激光雷达的定位(LPR)方法表现出更大的稳健性和竞争优势,因为它们不太容易受到环境干扰的影响。这些方法使用 3D 激光雷达进行数据采集,并采用不同的数据表示形式,包括鸟瞰视图、视距视图(RV)和原始 3D 点云作为 LPR 的输入。例如,RangeRCNN引入了RV-PV-BEV(range-point-bird's eye views)模块,将特征从 RV 传输到 BEV,从而避免了尺度变化和遮挡带来的问题。尽管如此,将多个图像聚合以生成全局描述符的计算强度使这些方法不适合快速计算和实时操作。因此,基于图的在线运算方法会产生显著的延迟,并且随着地图扩大,定位和闭环检测所需的时间也会线性增加。

本研究引入了一种端到端网络,利用 RV 作为输入来生成每个位置的朝向不变的全局描述符,以解决现有基于图的在线运算方法固有的高延迟问题。这种稳健的定位方法是通过在多个视角之间匹配全局描述符实现的。此外,这项工作介绍了 OverlapMamba 模块,这是一种新颖的特征提取主干网络,重点将前沿的状态空间模型(SSM)集成到 SLAM 技术中,以提高定位效率并增强全局定位能力。OverlapMamba 模块将 RV 建模为多方向序列,并采用自设计的随机重构方法计算注意力,以弥补 SSM 单向建模和位置感知能力不足的缺陷。网络中集成了一个简单的序列金字塔池化(SPP)架构,以减轻噪声干扰造成的特征损失。

与最优秀的基于Transformer的LPR方法相比,OverlapMamba以线性计算复杂度的优势提供了更优秀的视觉表示。由于其朝向不变的架构和丰富的空间特征合并,所产生的全局描述符在定位任务中表现出稳健性,即使自动驾驶系统以相反的方向导航,其效果也能保持准确。

image.png
图2.OverlapMamba的总览。

III.框架概述

A. 基础模型

本研究重点将前沿的状态空间模型(SSM),即 Mamba 模型集成到 SLAM 技术中,以提高定位效率并增强全局定位能力。

image.png

B. 基于 Mamba 的定位

image.png
image.png

C. OverlapMamba 块

图2展示了所提出的 OverlapMamba 块(OLM)。原始 Mamba 模块专门为 1D 序列设计,可能不适合需要空间感知的任务。在最新研究中,研究人员普遍采用的一种方法是使用双向序列建模。这种方法本质上是将图像分成多个补丁,并合并位置编码将它们映射为序列。与此同时,一些研究选择使用四个不同的方向序列作为输入,沿垂直和水平轴收集像素信息,然后反转这些生成的序列以创建一个四元组序列。最后,在通过选择性 SSM (S6) 模型后,所有序列被合并到一个新序列中。

image.png
图3.SIFT操作过程。

在本文中,主干网络中的卷积滤波器仅沿垂直维度压缩距离图像,而不压缩宽度维度。这导致特征序列的最大输出大小为 。采用双向方法进行序列建模。添加额外的位置嵌入或沿水平方向采样是不必要的,因为直接通过堆叠的卷积模块获得标记序列。标记序列直接包含朝向信息,反向处理反向序列后就包含了机器人从同一场景的相反方向接近的信息。因此,作者认为由于距离图像包含全局场景信息,不同朝向角下同一场景的标记序列是从循环序列生成的,如图3所示。

image.png
算法1 OverlapMamba block 过程。

因此,在重叠主干网络中,作者使用算法1中的Shift(·)函数随机处理标准化的标记序列,并生成随机翻转朝向角的序列。经过处理的数据可以模拟同一场景在不同朝向角下的特征,从而在训练期间增强模型的泛化能力。最后,经过处理后获得四个不同的序列作为选择性SSM(S6)的输入用于推理和训练。

整个OverlapMamba块结合了多方向序列建模,用于定位任务。作者在算法1中演示了OLM块的操作,相关超参数包括:模块堆叠数L、隐藏状态维度D、扩展状态维度E和SSM维度N。该块接收并标准化标记序列;然后,它使用线性层将序列投影以获得x和z。接下来,翻转x并应用随机朝向角处理以获得四个方向序列,每个序列分别处理。对每个序列通过1D卷积和激活函数以获得。然后,切分线性层的结果。使用softplus(·)函数分别计算Δ,再计算A和B,并将它们输入到SSM以获得由z控制的。最后,通过将四个方向的序列相加,获得输出标记序列。

D. 主干网络中的序列金字塔池化

作者探索了两种不同的方法来生成token序列,以确保朝向等变性。第一种方法利用增强了位置编码的平坦2D补丁。第二种采用纯卷积框架。距离图像大小为64×900,更接近于序列数据的表示形式,而不是垂直和水平方向相等尺寸的普通图像。自然地,转换为序列后可以保留更多的特征信息。然而,针对普通图像提出了处理小补丁和融合位置编码的方法。当应用于距离图像时,水平和垂直方向的特征信息存在失衡。

为了解决这个问题,重叠主干网络沿垂直方向使用卷积滤波器将距离图像压缩为大小为1×w×c的特征序列。这种方法生成的序列最大程度上保留了沿宽度维度的朝向信息。此外,由于距离图像在垂直方向上只有64像素,因此主干网络不需要大滤波器或堆叠多个卷积模块。总体而言,这种方法更适合处理RV。

image.png
图4.SPP块的结构。

在处理距离图像时,由于滤波器仅沿垂直方向压缩图像,因此图像沿水平方向被分成H个长度为W的序列进行处理。但是,由于距离图像固有的物体失真和噪声干扰,得到的特征序列可能会显示不正确的空间信息。因此,作者提出了一种简单的SPP模块架构,灵感来自空间金字塔池化,如图4所示。

SPP采用两层沿水平方向的1-D池化,而无需使用多尺度池化核。它对输入序列执行三次连续的最大池化操作,并连接中间状态,然后使用滤波器进行通道压缩。尽管金字塔池化结构很简单,但通常不能用于序列处理,因为它旨在学习2D图像中的多尺度特征。然而,如前所述,通过垂直卷积处理生成的序列包含水平方向的所有位置信息。因此,使用SPP可以有效提高对象位置和比例在序列中的不变性,并减少由噪声干扰造成的特征损失。

图4展示了输入序列经过两次连续的最大池化操作,以不同分辨率处理序列,以捕获更丰富的空间信息。处理后的序列发生均匀变化,同时保持了空间层次结构。

E. 改进的triplet损失与硬挖掘

image.png
图5.训练期间的原始损失和F1max。

在实验中,作者发现损失函数在使用传统三元损失时很难收敛。此外,随着损失函数的减小,模型的泛化能力并没有增加,如图5所示。作者认为模型选择的训练数据分布不均匀。从训练数据中随机选择样本的做法虽然简单,但会导致易于区分的样本。许多容易区分的样本对于网络学习更好的表示并不有利。为了解决这个问题,作者提出从查询样本中选择差异最大的正负样本进行训练,如下式所示:

image.png

其中表示压缩系数,d(·)用于计算平方欧几里得距离。使用三元损失最小化查询描述符与最难正全局描述符之间的距离,并最大化查询描述符与最难负全局描述符之间的距离,同时添加查询描述符与正样本之间的距离以确保查询与正样本之间的绝对距离。在训练期间,默认将设置为以控制这一监督项的强度。

IV.实验结果

作者在三个公开数据集上评估了本模型的性能,结果表明,本方法在时间精度、复杂度和速度上优于其他最先进的方法。

image.png

表格I:在KITTI和Ford校园数据集上的闭环检测性能比较。

image.png

表格II:在KITTI数据集上进行的本方法各个模块的消融研究。

image.png

表格III:在KITTI数据集上使用不同数量的OverlapMamba块的比较。

image.png

表格IV:在训练过程中OverlapMamba在两种损失函数上的收敛速度比较。

image.png

表格V:与最先进方法的运行时间比较。

image.png

图6.使用NCLT数据集的2012-06-15会话作为查询,2012-01-08作为数据库的场所识别结果。

image.png

图7.使用NCLT数据集的2012-02-05会话作为查询,2012-01-08作为数据库的场所识别结果。

image.png

图8.两种损失函数的比较。

V.结论

本文提出了一种新颖的基于激光雷达的定位网络,它利用了Mamba模型、一种处理RV的随机重建方法,以及一种简单的SPP架构。实验结果证明,即使只使用简单的信息输入,作者提出的OverlapMamba在三个公共数据集上的时间精度、复杂度和速度方面都可以优于其他最先进的算法,展现了其在LPR任务中的泛化能力以及在真实世界自动驾驶场景中的实用价值。

作者:lovelypanda
来源:GiantPandaCV

推荐阅读

欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式客栈专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18835
内容数
1369
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息