建模自车车辆、道路代理和地图元素之间的复杂交互一直是安全关键的自动驾驶的重要部分。此前关于端到端自动驾驶的工作依赖于注意力机制来处理异质交互,这未能捕捉到几何先验,并且计算上也很密集。在本文中,作者提出了交互场景图(Interaction Scene Graph, ISG)作为统一方法来建模自车车辆、道路代理和地图元素之间的交互。利用ISG的表示,驾驶代理从最具影响力的元素中聚合关键信息,包括潜在的碰撞道路代理和需要遵循的地图元素。由于大量不必要的交互被省略,更高效的基于场景图的框架能够专注于必不可少的连接,并导致更好的性能。
作者在nuScenes数据集上评估了所提出的方法在端到端自动驾驶任务上的表现。与强 Baseline 相比,GraphAD在包括感知、预测和规划在内的全栈驾驶任务上显著性能更优。
代码:https://github.com/zhangyp15/GraphAD
1 Introduction
传统的自动驾驶(AD)系统是手动划分为多个顺序模块,包括感知,预测,规划,以及控制。然而,这种手动划分阻止了系统在全局范围内联合优化,导致性能次优。为了解决这个问题,端到端自动驾驶算法一起优化不同的模块,使得整个系统可微分。端到端算法具有减少累积误差的潜力,并能实现更高的性能,因此越来越受到关注。
在端到端的驾驶算法中,预测和规划模块都承担着相同的任务,即预测未来智能体(即预测任务中的道路智能体和规划任务中的自我车辆)的轨迹。未来轨迹受到智能体之间及其周围环境互动的影响。因此,在传统的端到端算法中,建模这种互动扮演着核心角色,这通常通过注意力机制具体实现。然而,主要基于隐式特征相关性的注意力机制,缺少关于哪些驾驶元素更为重要的几何先验知识。因此,基于注意力的互动不可避免地在不重要的驾驶元素上浪费了建模能力,同时在受到干扰元素影响时性能表现更差。
在本文中,作者提出了交互场景图(Graph)用于端到端的自动驾驶(GraphAD),以增强驾驶元素之间的交互。GraphAD将交互的强先验知识编码到图模型中,即交互场景图(ISG)。ISG是一个有向图模型,其节点代表环境中的关键驾驶元素,包括交通代理和车道。驾驶元素是精心选择的,以便于信息聚合,这样只有重要的驾驶元素被表示。图中的有向边代表节点之间的交互。每个节点只与少量其他节点相连,使得边稀疏。因此,ISG是对交互的一种简洁且高效的表示。
具体来说,交互场景图(ISG)由两个互补的部分组成,如图1所示,包括动态场景图(DSG)和静态场景图(SSG)。DSG关注智能体之间的交互。DSG的每个节点对应一个智能体。每条边都有一个权重,衡量一个智能体对另一个智能体的关注程度。这些权重被用来预测智能体的未来轨迹。请注意,智能体之间的交互取决于未来轨迹,即如果两个智能体的轨迹在将来会发生碰撞,那么它们会相互之间给予更多关注。因此,DSG中的权重与预测的未来轨迹是相互依赖的。预测的未来轨迹反过来又能细化DSG中的权重。
因此,作者迭代优化DSG和预测的未来轨迹。SSG描述了智能体与周围地图元素之间的交互。每个智能体在SSG中作为一个节点表示。与此同时,地图中的周围车道也作为节点表示。有向边从智能体指向车道,建模智能体对车道的关注。作者在DSG和SSG上应用图神经网络。提取的特征用于预测自我智能体和所有其他智能体的未来轨迹。通过这种方式,作者能够采用统一的方法完成预测和规划任务。
作者在nuScenes数据集上评估了GraphAD。进行了大量的消融研究来证明作者的设计选择的有效性。
作者将作者的主要贡献总结如下:
- 据作者所知,GraphAD是第一个端到端的自主算法,它采用图模型来描述交通场景中的复杂交互。该图模型使作者能够有效地将交通场景的强烈先验知识引入算法中。
- 作者精心设计了一个交互场景图(ISG),它简明地展示了自动驾驶车辆、交通代理和地图元素之间的异质交互。特别是,动态场景图(DSG)能够迭代地改进对未来轨迹的预测,并描述代理之间的细微交互博弈。
- 当与强 Baseline 方法进行比较时,GraphAD在多个任务上取得了最先进的表现。
2 Related Work
End-to-end Autonomous Driving.
与在传统自动驾驶(AD)框架中采用模块化范式不同,以端到端方法为目标,基于传感器输入输出未来动作的技术已经引起了广泛关注。当以端到端的方式制定时,整个框架可以以高计算效率优化以最终规划任务为目标。一些开创性方法尝试直接预测规划轨迹,同时缺乏对中间感知和预测任务的明确监督。
考虑到安全和透明度以及可解释性,近期的研究在端到端框架中引入了必要的先导任务,从而将感知、预测和规划统一为一个整体模型。例如,UniAD将特定任务的 Query 视为整个自动驾驶 Pipeline 中消息传递的强大工具,在多目标跟踪、在线建图、运动预测、占用预测和规划方面均取得了显著性能。FusionAD用多模态输入扩展了UniAD的能力。与此同时,一些研究者关注不同特权输入的影响。VAD认为端到端的自动驾驶可以在完全向量化模式下高效执行,而OccNet尝试基于预测的占用执行规划任务。
尽管先前的方法已经取得了令人印象深刻的性能,但交通代理与周围环境之间的交互作用并未得到充分探索。在这项工作中,作者提出了交互场景图(Interaction Scene Graph),以明确建模动态与静态驾驶元素之间的异质交互。
Graph Neural Networks.
得益于图神经网络在图数据上的成功,GNNs已被广泛应用于各个领域,如目标检测,基于骨架的动作识别,行人重识别。同时,与GNN相关的进展也吸引了自动驾驶领域研究者的关注,一些研究 Proposal 利用GNN的能力进行场景感知和运动预测。GNN3DMOT 和 PTP 尝试对检测到的目标之间的继承交互进行建模,以用于3D多目标跟踪。对于在线地图构建,LaneGCN 从高清地图构建车道图,而 TopoNet 利用学习到的场景知识图对车道和交通元素之间的关系进行建模。
在多代理运动预测中,将移动代理和地图元素都设计为图构建中的节点,并且引入它们之间的关系将有利于轨迹预测。HDGT 设计了一个异构图,并明确建模了场景中的所有语义和关系。与之前的工作不同,GraphAD 是首个在端到端自动驾驶框架中捕捉动态代理与静态地图元素之间交互的工作。同时,GraphAD 提出在图构建中引入轨迹 Proposal ,考虑动态代理的潜在运动。
3 Method
GraphAD的整体框架如图2所示。
- 首先,以多视角视频序列、摄像头参数和自身位姿作为输入,图像特征通过图像编码器提取,然后被提升为鸟瞰图(BEV)特征。多帧BEV特征进一步聚合形成时空场景表示。
- 其次,GraphAD采用两个 Transformer 解码器,即TrackFormer和MapFormer,提取动态和静态驾驶元素的 结构化表示。
- 第三,通过考虑潜在的运动,显式构建交互场景图来模拟自身车辆、动态元素和静态元素之间的交互。
- 最后,结合自身状态特征和高级驾驶命令,图聚合的自我 Query 特征被规划头处理以预测自身车辆轨迹。
作者将在以下各节中详细阐述这些步骤的设计。
Spatiotemporal Scene Representation
Structured Element Learning
基于时空场景特征,提取结构化元素(包括交通参与者和地图元素)对于自动驾驶中的安全关键规划至关重要。因此,GraphAD采用了TrackFormer和MapFormer来预测这些与驾驶相关的实例。
TrackFormer利用时空鸟瞰图(BEV)表示,旨在进行端到端的3D目标检测与跟踪。遵循[12]的设计,作者采用两组目标 Query 和 Transformer 解码器来解决这个问题。具体来说,一组追踪 Query ,对应于之前检测到的目标,仍然需要预测相同目标身份的更新3D边界框。另一组检测 Query 负责首次可见的目标。对于每个时间戳,包括已追踪和新生成的积极 Query ,将为下一个时间戳的服务作为追踪 Query 。 Transformer 解码层包括所有目标 Query 之间的自注意力以及用于关注时空BEV特征的可变形注意力。
MapFormer 为了更好地捕捉地图元素的几何约束,作者遵循近期的研究实践来学习局部地图的向量表示。具体来说,MapFormer 使用实例级和点 Level 的 Query 来形成分层地图 Query ,这些 Query 通过类似于TrackFormer中的 Transformer 解码器进行处理。
最后,输出的地图 Query 被投射到潜在地图元素的类别分数以及一系列鸟瞰图(BEV)坐标上。为了充分捕捉地图信息,作者构建了四种类型的元素,包括车道中心线、车道分隔线、道路边界和行人横道。
Interaction Scene Graph
在提取的结构化格式驾驶实例中,包含了交通代理和地图元素,关键挑战在于网络如何感知异质交互。这些交互包括动态代理之间的驾驶游戏,或是简单的跟随中心线启发式方法,对于预测周围环境未来的变化和进行驾驶决策都是重要的。
为此,作者构建了交互场景图(Interaction Scene Graph)来捕捉这些异质交互。作为一个迭代过程,交互场景图在三个步骤中发挥作用。首先,所有动态和静态元素都被公式化为图节点表示,包括显式几何和隐式特征。其次,基于强烈的几何先验,构建交互场景图。第三,根据已建立的图边缘更新图节点特征,这些特征进一步被处理以更新几何。详细的公式化说明将在以下段落中展开。
图节点表示。交互场景图是建立在交通代理和地图元素的结构化节点之上的。每个图节点被设计为既包含显式的几何信息也包含隐式的特征。需要注意的是,将自车视为参与图基交互的一个交通代理。
Planning Head
规划头结构。规划头的输入信息包括高级驾驶指令、自我状态特征以及从交互场景图处理得到的自我 Query 。这三组特征被连接起来,并通过一个简单的多层感知器(MLP)进行处理,以得到最终的规划预测。
自我状态特征。自我状态信息主要包括速度、加速度和角速度,这对于开环规划性能至关重要。因此,作者使用一个小型的多层感知机(MLP)将自我状态信息以及自我车辆的历史轨迹编码为自我状态特征。
基于占用的后优化。为了进一步避免与其他道路用户的碰撞并确保驾驶安全,作者遵循UniAD的实现方法来训练一个占用头(occupancy head),其预测可用于对预测的规划轨迹进行后优化。
Training
4 Experiments
作者的实验是在具有挑战性的nuScenes数据集上进行的,该数据集包含1000个复杂的驾驶场景,每个场景大约持续20秒。在数据收集过程中,使用了六个具有不同视角的摄像头来捕捉驾驶场景,从而在水平方向上覆盖了360的视场。对于标注,总共提供了超过140万个3D边界框,涵盖23个类别,关键帧的标注频率为2赫兹。
Implementation Details
Metrics
作者遵循先前最先进的方法UniAD的相同评估协议。特别是在跟踪任务中,引入了AMOTA和AMOTP来评估感知性能。对于运动预测任务,作者采用广泛使用的指标来评估GraphAD的能力,包括端到端预测准确性(EPA)、平均位移误差(ADE)、最终位移误差(FDE)和漏检率(MR)。在规划评估中,通常使用位移误差(DE,L2距离)和碰撞率(CR)来评估规划性能,其中碰撞率被视为主要指标。具体来说,作者遵循UniAD在每个规划步骤计算DE和CR值。
基准测试结果
规划结果。如 表1 所示,GraphAD 在 nuScenes 验证集上的开环规划中达到了最先进的表现。与排名第二的方法,即 Agent-Driver相比,GraphAD 将碰撞率降低了 42.9%,这证明了所提出的交互场景图在从相关交通代理和地图元素聚合信息方面的有效性。
预测结果。在nuScenes验证集上进行的运动预测的基准结果总结在表2中。GraphAD以0.68的最小平均距离误差(minADE)和0.514的期望路径准确率(EPA)取得了最佳性能,明显优于之前最佳的方法UniAD。在运动预测上性能的改进验证了交互场景图(Interaction Scene Graph)在模拟来自其他驾驶实例的地图引导和意图交互方面的增强能力。
感知结果。在表3中,GraphAD相较于现有技术水平的方法(包括UniAD和MUTR3D)实现了显著的提升。得益于可靠的感知结果,下游任务将更有可能获得准确的运动预测和规划结果。
Ablation Studies
为了证明所提出的交互场景图的有效性,作者在nuScenes验证集上进行了广泛的消融研究。
Effectiveness of Interaction Scene Graph.
在表4中,作者消融了动态场景图(DSG)和静态场景图(SSG)对交通代理运动预测的影响。作者可以观察到,这两种类型的场景图都对性能提升做出了重要贡献。由于DSG能够建模动态代理之间的驾驶游戏,而SSG能够提供明确的地图约束,基于图的交互作用可以提供有价值且互补的信息,用于轨迹预测。
为了进行全面的评估,作者还实现了一个基于注意力的变体,其中代理间的交互以及代理与地图的交互完全由普通的注意力机制实现。然而,作者发现,没有明确几何先验的基于注意力的变体,无法提取有效信息,并产生较差的性能。
图节点距离的设计选择。在表5中,作者分析了计算图中节点间距离的不同方法的影响。“特征距离”和“当前距离”分别指特征空间中的距离和当前位置之间的距离,而“轨迹距离”是指潜在轨迹之间的距离。由于距离函数直接决定了哪些邻居节点将参与特征聚合,因此其设计选择至关重要。
从实验结果中,作者可以发现所提出的轨迹距离明显优于当前距离,因为它显式地考虑了未来的潜在交互,这对于准确估计轨迹至关重要。另一方面,轨迹上的几何距离也优于特征距离。这可能是因为图节点(包括交通代理和地图元素)具有不同来源和模式,具有异质特征。
图特征聚合方法的设计选择。在表6中,作者比较了不同的方法来聚合邻居节点特征以更新顶点。如表格观察所示,基于MLP的聚合方法比基于注意力的方法表现得更好。此外,最大池化操作优于平均池化方法,达到了0.665m的最小平均距离误差(minADE)、0.989m的最小最终距离误差(minFDE)以及0.160的误分类率(MR)。因此,作者选择带有最大池化的MLP作为默认设置。
规划头的设计选择。在表7中,作者探讨了不同组件对规划任务的影响,其中“Graph”指的是提出的交互场景图,“Ego-states”表示利用自车状态,“Post-optim.”代表使用预测占用率的优化策略。
以下是可以观察到的影响:
- 结合自车状态特征可以在规划性能上带来显著提升,因为像速度和加速度这样的信息使得恢复自车轨迹变得更加容易。
- 无论是否利用自车状态特征,提出的交互场景图方法一致地提高了规划性能。
- 使用预测占用率的后期优化在确保驾驶安全方面扮演着重要角色,通过明确的调整避免潜在的碰撞。
以上所有组件的结合,使得GraphAD即使输入尺寸较小且图像 Backbone 网络简化,也能达到惊人的0.15%的碰撞率。
定性结果
为了更深入地理解GraphAD并进行定性评估,作者可视化了GraphAD的中间交互过程和最终结果。如图3所示,关注的智能体有6个针对不同潜在意图预测的未来轨迹。每条轨迹的动态场景图自动将智能体与其他附近的交通智能体相连接。借助这些明确的几何先验,智能体可以专注于与重要智能体的交互。
从图4中的案例可以看出,GraphAD使自主车辆能够在复杂的场景中,如道路交叉口和对向相遇情况下,安全地进行机动。这些规划能力来源于准确的运动预测以及基于所提图设计的必要的智能体间交互。
5 Conclusion
在本文中,作者提出了一种新的端到端自动驾驶算法GraphAD,它采用了一种精心设计的图来描述复杂交通场景中的异质相互作用。该图明确编码了关键的驾驶元素及其关系,使作者能够将强大的先验知识引入算法中。
因此,GraphAD在预测和规划任务中都达到了最先进的表现。利用图来编码不同交通实例(如交通信号灯和路线决策)之间更复杂交互的方式,需要进一步探索。
参考
[1].GraphAD: Interaction Scene Graph for End-to-end Autonomous Driving.
作者:AI驾驶员
来源:智驾实验室
推荐阅读
欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式客栈专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。