Safety-Adapted Loss | 让行人目标检测器也具有安全意识，行人不被漏检误检 - 极术社区

在像自动驾驶（AD）这样的安全关键领域，目标检测器的错误可能会危及行人和其他脆弱的道路使用者（VRU）。由于常见的评估指标不能充分指示安全，近期的研究采用了方法来识别安全关键的VRU，并将风险回注到目标检测器上。然而，这些方法没有考虑深度神经网络（DNN）训练过程中的安全因素。
因此，最先进的DNN对所有的漏检均等地进行惩罚，而不管它们的关键性如何。随后，为了减少关键故障案例的发生，即错误的负例，可能需要一个安全意识训练策略来提高对关键行人的检测性能。在本文中，作者提出了一种新颖的Safety-Adapted Loss方法，该方法在训练过程中利用估计的每个行人的关键性得分。作者从运动域中的可达集基于碰撞时间（）指标结合距离信息来考虑最坏情况的威胁，并量化关键性。
作者使用RetinaNet和FCOS在nuScenes数据集上的评估结果表明，用作者的Safety-Adapted Loss函数训练模型，可以在不牺牲一般情况（即安全关键区域外的行人）性能的前提下，减少对关键行人的漏检。

I Introduction

当自主移动机器人或自动化车辆（AV）在动态且高度复杂的环境中运行时，确保对弱势道路使用者（VRU）的正确和可靠检测变得至关重要。在这方面，由于基于相机的感知技术取得了巨大成功，当前最先进的目标检测器的训练和评估方法已被广泛研究作为一项使能技术。与诸如停车场内的停车位占用检测或为等待时间分析而进行的人数统计等非安全关键的计算机视觉应用（CV）不同，在自动驾驶（AD）场景中检测失败（所谓的“假阴性”）可能导致危险的结果。因此，确保在分类和定位性能方面具有准确的感知能力，以避免与VRU发生碰撞，这是至关重要的。

让作者考虑一个应用于拥挤城市场景的行人检测器。在这种情况下，自动驾驶车辆（AVs）安全区域内的误检会带来即将发生的碰撞风险（例如，图1中用红色边框突出显示的过街场景），而远处的误检尚未影响驾驶任务（橙色边框）。随后，促进安全驾驶行为需要（i）识别城市场景中所有与任务相关的行人，以及（ii）保证对处于风险中的行人进行完美检测。因此，为了解决汇总的、纯粹基于视觉的指标的不明确性，Wolf等人，Bansal等人，以及Lyssenko等人的最新研究将关键性概念纳入了所使用目标检测器的评估中。例如，在作者的研究案例中，作者采用了基于可达性集合的碰撞时间（）来确定与AV可能发生碰撞的最早时间点。在这里，作者的评估在一个确定的大量序列中遇到了多个安全关键的误检。

因此，问题产生了：作者如何修正潜在的安全关键的行人误检？

作为作者的主要贡献，作者提出了一种新颖的、经过安全优化的损失函数，如图1所示，在训练过程中有效地利用了单个行人的关键性。因此，作者(i)从运动域中推导出每个行人的关键性得分， (ii)作者将关键性融入到Focal Loss中，以动态调整与关键性相关的损失贡献。直观地说，通过在安全适应性损失中考虑关键性，作者放大了危险行人的损失贡献，从而让深度神经网络（DNN）专注于安全关键的情况。作者利用nuScenes数据集和两种最先进的目标检测器（RetinaNet 和FCOS）对作者的安全适应性损失进行了实验评估。作者的结果显示，作者在保持稳健的整体检测性能的同时，成功减少了安全关键区域内行人的误检。

本文的其余部分结构如下。首先，在第二节中作者回顾了相关工作，然后在第三节介绍作者构建安全适应损失函数的方法。此后，在第四节中作者提供了实验设置，第五节则是实验结果。

II Related Work

Task-Awareness in Automated Driving

通常使用的评估指标如交并比（IoU）、平均平均精度（mAP）或召回率非常普遍，因为它们并不特定于某个特定任务，并且允许在不同基准之间进行有意义的比较。然而，由于这些指标与任务无关的特性，无法充分评估感知功能在部署到安全关键的自动驾驶领域时是否能够保证足够的检测性能。

沃尔夫等人[9]，班萨尔等人[10]，以及安德烈亚等人[15]的方法扩展了基于纯距离的考量。他们认为基于距离的、潜在的碰撞风险没有考虑到交互的动态性和关键性。因此，作者提出了一个即将发生的碰撞风险的定义，该定义采用了AD领域中的威胁度量，如TTC（时间到碰撞），以在聚合评估措施中计入一个安全指标。然而，作者依赖于简化的运动模型，该模型假设在一个时间范围内恒定的速度向量和航向。

考虑到在一段时间内智能体可能达到的所有可能的最坏状态，Topan et al. 和 Lyssenko et al. [11] 的近期工作通过源自可达性分析的动态感知区域来识别与任务相关的智能体。因此，在[18]中的研究利用了哈密顿-雅可比（HJ）可达性来构建自动驾驶车辆（AV）周围的可靠安全区域，而Lyssenko et al. [11] 假设AV受车道约束，并利用基于微分包含的运动模型来进行AV可达集的图约束计算。为了考虑未来运动的不确定性和由此产生的最坏情况下的临界性评估，作者采用Lyssenko et al. [11] 提出的框架来推导行人与AV之间可能危险交互的。

Significance of Loss Functions

作为目标检测任务的核心之一，损失函数的重要性不言而喻。因此，近期的研究进展已经从通用损失函数（如二元交叉熵（BCE））转向了如Focal Loss这样的新选择，以降低对分类良好的样本的重要性。

李等人[21]的进一步工作通过使用与类别相关的动态调节因子来扩展焦损，以增加稀有类别的影响。这也激励了作者的工作，在焦损中加入了一个关键性组件，以放大处于风险中的单个行人的损失贡献。

为了强调关于关键目标的检测能力，程等人[6]发布了一个关于在网络构建过程中安全规范和缓解策略的概念性 Proposal 。据作者所知，第一个实施的安全适应性回归损失是由廖等人[22]提出的。作者将Smooth-与一个安全损失组件相加，以减小关键目标预测与 GT 之间的差异。因此，这项工作提出了一条源自鸟瞰视图（BEV）平面的安全准则，该准则量化了最近的顶点与其距离之间的不匹配。然而，出于安全考虑，作者主要关注误检（即，假阴性）的缓解，因此，作者提出了一个安全适应性的Focal Loss的变体。

III Methodology

在本节中，作者提出了新颖的适应性安全Focal Loss。为了减轻危险误检的发生，作者基于包含最坏情况碰撞风险的动态感知行人个体临界度构建了作者的损失函数。在第三节-A中，作者基于可达性分析中的引入了碰撞风险，并在第三节-B中展示了组合的行人个体临界度。作者在第三节-C中说明了作者适应性安全损失的设计动机。

Collision-Risk from Reachable Sets

如图2所示，要充分评估行人与自动驾驶车辆（AV）之间交互的临界性，需要预测在当前状态下，考虑到AV和行人的潜在运动模型，情况在未来可能如何发展。

Per-Pedestrian Criticality

Safety-adapted Focal Loss

Focal Loss（参见方程7）通常用于目标检测器中，以减轻前景和背景之间的不平衡。因此，该损失的关键思想是重新平衡简单样本的损失贡献，即降低它们在训练过程中的重要性。如[13]中所述，Focal Loss FL

受到李等人[21]的启发，作者希望将关键性注入到损失中，但是要在实例层面进行，即对于单个行人来说，由于安全考虑，在某一类别内应该能够区分任务相关和任务无关的目标。

在作者的工作中，作者利用第III-B节中的关键性来放大关键行人对损失贡献的影响，对于的情况，在作者的安全适应中。

IV Experiment Setup

在以下内容中，作者描述了评估作者新颖的安全适应损失设置的方案。在第四节A和第四节B中，作者分别介绍了所使用的数据集和数据清洗过程。在第四节C中，作者详细阐述了用于行人检测器的训练协议。

Datasets from nuTonomy

在作者的实验中，作者采用了nuTonomy提供的两个数据集：nuImages和nuScenes。作者使用带有精确边界框标注的2D nuImages数据集对行人目标检测器的初始预训练进行了处理。

由于临界性估计需要领域信息，作者需要一个包含行人位置和速度信息的3D数据集，以及用于自动驾驶车辆（AV）计算的地图信息，分别用于计算和距离信息。因此，作者使用nuScenes数据集，因为它为一个AV的整个传感器套件提供了1000个场景的数据。作者按照 nuScenes-devkit 中定义的分割进行训练和评估。

请注意，在作者的实验中，作者只使用了前置摄像头的图像以及与场景 Token 匹配的场景对应的激光雷达点云。然而，尽管数据集标注丰富，nuScenes 数据集仅包含3D边界框。因此，作者将长方体的坐标投影到相机像素网格上，利用辅助函数 get_2D_boxes() 来获取2D行人标注。

Data Curation on nuScenes

nuScenes的标注策略会丢弃任何没有激光雷达和雷达点的目标框，以过滤掉暂时完全被遮挡的物体。然而，如图5所示，仍然存在误报标注的情况。由于get_2D_boxes()函数将长方体投影到所有摄像机的帧中，来自左摄像头和右摄像头的边界框投影可能会出现在相关的前摄像头帧中。

为了减少这类伪迹，作者利用来自运动域的行人位置信息。因此，对于每个投影的框，作者确定其长方体中心的位置是否位于前摄像头AV的物理视野内，即。在缺少对应关系的情况下，作者将长方体与侧面摄像头中的一个关联起来，并在训练和评估阶段丢弃来自前摄像头的相应2D标注。

Training Protocol: Pedestrian Detectors

对于作者的行人检测器，作者使用PyTorch实现了RetinaNet和FCOS，并在nuImages上采用了以下预训练协议。

RetinaNet：在[30]中的实现中，作者采用了ResNet-50作为基础网络结构，使用学习率为的Adam优化器，应用了在损失平台期减少学习率的调度器（耐心值=3），并以批处理大小为16的设置训练了作者的模型200个周期。在nuImages验证集中，作者对行人类别获得了0.31的AP50指标。

FCOS：作者遵循原始论文[31]的实现方法，使用ResNet-50作为 Backbone 网络，以批量大小为16进行42个周期的训练。在训练过程中，作者采用随机梯度下降优化器，初始学习率为。此外，还应用了带有线性 Warm up 的多步学习率衰减。在这里，作者针对行人类别获得了0.48的AP50指标。

安全适应训练：针对第III-C节中两种行人检测器实现的安全适应损失，作者使用在nuImages上进行预训练的相应模型，因为它们在行人类别上表现出合理的性能。在安全适应损失下，作者在nuScenes的训练子集上训练模型，直到验证集上的损失收敛（大约4个迭代周期）。更具体地说，作者利用第III-B节中估计的临界性来动态调整行人类别的调制因子。对于其他类别，如汽车和背景类别，作者将设为0，以保持焦损失的特性。

V Experimental Results

在第五节A部分，作者展示了作者针对RetinaNet和FCOS的新型安全适应型Focal Loss与Focal Loss Baseline 的评估，并探究了它对不同临界性行人检测能力的影响。此外，在第五节B部分，作者将安全适应型损失与行人的检测容易度相关联，并在第五节C部分，作者分析单个行人临界性设计如何影响安全关键性能。

Safety-Adapted Loss Evaluation

作者首先通过定义三个区域（以及相应的行人数量），来开始作者的评估，这些区域包括了关键的（159人）、潜在的临界（1126人）和非关键的行人（3371人），如图6的热力图所示。对于距离的情况，作者还有额外的3025个非关键行人实例，这些在图6中没有可视化。

根据每个行人的和距离，每个单元格在nuScenes验证集中总结了相应的计数。请注意， Heatmap 右下部分不包含任何样本，因为自动驾驶车辆的速率被城市速度限制在了（）以下。因此，速度限制为给定距离下可行的设定了下限。

因此，在给定的速度限制下，可能需要1.7秒的制动时间以避免碰撞。因此，作者定义了安全关键区域C，通过以下两个条件：(i)临界时间到碰撞TTC_crit=1.7秒，(ii)一个关键距离dist_crit=20米，该距离大约包含了所有行人的2.1%。潜在的安全关键区域（PC）由TTC_crit下界限定，距离直至d_crit，该范围内有14.8%的行人，非关键区域（NC）包含了验证集中剩余的行人。鉴于在第三节B中讨论的低速自动驾驶车辆（AV）的盲点（在d_crit以下的高TTC_RSB），作者在评估中明确考虑了潜在关键区域PC，因为AV仍然可能加速到限速，从而将行人推入安全关键区域C。

Ablation Study: Criticality and Learning Difficulty

在这项消融研究中，作者探讨了损失函数的安全适应性在多大程度上与检测的难易程度相关。换句话说，作者希望确保用训练出的模型不仅能检测到“简单”但关键的行人，例如，在直接邻近区域内且未被遮挡、容易看到的行人。在众多定义中，用于界定检测和样本难度，作者采用了nuScenes数据集的标注可见性作为一个简单的代理指标。

作者对FCOS进行了详细分析，因为它在AP和Recall上分别比RetinaNet高出3.4%和4.4%。图7的条形图显示了不同临界区域内行人的召回值，如图6中的区域和，分别用和对不同行人可见度分区（4个 Level ，难度递减）进行评估，直至40米。如预期，对于所有类别，分布显示出随着可见度更高（更容易的样本）召回率呈上升趋势。条形图还说明，在较高可见度下，潜在关键区域和非关键区域的行人和的召回分数大致相等。

考虑到作者对的定义，作者会预期这样的行为，因为作者设计时，对于较低临界性的行人，当。对于较低可见度（第1和第2个 Level ），除了之外，分布显示作者的安全适应型Focal Loss优于 Baseline 。特别是，对于关键区域，作者在所有可见度下都观察到召回值的增加，这表明作者能够在不同难度的分区中减轻假阴性。

Ablation Study: TTC vs. Distance

在第二次消融研究中，作者评估了组成每个人行横穿临界性的个别组件对性能的影响。因此，在表2中，作者将从第三节-B中解耦距离临界性和碰撞临界性成为一个个别的损失函数 ( 和 ) 并将结果与 Baseline 进行比较。与第五节-A中一样，作者对具有不同临界性的三个区域进行召回评估。

结果显示，针对特定关键性，作者所评估的损失函数表现出不同的趋势。正如作者所见，对于RetinaNet，在几乎所有类别中都优于 Baseline 。它也比纯距离关键性表现出更优越的结果。

总之，尽管作者基于的临界性（如第三节-A所述）有助于识别与动态属性相关的安全关键行人，但作者的消融研究显示，在训练过程中，根据模型的不同，一个简单的临界性度量如距离可以作为一个合理的关联性代理。

VI Conclusion and Future Work

这项工作提出了一种新颖的安全适应型Focal Loss，它利用训练期间每个行人的临界性来减轻关键误检的发生，即假阴性。作者将在安全关键区域定义的和内的新颖损失进行评估，并显示对于RetinaNet-50和FCOS-50，作者分别实现了2.5%和3.2%的召回率提升。此外，作者还证明了这种新颖的损失在安全关键区域外的行人身上保持了稳定的整体性能。这特别是使得安全适应型Focal Loss能用于自动驾驶应用，因为最初的概念提供了有希望的结果。

到目前为止，作者只考虑了减少假阴性的问题，但从安全的角度来看，假阳性也同样值得关注。在未来的工作中，应该包含一种方法来确定错误检测到的行人的关键性。此外，作者计划将安全适应损失扩展到回归任务，以提高对关键行人的检测质量。

参考

[1].A Safety-Adapted Loss for Pedestrian Detection in Automated Driving.

作者：小书童
文章来源：集智书童

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

​Safety-Adapted Loss | 让行人目标检测器也具有安全意识，行人不被漏检误检