AI学习者 · 2 天前

MGIoU革命 | 统一损失函数高效优化任意凸形状,计算延迟锐减40倍超越KFIoU

image.png

精简阅读版本

本文主要解决了什么问题

1. 优化参数化形状的挑战:当前基于回归的损失(如L1/L2)与IoU缺乏相关性,基于IoU的损失不稳定且仅适用于简单形状。特定任务的优化方法计算密集且难以跨领域泛化。

2. 统一目标函数的需求:现有方法在不同应用中高度碎片化,缺乏一个通用且高效的形状优化目标函数。

3. 非结构化凸形状优化:针对具有不同顶点数或属于不同形状族的非结构化凸形状优化需求。

本文的核心创新是什么

1. 边缘化广义IoU(MGIoU):通过将复杂形状重叠计算简化为对1D GIoU操作的边缘化,提供了一种高效、完全可微分的近似方法,与IoU高度相关。

2. 扩展版本MGIoU+和MGIoU-

  • MGIoU+:支持非结构化凸形状优化,引入凸度正则化器以确保预测形状保持凸性。
  • MGIoU-:用于最小化形状重叠,在碰撞预测等任务中减少预测轨迹之间的碰撞风险。

3. 统一框架:MGIoU及其变体共同统一了跨不同应用的参数化形状优化,满足尺度不变性和度量性质。

结果相较于以前的方法有哪些提升

1. 性能提升

  • 在二维定向目标检测任务中,MGIoU实现了最高的mAP值0.554,显著优于L1、KFIoU、GWD和KLD。
  • 在单目3D 6自由度物体识别任务中,MGIoU在Omni3D数据集上提升了整体AP3D 2.049%。
  • 在四边形目标检测任务中,MGIoU在AP和AR两方面均优于L1和OKS距离损失。
  • 在轨迹预测中的碰撞避免任务中,将平均mAP从0.2823提升至0.2961,并减少了14%的碰撞次数。

2. 计算效率提升

  • MGIoU将损失计算延迟降低了10-40倍,相比现有方法显著提高了计算效率。

3. 鲁棒性和通用性

  • MGIoU及其变体满足度量性质和尺度不变性,确保了作为目标函数的鲁棒性。
  • 提供了一个统一的框架,适用于多种任务(如2D/3D形状对齐、定向目标检测、轨迹预测等),无需对多个独立的损失项进行平衡或微调。

局限性总结

1. 适用范围:MGIoU及其变体目前仅适用于凸参数化形状,对于非凸形状的优化仍需进一步研究。

2. 计算复杂度:尽管MGIoU显著降低了计算开销,但在处理大规模数据集时,其计算效率可能仍受到一定限制。

3. 任务特定调整:虽然MGIoU提供了统一的目标函数,但在某些特定任务中,可能仍需要结合任务特定的先验知识进行微调。

深入阅读版本

导读

优化参数化形状之间的相似性对于众多计算机视觉任务至关重要,其中IoU(IoU)作为标准度量。然而,现有的优化方法存在显著缺陷:基于回归的损失(如L1/L2)与IoU缺乏相关性,基于IoU的损失不稳定且仅限于简单形状,而特定任务的优化方法计算密集且无法跨领域泛化。因此,当前参数化形状目标函数的领域呈现出碎片化状态,每个领域都提出了不同的IoU近似方法。

为解决这一问题,作者通过引入边缘化广义IoU(MGIoU),统一了参数化形状优化目标函数。MGIoU是一种新型损失函数,通过将结构化凸形状投影到其独特的形状法线,计算一维归一化GIoU,从而克服上述挑战。MGIoU提供了一种简单、高效、完全可微分的近似方法,与IoU高度相关。随后,作者将MGIoU扩展为MGIoU+,以支持非结构化凸形状的优化。MGIoU和MGIoU+共同统一了跨不同应用的参数化形状优化。

在标准基准测试上的实验表明,MGIoU和MGIoU+始终优于现有损失,同时将损失计算延迟降低了10-40倍。此外,MGIoU和MGIoU+满足度量性质和尺度不变性,确保了作为目标函数的鲁棒性。作者进一步提出了MGIoU-,用于在碰撞预测等任务中最小化重叠。

代码: https://ldtho.github.io/MGIoU/

1. 引言

参数化形状优化是计算机视觉、机器人和图形学中的核心问题,其应用范围涵盖2D/3D目标检测[4,25,37,38]、6D姿态估计[5,15]、形状配准以及轨迹预测[29,30,33]。其核心目标是通过优化使预测形状与真实形状之间的相似度最大化,通常采用IoU(IoU)进行量化。IoU衡量两个参数化形状相对于其总面积或体积的重叠程度,提供了一种标准化且尺度不变的度量标准,被广泛应用于形状相似性评估。

尽管IoU(或其改进版本广义IoU(GIoU)[27])很受欢迎,但直接针对任意凸形状优化IoU/GIoU仍存在显著挑战。对于许多凸形状,例如两个3D椭球,解析计算IoU/GIoU并不简单。即使对于旋转矩形、2D多边形或3D立方体等更简单的形状[23],解析计算也是可行的,但在基于梯度的优化中直接使用IoU/GIoU作为目标函数仍然具有挑战性且计算成本高昂。此外,某些形状参数,如旋转角度,会导致梯度景观不稳定,在使用IoU/GIoU损失时使优化过程不稳定。因此,除了少数情况——例如轴对齐边界框[27]或具有1个旋转自由度的3D边界框[8, 43]——基于IoU/GIoU的优化尚未被广泛用于通用形状优化任务。

因此,参数化形状优化的目标函数在不同应用领域中高度碎片化。不同的应用要么:(i) 依赖经实证证明有效的基本损失,如简单的参数化回归损失(例如L范数)、OKs [19] 或用于形状顶点的Chamfer距离 [21],要么 (ii) 采用IoU/GIoU的近似方法,如用于旋转框的高斯模型 [36, 37, 39],或基于顶点的四边形方法 [4, 12, 16, 18]。然而,这些方法通常与真实的IoU/GIoU缺乏直接关联,并且在某些情况下,它们可能违反重要性质,如尺度不变性或度量一致性。此外,许多这类方法需要大量的任务特定调优 [37, 38],最终导致形状对齐不佳或过度拟合特定数据集。因此,目前尚无统一的目标函数能够在不同应用和形状参数化中有效工作,同时保持与标准基于IoU的指标的强关联性。

在这项工作中,作者引入了边缘化广义IoU(MGIoU),这是一种专为灵活且稳定地优化任意维数中的任意凸参数化形状而设计的几何损失函数。MGIoU将复杂的形状重叠计算简化为对1D GIoU操作的边缘化,通过将形状投影到其相关的法线(例如,二维中的边缘法线、三维中的面法线,或椭圆/椭球体的半轴)。这些投影允许进行可微分的、鲁棒的、稳定的重叠评估,即使形状在空间中物理上不重叠也是如此。

MGIoU将形状优化统一为一个单一的连贯损失项,直接应用于形状法线,从而实现形状顶点和参数(例如位置、大小和方向)的整体调整,无需对多个独立的损失项进行平衡或微调。其简洁性使其能够无缝集成到现有的优化流程中,成为二维定向目标检测、三维形状估计和多边形形状拟合等多样化应用的即插即用替代方案。此外,MGIoU的数学构建确保其符合基本的尺度不变性和度量特性,进一步强化了其作为可靠度量指标的理论严谨性。

作者提出了该目标函数的三个变体,使MGIoU适用于广泛任务。主要版本MGIoU旨在优化结构化凸形状,其中源形状和目标形状共享相同的参数域,例如两者均为矩形、椭圆、立方体等(见图1 (C, D))。

图片

image.png

作者的主要贡献可以总结如下:

  • 作者提出了MGIoU,一种用于任意维度任意凸参数化形状的灵活且稳定的几何损失函数。MGIoU通过将形状投影到其相关法线上,将复杂的形状重叠计算简化为高效的1D GIoU操作的边缘化。它将位置、维度和方向优化统一为一个可微分的目标,消除了对特定任务损失平衡或调优的需求。
  • 作者将MGIoU扩展为MGIoU++,该模型处理具有不同参数结构的非结构化凸形状之间的优化,以及MGIoU,一种互补损失函数,专为在碰撞避免轨迹预测等应用中减少形状重叠而设计。
  • 作者在多种任务上进行了广泛的实验,包括2D/3D形状对齐、定向目标检测和轨迹预测。作者的结果表明,与现有的形状优化损失相比,MGIoU及其变体在提升性能的同时显著降低了计算开销。

2. 相关工作

形状优化中损失函数的选择已显著发展,以应对基础视觉和机器人任务中多样化的需求,包括各种目标检测任务(例如二维、三维和四边形目标检测)、六自由度目标姿态估计、轨迹预测中的状态回归等。本节回顾了这些领域损失函数的发展,并指出了它们的局限性,从而引出对统一方法如边际广义IoU(MGIoU)的需求。

二维目标检测中的损失函数。目标检测中的损失函数设计已发展到优化定位精度并与IoU这一标准评估指标保持一致。早期模型[24-26]依赖L1/L2回归损失来最小化预测边界框与真实边界框之间的坐标差异。虽然这些损失在计算上高效,但它们与IoU缺乏直接相关性,往往导致重叠不足[27]。为解决这一问题,基于IoU的损失函数在二维对齐检测中应运而生,其中GIoU引入了基于最紧检测框的可微惩罚来处理非重叠情况,尽管它并未扩展到二维对齐几何之外。后续替代方案如DIoU和CIoU通过引入距离和长宽比项来增强收敛性,但仍然局限于对齐边界框,并需要仔细调整。

对于二维目标检测,这在航拍图像和文本识别中至关重要,调制旋转损失[22]可以缓解角度周期性问题,而KFIoU、高斯Wasserstein距离(GWD)[37]和Kullback-Leibler散度(KLD)[38]将边界框建模为高斯分布以近似IoU。SIoU)[36]进一步针对倾斜的几何形状。然而,这些损失计算密集且专门针对旋转边界框进行定制。

在四边形检测中,该方法被广泛应用于文档分析,例如 Quadbox [13] 采用 L1 损失进行顶点回归,而 Textboxes  [16] 通过矩形距离解决顶点排序问题。QRN [12] 则根据极角对顶点进行排序。尽管这些方法在特定任务中表现出效,但它们通常较为复杂、任务特定,且与 IoU 没有直接关联,需要进一步优化。

三维物体识别与六自由度物体姿态估计中的损失函数。在三维物体识别中,对于自动驾驶等应用至关重要,边界框由位置、尺寸和方向定义,因此需要考虑空间和旋转成分的损失函数。常见的三维物体识别方法通常假设旋转只有一自由度(通常是偏航),但最近由于虚拟现实[2, 3, 5, 28]和六自由度物体姿态估计[7, 9]的需求,注意力转向了三自由度(偏航、俯仰、滚转)。许多方法结合了边界框参数的回归损失与三维几何的适应性调整。例如,SO3损失[32]直接作用于旋转流形,以确保正确处理三维方向,而Chamfer距离[21]测量双向点集距离,常用于形状配准,并适用于三维检测。然而,SO3和Chamfer距离都与IoU没有直接相关性,这限制了它们在优化三维空间中边界框方向和重叠的有效性。这突出了对统一损失函数的需求,该函数需联合优化空间和旋转对齐,同时保持IoU一致性。

image.png

3. 方法论

image.png
image.png
image.png
image.png

4. 实验设置

image.png

二维定向目标检测:作者使用了DOTAv1.5 [35]数据集(单尺度分割)。 Baseline 模型为RetinaNet [17](与[37-39]相似的 Baseline ),使用SGD进行训练,训练12个epoch,采用步进学习率调度器(第8和第11个epoch),以及500次迭代的线性预热。

单目3D 6自由度物体识别:作者选择了Omni3D [5] 大规模数据集,该数据集包括SUNRGBD [31]、Hypersim [28]、ARKitScenes [3]、Objectron [2]、KITTI [10]和nuScenes [6]数据集。这种多样性确保了在室内和室外3D环境中的稳健测试平台。 Baseline 模型是数据集作者提出的CubeRCNN [5],在4090 GPU上训练了5,568,000次迭代。训练遵循Omni3D [5]论文中详细描述的配置,采用SGD优化器和步进学习率调度器。

四边形目标检测:在四边形目标检测任务中,作者选择了ICDAR2017 [11]数据集。ICDAR2017竞赛包括MLT(多语言文本检测)任务,涵盖九种语言的文本以及各种方向。由于文本区域形状不规则,通常表示为四边形,该数据集特别适合四边形目标检测。选定的 Baseline 模型为YOLO-NAS [1],因其性能良好且易于实现,作者使用AdamW和余弦学习率调度器进行40个epoch的训练。

image.png

5. 与损失函数的比较和讨论

为评估边缘化广义IoU(MGIoU)损失的有效性,作者在第4节中详细描述的四个任务上进行了实验。下面,作者分别呈现每个任务的结果,包括性能指标及其意义讨论,并突出MGIoU相较于其他损失函数的优越性能。

5.1. 二维定向目标检测

在DOTAv1.5数据集上进行2D定向目标检测时,作者使用RetinaNet[17]作为 Baseline 模型(在mmrotate库[44]中实现),比较了MGIoU与L1、KFIoU[39]、GWD[37]和KLD[38]损失函数的性能。性能指标采用单块4090 GPU上的平均精度均值(mAP)和延迟(ms)进行衡量。表2显示,MGIoU实现了最高的mAP值0.554,其损失计算延迟为0.45 ms,优于L1、KFIoU、GWD和KLD。其损失计算延迟显著低于KFIoU(慢51.1倍)、GWD(慢16.9倍)和KLD(慢17.3倍),仅略高于L1。这种高精度与低延迟的平衡使得MGIoU非常适合更快、更准确的训练。

图片

5.2. 单目3D 6自由度物体识别

image.png
image.png

5.3. 四边形目标检测

在ICDAR2017数据集的四边形目标检测任务中,作者使用YOLO-NAS [1] 作为基准模型。性能评估采用IoU阈值为0.5的平均精度(AP)和平均召回率(AR)。表4显示,MGIoU在AP和AR两方面均优于L1和OKS距离损失,这表明MGIoU在场景文本检测中处理不规则形状物体(如四边形)方面的有效性。

图片

5.4. 轨迹预测中的碰撞避免

在Waymo数据集上的轨迹预测碰撞避免任务中,作者未改变模型架构,将其引入。作者评估了其对碰撞减少和预测指标(mAP、minADE、minFDE和MissRate)的影响。表3表明,将平均mAP从0.2823提升至0.2961,且所有类别均有所改善。此外,碰撞次数减少了14%(从7,493降至6,443),展现了在提升自动驾驶预测质量和安全性方面的能力。通过,模型增强了其对物理世界和安全约束的感知,实现了道路参与者之间更安全的交互。如图4所示,模型学会了礼让行人、安全并入高速公路、在交叉路口等待其他车辆以及更有效地跟随其他车辆。例如,在基准模型(不含)中显示红色碰撞区域的面板,在版本中变为无碰撞预测,反映了碰撞次数减少了14%。这些改进源于对预测轨迹间重叠的惩罚能力,促使模型在保持高预测精度的同时生成避免碰撞的路径。

图片

6. 结论

本文针对计算机视觉中优化参数化形状的关键挑战,引入了MGIoU这一新型损失函数,该函数统一并增强了跨不同应用的形状优化。大量实验表明,MGIoU及其变体在多个领域始终优于强大的目标函数,为统一凸参数化形状优化提供了一种稳健且通用的解决方案。

参考

[1]. Marginalized Generalized IoU (MGIoU): A Unified Objective Function for Optimizing Any Convex Parametric Shapes

END

作者:小书童
来源:集智书童

推荐阅读

欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18972
内容数
1481
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息