YOLO涨点Trick | 超越CIOU/SIOU，Wise-IOU让Yolov7再涨1.5个点！ - 极术社区

点击下方卡片，关注「集智书童」公众号

边界框回归（BBR）的损失函数对于目标检测至关重要。它的良好定义将为模型带来显著的性能改进。大多数现有的工作假设训练数据中的样本是高质量的，并侧重于增强BBR损失的拟合能力。如果盲目地加强低质量样本的BBR，这将危及本地化性能。
Focal EIoU v1被提出来解决这个问题，但由于其静态聚焦机制（FM），非单调FM的潜力没有被充分利用。基于这一思想，作者提出了一种基于IoU的损失，该损失具有动态非单调FM，名为Wise IoU（WIoU）。当WIoU应用于最先进的实时检测器YOLOv7时，MS-COCO数据集上的AP75从53.03%提高到54.50%。

1、简介

YOLO系列的实时检测器已经得到大多数研究人员的认可，并自其问世以来应用于许多场景。例如YOLOv1，它构建了一个由BBR损失、分类损失和目标损失加权的损失函数。直到现在，这种构造仍然是目标检测任务最有效的损失函数范式，其中BBR损失直接决定了模型的定位性能。为了进一步提高模型的本地化性能，设计良好的BBR损失至关重要。

1.3、Focusing机制

主要贡献总结如下：

提出了BBR的基于注意力的损失WIoU v1，它在仿真实验中实现了比最先进的SIoU更低的回归误差。
设计了具有单调FM的WIoU v2和具有动态非单调FM的WIoU v3。利用动态非单调FM的明智的梯度增益分配策略，WIoU v3获得了优越的性能。
对低质量的样本的影响进行了一系列详细的研究，证明了动态非单调调频的有效性和效率。

2、相关工作

2.1、回归损失函数

为了补偿l2-范数损失的尺度敏感性，YOLOv1通过对边界框的大小进行平方根变换来削弱大边界框的影响。YOLOv3提议构建一个惩罚项来降低大目标框的竞争力。然而，l2-范数损失忽略了边界框属性之间的相关性，使得这种类型的BBR损失的效果较差。

为了解决IoU损失的梯度消失问题，GIoU使用了由最小的封闭框构造的惩罚项。DIoU使用由距离度量构造的惩罚项，而CIoU是通过添加基于DIoU的高宽比度量得到的。而SIoU构建了具有角度惩罚、距离惩罚和形状惩罚的IOU损失，具有更快的收敛速度和更好的性能。

2.2、带有FM的损失函数

交叉熵损失在二值分类任务中被广泛地应用。然而，这个损失函数的一个显著特性是，即使是简单的样本也会产生很大的损失值，与困难的样本竞争。林等人提出了单调FM的focal loss，有效地降低了简单样本的竞争力。

在Focal-EIoU中，Zifan等人提出了非单调调频的 Focal-EIoU v1和单调调频的 Focal-EIoU v1。在实验中，单调调频比非单调调频是一个更好的选择。

Focal-EIoU v1的FM是静态的，它规定了anchor box的质量划分标准。当anchor box的IoU损失等于界值时，得到了anchor box的最高梯度增益。由于没有注意到anchor box的质量评价反映在相互比较中，因此它没有充分利用非单调调频的潜力。

3、本文方法

3.1 模拟实验

r = 0.5，anchor box分布在目标框覆盖区域内外（图4a），对应于BBR中的所有情况。
r = 0.1，anchor box在目标框的覆盖范围内生成（图4b），对应于BBR中的主要情况。

作者还将损失值定义为整体回归情况，并使用梯度下降算法对其进行优化，学习率为0.01。

3.2 梯度消失问题的求解

1、DIoU

2、CIoU

3、SIoU

Zhora证明了中心对准anchor box具有更快的收敛速度，并根据角度成本、距离成本和形状成本构造了SIoU。

角度成本描述了中心点连接（图1）与x-y轴之间的最小角度：

当中心点在x轴或y轴上对齐时，Λ = 0。当中心点连接到x轴45°时，Λ = 1。这一惩罚可以引导anchor box移动到目标框的最近的轴上，减少了BBR的总自由度数。

距离惩罚描述了中心点之间的距离，其惩罚代价与角度代价呈正相关。距离成本的定义为：

形状成本描述了边界框之间的大小差异。当边界框的大小不一致时，请使用Ω ≠ 0，并将其定义为：

与相似，它们都包括距离成本和形状成本：

由于对距离度量的惩罚随着形状成本的增加而增加，因此由SIoU训练的模型具有更快的收敛速度和更低的回归误差。

3.3、本文方法

由于训练数据不可避免地包含低质量示例，几何因素（如距离和纵横比）将加重对低质量示例的惩罚，从而降低模型的泛化性能。当anchor box与目标盒很好地重合时，一个好的损失函数应该会削弱几何因素的惩罚，而较少的训练干预将使模型获得更好的泛化能力。基于此，我们构建了距离注意力（方程17），并获得了具有两层注意力机制的WIoU v1：