首发：AI公园公众号
作者：Sik-Ho Tsang
编译：ronghuaiyang

导读

使用每个类的有效样本数量来重新为每个类的Loss分配权重，效果优于RetinaNet中的Focal Loss。

本文综述了康奈尔大学、康奈尔科技、谷歌Brain和Alphabet公司的基于有效样本数的类平衡损失(CB损失)。在本文中，设计了一种重新加权的方案，利用每个类的有效样本数来重新平衡损失，称为类别平衡损失。

1. 类别平衡问题

两个类，分别来自长尾数据集的头部和尾部(iNaturalist 2017 dataset)

假设有像上面那样的不平衡的类。head：对于索引小的类，这些类有较多的样本。Tail：对于大索引的类，这些类的样本数量较少。黑色实线：直接在这些样本上训练的模型偏向于优势类。红色虚线：通过反向类频率来重新加权损失可能会在具有高类不平衡的真实数据上产生较差的性能。蓝虚线：设计了一个类平衡项，通过反向有效样本数来重新加权损失。

2. 有效样本数量

2.1. 定义

数据间信息重叠，左:特征空间S，中:1个样本数据的单位体积，右:数据间信息重叠

直觉上，数据越多越好。但是，由于数据之间存在信息重叠，随着样本数量的增加，模型从数据中提取的边际效益会减少

左：给定一个类，将该类的特征空间中所有可能数据的集合表示为S。假设_S_的体积为_N_且_N_≥1。中：S子集中的每个样本的单位体积为1，可能与其他样本重叠。Right：从_S_中随机抽取每个子集，覆盖整个_S_集合。采样的数据越多，_S_的覆盖率就越好。期望的采样数据总量随着样本数量的增加而增加，以_N_为界。

因此，将有效样本数定义为样本的期望体积。

这个想法是通过使用一个类的更多数据点来捕捉边际效益的递减。由于现实世界数据之间的内在相似性，随着样本数量的增加，新添加的样本极有可能是现有样本的近重复。另外，cnn是用大量的数据增广来训练的，所有的增广实例也被认为与原始实例相同。对于一个类，N可以看作是唯一原型的数量。

2.2. 数学公式

新的采样数据与以前的采样数据重叠或不重叠

3. 类别平衡 Loss (CB Loss)

类别平衡（CB）loss可以写成：

其中，_ny_是类别y的ground-truth的数量。_β_ = 0对应没有重新加权， β → 1对应于用反向频率进行加权。

提出的有效样本数的新概念使我们能够使用一个超参数β来平滑地调整无重权和反向类频率重权之间的类平衡项。

所提出的类平衡项是模型不可知的和损失不可知的，因为它独立于损失函数_L_和预测类概率_p_的选择。

3.1. 类别平衡的 Softmax 交叉熵损失

3.2. 类别平衡的 Sigmoid 交叉熵损失

3.3. 类别平衡 Focal Loss

4. 实验结果

===========

4.1. 数据集

4.2. CIFAR 数据集

在CIFAR-10上，根据_β_ = 0.9999重新加权后，有效样本数与样本数接近。这意味着CIFAR-10的最佳重权策略与逆类频率重权类似。在CIFAR-100上，使用较大的_β_的性能较差，这表明用逆类频率重新加权不是一个明智的选择，需要一个更小的β，具有更平滑的跨类权重。例如，一个特定鸟类物种的独特原型数量应该小于一个一般鸟类类的独特原型数量。由于CIFAR-100中的类比CIFAR-10更细粒度，因此CIFAR-100的N比CIFAR-10小。