Google提出面向长尾分布的logit的调整新方法

1. 论文信息

标题：Long-Tail Learning via Logit Adjustment

作者：Aditya Krishna Menon, Sadeep Jayasumana, Ankit Singh Rawat, Himanshu Jain, Andreas Veit, Sanjiv Kumar (Google Research)

原文链接：https://arxiv.org/abs/2007.07314

代码链接：https://github.com/google-research/google-research/tree/master/logit_adjustment

2. 介绍

在传统的分类和识别任务中，训练数据的分布往往都受到了人工的均衡，即不同类别的样本数量无明显差异，如最有影响力的ImageNet，每种类别的样本数量就保持在1300张左右。

在实际的视觉相关任务中，数据都存在如上图所示的长尾分布，少量类别占据了绝大多少样本，如图中Head部分，大量的类别仅有少量的样本，如图中Tail部分。解决长尾问题的方案一般分为4种：

重采样 (Re-sampling)：采样过程中采样不同的策略，如对tail中的类别样本进行过采样，或者对head类别样本进行欠采样。
重加权 (Re-weighting)：在训练过程中给与每种样本不同的权重，对tail类别loss设置更大的权重，这样有限样本数量。
新的学习策略 (Learning strategy)：有专门为解决少样本问题涉及的学习方法可以借鉴，如：meta-learning、transfer learning。另外，还可以调整训练策略，将训练过程分为两步：第一步不区分head样本和tail样本，对模型正常训练；第二步，设置小的学习率，对第一步的模型使用各种样本平衡的策略进行finetune。

其实就笔者喜欢的风格而言，我对重加权这一方向的工作更为喜欢，因为通过各种统计学上的结论，来设计很好的loss改进来解决长尾/不均衡分布问题，我喜欢这类研究的原因是，他们（大部分）实现简单，往往只需几行代码修改下loss，就可以取得非常有竞争力的结果，因为简单所以很容易运用到一些复杂的任务中。

而从“奥卡姆剃刀”来看，我觉得各种迁移模型的理念虽然非常好，从头部常见类中学习通用知识，然后迁移到尾部少样本类别中，但是往往会需要设计复杂的模块，有增加参数实现过拟合的嫌疑，我认为这其实是把简单问题复杂化。我觉得从统计方面来设计更加优美，因此本文来介绍一篇我非常喜欢的从统计角度出发的工作。这篇论文来自Google Research，他们提供了一种logit的调整方法来应对长尾分布的问题。由于研究风格更偏向 machine learning, 所以论文风格更偏向统计类。

本文首先总结了对于logit的调整方法：