爱笑的小姐姐 · 2023年08月10日

中科院一区顶刊 | BACL: 解决长尾目标检测的统一框架,显著提升 16.1 AP!

导读

TL;DR: 本文针对长尾物体检测问题提出了一种新颖的解决方案,即 BACL 框架。通过前景分类平衡损失和动态特征幻觉模块,BACL 能够有效地解决长尾分布下的分类偏见问题,并显著提高了检测性能。这一工作对于现实世界中长尾分布的物体检测具有实际意义和应用前景。

问题陈述:众所周知,传统的检测器在处理长尾数据(类别不均衡)时表现下降,因为它们倾向于大多数头部类别。本文提出,这一学习偏见源于两个因素:

  1. 前景类别分布的不平衡竞争
  2. 尾部类别样本多样性的缺乏

image.png
LVIS contains visually similar categories distributed in both the head and long tail (bicycle vs. tricycle).

从图中可以看出,由于其区分能力有限,传统方法经常将三轮车错误分类为自行车。而本文提出的 BACL 专注于这些混杂类别,自适应地提升它们对损失公式的贡献。同时,BACL 能够综合多种特征来增强尾部类别的表示,从而帮助检测器在所有类别上实现更平衡的状态。

解决方案:为此,作者引入了一个统一框架Balanced Classification, BACL,引入了一对长期和短期指标来实时监控分类器的学习状态,通过动态的方法来改善类别分布的差异和样本多样性,从而进行偏见校准。具体来说,提出了两个组件:

  1. 前景分类平衡损失Foreground Classification Balance Loss, FCBL通过成对的类别感知边距和自动调整的权重项来减轻头部类别的支配地位,关注难以区分的类别
  2. 动态特征幻觉模块Dynamic Feature Hallucination module, FHM通过合成幻觉样本来扩展尾部类别在特征空间中的表示,从而引入额外的数据变化,以扩展尾部类别的特征空间表示。

最终,BACL通过这两个组件的协同作用消除了分类偏见,纠正了由类别分布差异引起的不平等,并增强了样本多样性。

实验结果BACL在具有挑战性的LVIS基准测试上实现了新的最先进水平,超过了标准的Faster R-CNN,整体AP提高了5.8%,尾部类别的 AP 提高了 16.1% 以及常见类别提升 7.0% AP。

方法

本文提出的方法部分是针对长尾目标检测问题的解决方案。长尾分布是指少数类别占据了大部分样本,而大部分类别只占据了少数样本。这种分布对于深度学习模型的训练是一个巨大挑战,特别是对于目标检测任务中的尾部(少数)类别。

image.png

如上所述,本文针对长尾目标检测提出了一个全新的框架。首先,在表示学习阶段,通过一系列创新的技术,如Sigmoid分类器、Copy-Paste增强等,获取了更鲁棒的特征表示。然后,在分类器学习阶段,通过引入长短时指标对来校准分类偏差,从而使模型更加关注尾部类别的检测。这种细致入微的方法有助于改善长尾分布下尾部类别的检测性能,是一个对现实世界场景中的长尾分布问题有益的解决方案。下面,笔者将介绍平衡分类框架的核心内容。

表示学习阶段

image.png

  • Sigmoid-based Classifier with an Objectness Branch: 本文主要采用基于Sigmoid的分类器与目标分支,不使用任何样本平衡技术调整分布。
  • Leverage the Simple Copy-Paste Augmentation: 通过替换传统的多尺度训练策略,转而采用Copy-Paste增强策略,创建更具挑战性的训练样本,从而获得更好的特征表示。
  • Other Feasible Attempts: 通过大量实验,作者观察到减小权重衰减系数可以略微提高表示学习。此外,通过将 NMS 操作后保留的提议数量从 1000 增加到 2000,提高了前景提议的数量,有助于 RoI 特征提取器的收敛。

长-短时指标对

image.png

为了有助于在分类器学习阶段校准分类偏差,引入了一对互补的长期和短期指标。这些指标有助于反映分类器的学习状态,特别是对于不同前景类别的倾向和每个类别的分类正确性。

  • 长期指标: 包括静态统计、一阶动态统计和二阶动态统计,能够捕捉前景类别之间的优势和分类倾向。
  • 短期指标: 用于评估分类结果的正确性,特别是关注具有挑战性的类别。

这些长短时指标共同构成了该方法的基础,克服了先前工作仅关注一个方面的缺点。后面我们重点介绍下导读部分提出的两个方法。

前景分类平衡损失

image.png

FCBL 的构建是为了解决长尾分布场景中多个前景类别之间普遍存在的不平等竞争问题。此损失函数专门应用于前景提议,背景提议的损失则由另一个方程计算。首先看下定义:

image.png

此处,FCBL 主要引入了一个适应性类别感知边缘(adaptive class-aware margin)在任何一对前景类别之间,以改善一个类别对另一个类别的支配。该边缘与相应长期指标的比率成对数比例:

image.png

这个自动调整的权重项的引入旨在优先考虑混淆类别,同时忽略良好分类的类别。简单来说,FCBL 通过引入适应性类别感知边缘和自动调整的权重项,有效地解决了不同前景类别之间不平等的竞争问题。适应性边缘帮助分类器感知类别差异并动态调整抑制梯度的幅度。自动调整的权重项有助于区分混淆类别和良好分类的类别。这两个组件共同使 FCBL 能够在长尾分布场景中改善前景类别之间的不平等竞争,从而提高了分类器的泛化能力。

特征幻觉模块

FHM 旨在解决长尾类别下的代表性不足问题。虽然 FCBL 可以解决前景类别之间的不平等竞争问题,但它无法解决尾部类别的样本稀缺问题。例如,某些类别可能只有一个训练样本,这极大地限制了分类器对该类别的判别能力。为了解决这一问题,FHM 通过合成幻觉特征来增强特征空间的表示,尤其是对尾部类别,从而增强数据多样性。下面是FHM的关键组成部分:

区域提议生成

FHM 首先实时捕捉每个类别的特征分布,然后根据长期指标的指导为选定的类别生成训练特征。具体来说,它使用一个非可学习的边界框生成器生成与真实边界框有大量重叠的区域提议。与 RPN 不同,边界框生成器使用坐标操作随机转换图像中的真实边界框为正提议。

在线特征分布

接下来,RoIAlign 层和 RoI 特征提取器将这些提议编码为 RoI 特征,以收集在线特征分布,包括原型和方差。FHM 为出现在 中的每个类别 计算特征的均值和方差,然后使用指数移动平均函数更改相应的原型和方差。

image.png

尾部类别突出

最后,FHM 通过为每个类别 分配一个与长期指标 成反比的采样概率 来确保尾部类别突出:

image.png

使用上述采样概率,FHM 随机选择 个类别并通过不断更新的特征分布通过重参数化技巧为每个类别 生成 个幻觉特征:

Image

总的来说,FHM 通过引入新的幻觉特征来动态增强数据多样性,特别是对于尾部类别,从而缓解了代表性不足的问题。通过捕捉每个类别的特征分布,并基于长期指标的指导合成幻觉特征,FHM 增强了尾部类别在特征空间中的表示。这一直观而有效的方法不仅增加了样本数量,还增加了样本之间的变化,从而有助于进一步改进尾部类别的分类性能。

算法伪代码

image.png

实验

image.png

简短分析下。BACL 框架在 LVIS 数据集的两个版本(LVIS v0.5 & LVIS v1.0)上表现出色,与当前最先进的方法相比取得了显著的优势。特别是在使用ResNet-50-FPNResNet-101-FPN骨干时,BACL在总体 AP 方面均取得了优异成绩。

  • 稀有类别检测:BACL 在稀有类别的检测上特别出色,不仅超过了端到端训练方法,还在解耦训练方法中实现了20%以上的AP。
  • 常见类别检测:BACL 不仅在稀有类别上表现优异,还在常见类别上实现了明显的提升。
  • 不同骨干结构的适应性:无论是较小的 ResNet-50-FPN 还是较大的 ResNet-101-FPN 骨干,BACL 都展示了卓越的性能,证明了其广泛的适用性和灵活性。

实际应用的可行性:BACL 的优势不仅限于实验设置,还在实际场景中展现出极高的实用性,表现与传统的交叉熵损失相当。

综上所述,BACL 通过增强样本多样性,在稀有和常见类别的检测上均取得了显著的改进,展示了其作为一种强大的、灵活的、实际可用的目标检测方法的潜力。

image.png

应用到下游任务的表现也还不错。

总结

今天为大家介绍了BACL,一个针对长尾目标检测任务的统一框架。通过采用分而治之的策略,BACL 引入了 FCBL 来减轻前景类别间的不平等竞争,以及 FHM 来增强尾部类别的多样性。大量实验表明,BACL 能够在不同的骨干网络和架构下,为检测器提供更均衡和准确的分类分支。

然而,BACL 是基于解耦训练流水线设计的,这限制了在分类器学习阶段对特征提取器的改进。未来的工作可能会弥补这一缺点,并整合更先进的指标和方法以增加样本差异,进一步改进。

此外,尽管 BACL 在常见类别的表现上可能略逊一筹,但其在稀有类别的表现卓越,并在不同大小的骨干网络上均取得优异成绩,体现了其广泛的适应性和灵活性。

总的来说,BACL 作为一种创新的解决方案,在平衡长尾分布中的类别表示、增强样本多样性和提高检测准确性方面取得了显著的进展。我们相信,经过针对特定任务的修改,所提出的 BACL 还可以应用于其他长尾识别任务。

作者:派派星
文章来源:CVHub

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
18799
内容数
1346
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息