YOLOD也来啦 | 优化YOLOv5样本匹配，顺带设计了全新的模块 - 极术社区

在本研究中，重点分析了YOLOv5模型的结构问题。基于人造革细微缺陷的特点，设计了四种创新结构，分别是DFP、IFF、AMP和EOS。这些改进使得提出了一个名为YOLOD的高性能人造革细微缺陷检测模型。YOLOD在人造革缺陷数据集上表现出色，相比于YOLOv5，提高了11.7% - 13.5%，错误检测率显著降低了5.2% - 7.2%。
此外，YOLOD在通用的MS-COCO数据集上也表现出色，提高了0.4% - 2.6%，提高了2.5% - 4.1%。这些结果表明YOLOD在人造革缺陷检测和通用目标检测任务上的优越性，使其成为一个高效且有效的适用于实际应用的模型。

1、本文方法

1、Dual Feature Pool

在提出新结构之前，对FPN+ PAN结构进行了分析。发现在这种组合架构中，用于检测小目标的检测网络的深度比用于检测大目标的网络的深度要浅（图3）。

为了提高网络检测的准确性，增加网络的深度和宽度变得至关重要。因此，FPN + PAN结构被认为对于检测小目标不够优化。为了解决这个问题，作者的目标是找到一种可以增强小目标检测网络的深度或宽度，从而提高检测小目标的准确性的结构。因此，作者开发了双特征池化结构（DFP）。在这个背景下，术语定义如下：直接从Backbone网络输出的特征称为“源特征”，经过中间网络处理的特征称为“处理特征”。

网络结构分为3部分：

第1部分，采用类似于CSPNet的结构，通过使用半通道的卷积将Backbone网络输出的3个Level源特征分为两部分。
第2部分，每个Level的2个输出之一被融合形成2个特征池化（图4）。
第3部分，将源特征的另一部分与两个特征池化的输出融合，在输入每个检测头之前，通过干扰特征过滤（IFF）和空间注意力模块（SAM）去除干扰，并增强融合后的特征。通过采用这种结构，作者的目标是尽可能地扩展网络的宽度，同时保持网络的深度不变。

DFP结构由这3部分组成，可以有效地扩展整个中间网络部分，特别是小目标网络。两个特征池化起着关键作用，它们集成了小中尺度和中大尺度的特征，为检测头提供了更多可选择的特征维度。在第3部分的融合之后，进入检测头的维度相对于FPN + PAN增加了1.75到2倍。采用这种结构的初衷是扩展小目标网络的宽度，作者的目标在随后的实验结果中得到了成功验证。

2、Interference Feature Filtering

在特征提取过程中，卷积网络产生的特征图的质量可能不均匀。这种变异性可能会影响更深的卷积网络的有效性。为了解决这个问题，作者设计了一个模块，根据每个通道特征图的均值对其进行评分。随后，作者删除得分低于0.5%到5%之间的通道特征（图5）。

所提出的结构专注于2个关键方面：Backbone网络的输出和源特征与处理特征的连接（图4）。在Backbone网络的源特征输出上应用IFF以确保提供给中间网络的特征的纯净性。这是因为源特征的质量直接影响到处理特征的质量，进而影响到检测的准确性。

此外，在源特征和处理特征连接处也使用了IFF，因为连接后的特征通道数量远大于最终通过CSP传递的通道数量。目的是通过大规模通道压缩减少低质量特征，从而增强通道压缩后输出的特征质量。

在训练过程中，被过滤的特征的百分比从5%线性减少到0.5%，随着干扰特征的减少。值得注意的是，如果过滤的特征太多，可能会导致检测准确性下降。在作者的实验中，过滤的百分比在第240个周期时设置为0.5%。

3、Adaptive Multi Positives

YOLOv5和YOLOX都有增加正样本数量的方法。YOLOv5根据GT中心点的偏移，在上、下、左、右四个网格中选择一个或两个正样本，从而总共有2个或3个正样本。

YOLOX将围绕GT中心点的网格视为正样本。作者提出的自适应多正样本（AMP）方法是对YOLOv5方法的改进（图6(a)）。图6(b)所示的添加正样本表示作者提出的方法的第一步。如果GT的偏移大于或等于0.35个网格，则不会添加左上角的正样本。

除图中所示部分外，上右、下右和下左网格的扩展原则保持不变，是基于GT中心点的偏移计算的。例如，当GT的中心点在x轴上的偏移大于0.65个网格且在y轴上的偏移小于0.35个网格（0.35的值是使用欧氏距离公式计算的，假设X坐标等于Y坐标，欧氏距离为0.5），则会添加右上角的正样本。

另一步是根据GT的边界框大小自动选择并增加正样本数量。如果GT的边界框大小小于一个网格方格，则不会添加正样本。当GT的边界框大小大于或等于一个网格方格时，正样本的增加遵循YOLOv5的方法。

此外，如果GT的边界框大小大于或等于2个网格方格，则会使用作者提出的方法添加正样本。不添加GT边界框大小小于一个网格方格的正样本的原因是在添加的网格方格中没有目标特征。因此，这可能导致虚假检测，并对网络对GT的特征训练产生不利影响。

4、Eliminate Output Sensitivity

2、实验

3、参考

[1].High-Performance Fine Defect Detection in Artificial Leather Using Dual Feature Pool Object Detection.

作者：小书童
文章来源：集智书童

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

YOLOD也来啦 | 优化YOLOv5样本匹配，顺带设计了全新的模块