CAF-YOLO | 融合卷积与 Transformer 的优势，实现微小生物实体的高精度检测！ - 极术社区

在生物医学图像分析中，目标检测尤为重要，尤其是在病变识别方面。尽管目前的方法在识别和定位病变方面表现出色，但往往缺乏必要的精确性，无法检测到微小的生物实体（如异常细胞，小于3毫米的肺结节），这在血液和肺部病理学中至关重要。
为了解决这个问题，作者提出了一种基于YOLOv8架构的CAF-YOLO方法，这是一种快速而稳健的用于医疗目标检测的方法，利用了卷积神经网络（CNN）和 Transformer （Transformer）的优势。
为了解决卷积核的局限性，即其与远程信息交互的能力有限，作者引入了一个注意力和卷积融合模块（ACFM）。这个模块既增强了全局特征的建模，又能够捕捉长期特征依赖性和空间自相关性。此外，为了改善在 Transformer 架构中 feed-forward 网络（FFN）中固有的有限的单尺度特征汇聚现象，作者设计了一个多尺度神经网络（MSNN）。
该网络通过在多个尺度上提取特征来提高多尺度信息汇聚。在广泛使用的数据集，如BCCD和LUNA16上的实验评估验证了CAF-YOLO的合理性和有效性。
这种方法在生物医学图像中检测和精确定位各种复杂的微小病变。
作者的代码在 https://github.com/xiaochen92... 有提供。

1 Introduction

近年来，将目标检测技术应用于生物医学影像领域取得了显著进展。如图1所示，在模糊的血涂片显微图像中识别微小板（黄色框内）是不可能的，没有助剂。值得注意的是，在血涂片显微镜和肺部CT成像等领域，目标检测算法实现了病变和病理异常的精确定位和识别，包括癌细胞和肺结节。这些进展突显了目标检测方法在提高诊断和治疗效率方面的巨大潜力。因此，利用CAF-YOLO等独特的特征，专门用于准确检测病变和病理异常，在各种医学研究中至关重要。这些努力将使医疗专业人士在面对这些疾病时获得更好的诊断精度和更广泛的疗法选择。

生物医学成像中的目标检测方法通常可以分为两类：基于Transformer的方法（深度 Transformer ）和基于CNN的方法（卷积神经网络）。基于Transformer的方法的物检方法是一种新兴领域的研究方法，它利用Transformer架构中固有的强大的语义建模能力和自注意力机制来增强目标检测任务的效力。值得注意的是，DETR（检测Transformer）DETR（检测 Transformer ）已经作出了重大贡献，从根本上改变了目标检测范式。DETR将目标检测重新定义为一组预测挑战，消除了使用传统 Anchor 框和非极大值抑制（NMS）技术的需求。CFIL[27]提出了一个频域特征提取模块和频域特征交互来增强显著特征。MFC[13]提出了一个频域滤波模块来实现密集目标特征增强。尽管取得了这些进展，但Transformer基础的目标检测方法仍然面临一些挑战。Transformer架构中的馈线网络（FFN）固有的单尺度特征聚合是自然而有限的。一些方法使用深度卷积技术来增强FFN内的局部特征聚合。然而，隐藏层中通道数增加所带来的挑战极大限制了单尺度标记聚合充分利用通道表示丰富性的能力。

卷积神经网络（CNNs）是一种广泛使用的深度学习模型[18,19]，以其在图像中捕获空间信息的能力和对提取高级特征的准确性而著称。一阶段方法，如YOLO[14,15,16]和SSD[12]，是应用于各种生物医学图像背景（如显微镜成像）的基于CNN的目标检测框架的实例。YOLO，这是一个经典且持续创新的目标检测框架，以其快速和高精度的实时性能而闻名。Joseph Sobek等人[21]开发了 Med-YOLO，该方法可以在3D生物医学图像中快速和准确地识别和标记大型结构，绕过了传统分割模型的耗时性质。虽然卷积核在捕捉局部特征方面表现出色，但它们天生缺乏与远程信息进行互动的能力。然而，卷积与注意力机制的结合显示出这种局限性的解决希望。此外，培训目标检测模型需要大量标注数据，这在考虑到患者隐私和道德问题时可能并不总是实际可行的。

为应对这一挑战，作者提出了一种CAF-YOLO的方法，该方法利用YOLOv8架构提供一种多功能的和强大的方法，旨在为医学目标检测量身定制。如图2所示，CAF-YOLO战略性地将卷积神经网络（CNNs）和Transformer[20]相结合，实现这两种强大方法的有机融合。为解决卷积核与远程信息互动的能力有限的问题，作者引入了注意力与卷积融合模块（ACFM）。这一模块精心设计，以增强全局和局部特征的建模，从而辅助捕捉长期特征依赖性和空间自相关性。此外，为了克服 Transformer 架构中前馈网络（FFNs）固有的单尺度特征聚合限制，作者提出了一种多尺度神经网络（MSNN）。这种创新架构专门设计，通过在多个尺度上提取特征以增强多尺度信息聚合，从而解决FFNs中的单尺度聚合限制。这种方法在生物医学图像中准确检测和精确定位各种复杂的微孔缺陷。

本文的贡献可总结如下：

作者针对检测微小生物实体的复杂任务，提出了CAF-YOLO方法，该方法旨在增强小型生物实体的检测能力。
作者引入了CAFBlock，它包括一个注意力与卷积融合模块和一个多尺度神经网络。这种创新体系能够捕捉在不同尺度下随变的全局和局部特征，同时有效地降低噪声。
作者在两个基准数据集上严格评估所提出方法的性能，这些数据集分别是BCCD和LUNA16，证明了作者提出的CAF-YOLO在检测微小生物实体方面具有优越性能。此外，作者已经将代码公开以支持该领域的进一步研究。

2 相关工作

Medical Object Detection

近年来，在生物医学图像中的目标检测领域取得了重大进展。许多方法依赖于医学实践者的专业知识来开发专门的特征提取器或利用大量的生物医学图像数据集 [1, 2] 进行训练，以诊断病变和器官。肿瘤分割 [4, 9] 和肺结节检测 [17] 在实际应用上具有巨大的潜力，可以协助临床医生诊断疾病并制定治疗策略。然而，这些方法受其人工构造的属性的不完整性以及其广义泛化能力的限制。

最近，3D生物医学图像中的目标检测越来越受到关注。特别地，Baumgartner 等介绍了 nnDetection [3]，一个自动化医疗目标检测配置过程的框架，可以在不进行人工干预的情况下适应各种医学检测任务。然而，3D生物医学图像 [8] 包含更丰富的信息，但其复杂的结构对模型性能和效率提出了更高的要求。此外，许多现有的 3D 检测模型 [3, 21] 难以有效识别极度微小的癌细胞或罕见的病理结构。因此，作者重新审视传统的 2D 图像检测方法，并引入 CAF-YOLO 作为一种方法来解决与血液显微镜图像和肺微病变识别类似的检测挑战。

YOLO Series

YOLOv8，是YOLOv5的进化和演变，在实时目标检测领域具有重要意义。它结合了前一代的坚实基础，并在网络架构、训练过程和特征提取能力方面进行了改进。YOLOv8在精度和工作效率上取得了优越性，并在各种数据集上创造了新的基准。YOLOv8的工作方式是将输入图像分割成网格，并使用预训练的卷积神经网络（例如Darknet-53[5]，ResNet[22])进行特征提取。提取出的特征图被分割成网格单元，每个单元负责检测物体。预测结果包括框的定位和大小，此外还包括目标物体类别和置信度。

利用YOLOv8的检测性能，作者在其架构中整合CAFBlock，创建了CAF-YOLO。这种整合通过CAFBlock内的注意力和卷积融合模块融合全局和局部特征来增强特征提取。此外，一个多尺度神经网络可以提取不同尺度下的特征，从而提高多尺度信息聚合和去噪能力。

3 Proposed Method

The Framework of CAF-YOLO

图4：多尺度神经网络（MSNN）的说明。在底层路径中，深度卷积被利用来促进特征提取，重点关注空间细节。在相反的路径中，多尺度膨胀卷积被用来在多个尺度上实现特征提取，从而在不同粒度上抓取多样的上下文信息。

CAF-YOLO模型整体结构如图2所示。首先，医学图像经过预处理，以满足CAF-YOLO模型的需求。然后，图像在统一的神经网络框架内进行特征提取和目标检测。CAF-YOLO将输入图像划分成网格，并为每个网格单元分配边界框，同时预测目标类别和置信度得分。利用多个 Anchor 框明显增强了模型在各种尺度上精确定位和分类物体的能力。随后的后处理步骤，包括非极大值抑制，用于通过消除多余检测并保留最精确的边界框来优化输出。通过将YOLOv8框架内的先进技术集成到CAF Block中，作者提出了一种新颖的组成部分的结合，称为CAFBlock。由注意力和卷积融合模块（ACFM）以及多尺度神经网络（MSNN）组成，每个CAFBlock在YOLOv8 Backbone 之后定位，以增强全局和局部特征的建模。

注意力和卷积融合模块

考虑到卷积操作的局限性，有效捕获全局特征可能会面临挑战。相反，Transformer在提取全局特征和处理长程依赖关系方面表现出色，这是由于其注意力机制。通过融合卷积和注意力机制，全局和局部特征都可以良好地建模。考虑到这种协同效应，作者引入了注意力和卷积融合模块（ACFM），如图3所示。在ACFM中，作者在全局分支内集成了一种自注意力机制，以捕捉各种全局特征。同时，通过通道混合增强了局部分支的模型复杂度，从而提高了表示能力和降低了过拟合的风险。

Multi-Scale Neural Network

4 Experiment and Analysis

为了验证所提出的CAF-YOLO方法的优势，作者在两个大规模数据集上与众多最先进的目标检测方法进行了比较，这两个数据集分别是BCCD和Luna16。

Datasets

"BCCD"(血细胞计数和检测)数据集是一个全面、轻量级的图像集合，包含12,500张真实的微镜血样图像。该数据集提供了各种颜色的血样图像，包括正常和异常细胞，且捕捉了各种形状、大小和染色特征。这些图像代表了红细胞（RBCs）、白细胞（WBCs）、血小板等四种主要类型的血细胞，覆盖了不同的视野范围和细胞密度。每个图像都有关联的标注信息，包括血细胞的位置坐标和分类标签。这些标注信息可用于有监督学习和算法评估。

"Luna16"是最具有代表性且权威的肺结节CT图像数据集，用于当前肺结节检测。该数据集包括888张3D肺CT图像，1186个肺结节，以及由4名专业放射科医生标注的36378个信息。数据集分为四个部分：原始CT图像、肺结节位置标注文件、原始CT肺区域分割文件和诊断结果文件。本文将训练集、测试集和验证集按照7：2：1的比例进行划分。

Evaluation Metrics

评估指标有几个组成部分：准确率（Precision）、召回率（Recall）和mAP（均值平均精度）。准确率表示被分类器正确标记为正样本的样本数量占总被标记为正样本的样本数量的比例。召回率表示被分类器正确标记为正样本的样本数量占总真实阳性样本数量的比例。mAP是所有分类的AP（平均精确度）的平均值。AP是精确率-召回曲线下面积，用于在不同召回率下测量平均精确度。

Implementation Details

实现CAF-YOLO利用了PyTorch 2.11，BCCD和LUNA16数据集的标准化输入图像尺寸均为640x480。网络优化通过随机梯度下降（SGD）实现，学习率设置为0.01。作者在运行所有计算实验的Linux服务器上使用了具有15 vCPU Intel(R) Xeon(R) Platinum 8474C和NVIDIA GeForce RTX 4090D 24GB GPU的服务器。在训练300个周期时，使用了8个批次大小，并实现了过拟合缓解的暂停机制。

Comparison with State-of-the-art Methods

Comparisons on BCCD Dataset

作者将在BCCD数据集上与最先进的目标检测方法进行比较，结果已在表1中显示。作者可以看到，作者的方法在评估指标上超过了列出的所有纯目标检测方法。具体而言，作者的方法在mAP@50、mAP@50-95和精确度方面分别比ADA-YOLO [11] 提高了1 %、1.1 %和2.7 %；并且在召回率方面比YOLOv5 [22] 提高了0.6 %。这表明将CAFBlock集成到YOLOv8架构中，使模型能够有效捕捉全局和局部特征，从而在性能上取得了显著的提高。

在LUNA16数据集上的比较为了评估作者的提出方法在医学图像目标检测方面的泛化性，作者在LUNA16数据集上与最先进的基于CNN的目标检测方法进行比较，结果已在表2中显示。具体而言，作者的方法在mAP@50和精确度方面分别比YOLOv9 [26] 提高了1.7 %和2.9 %。这可以归因于CAFBlock能够有效地将 Transformer 和CNN的优势结合起来，进一步突显了作者的方法在医学图像检测任务上的泛化性。

Ablation Studies and Analysis

随着表1和表2的比较结果表明，所提出的CAF-YOLO方法在许多最先进的目标检测方法中优越。具体地说，如(1)对ACFM（ID：2）的有效性。(2)对MSNN（ID：3）的影响。(3)对ACFM中的全局分支（GB，ID：4）的影响。(4)对ACFM中的局部分支（LB，ID：5）的影响。请注意，在每个变体训练过程中，作者保持与实施细节部分中提到的相同超参数不变。

ACFM的有效性。如表3所示，作者在CAF-YOLO中探索了ACFM的影响。为了验证其必要性，作者在训练网络时中去掉了ACFM（ID：1），并发现，与ID：2相比，将mAP@50得分从0.888提高到了0.913。这证明将ACFM集成到YOLOv8架构中，以便模型可以有效地捕获全局和局部特征，导致了实质性的性能提高。

MSNN的影响。为了探索其影响，作者在去掉MSNN（ID：1）的训练网络中发现，与ID：3相比，将mAP@50得分从0.888提高到了0.899。这可以归因于作者对设计多尺度神经网络（MSNN）以通过跨多样尺度的特征提取来改善多尺度信息聚合的 Proposal 。

在ACFM中的全局分支和局部分支的影响。如表3所示，为探索全局分支和局部分支在ACFM中的影响，作者将ID：1与ID：4、5进行比较，将mAP@50得分从0.888和0.899分别提高到了0.901和0.902。这证明将自注意力机制引入全局分支可以捕获各种全局特征，而局部分支通过通道搓洗增强了模型的复杂性，从而提高了表示能力并降低了过拟合风险。

Visualization

如图5所示，作者在BCCD数据集上对比了作者的方法（CAF-YOLO）和 Baseline 模型的图像检测结果与真实值。结果显示，作者的方法，即结合了基于注意的卷积融合模块（ACFM）和多尺度神经网络（MSNN）的CAF-YOLO，在处理医学图像中普遍存在的物体遮挡和截断的挑战上表现出了优越性。与 Baseline 模型相比，CAF-YOLO成功地检测到了大小不同的红细胞，包括微小血小板，通过在所有类别上有效识别正例实现了全面覆盖。这突显了CAF-YOLO在医学目标检测中检测更广泛范围的正例的能力。作者的方法显著提高了疾病检测能力，减少了诊断错误，并更准确地识别了真阳性病例的比例，即使在存在物体遮挡和图像模糊的情况下也是如此。这些发现表明CAF-YOLO在医学影像中有望实现更早、更准确的诊断。

5 Conclusion

在生物医学图像分析中，目标检测扮演着至关重要的角色，尤其是在病变识别方面。尽管当前方法在识别和定位病变方面表现出色，但它们往往在检测微小的生物医学实体时显得力不从心，例如血液和肺病理学中至关重要的异常细胞和小于3毫米的肺结节。

为了解决这一不足，作者基于YOLOv8架构开发了CAF-YOLO方法。这种方法既敏捷又稳健，利用了卷积神经网络（CNNs）和变换器（transformers）的优势。为了克服卷积核固有的局限性，即难以处理长距离信息交互，作者引入了注意力与卷积融合模块（ACFM）。

该模块增强了全局和局部特征建模，使得能够捕捉长期特征依赖性和空间自相关性。此外，作者设计了一个多尺度神经网络（MSNN），以改善变换器架构中的前馈网络（FFN）中有限的单一尺度特征聚合问题。MSNN通过提取不同尺度的特征，增强了多尺度信息聚合。

在BCCD和LUNA16等广泛使用的数据集上的实验评估验证了CAF-YOLO背后的有效性和合理性。结果显示，CAF-YOLO在检测和精确定位生物医学图像中各种复杂微病变方面具有卓越的能力。这一进展对于改善医疗诊断和治疗策略具有重大潜力。

参考

[1].CAF-YOLO: A Robust Framework for Multi-Scale.

作者：小书童
来源：集智书童

推荐阅读

欢迎大家点赞留言，更多Arm技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

CAF-YOLO | 融合卷积与 Transformer 的优势，实现微小生物实体的高精度检测 ！