轻量级分流匹配YOLO，提升图像检测精度的关键技术！

title=

现有医学区域（ROI）检测方法中，缺乏一种可以同时满足实时性能和准确性的算法，无法满足医学自动检测的需求。尽管基本的YOLO框架能够实现实时检测，但由于缺少保持精度与实时性之间同步的解决方案，其仍然面临挑战。
为了解决上述问题，作者提出了一种名为轻量级分流匹配YOLO（LSM-YOLO）的新模型，其中包括轻量级自适应提取（LAE）和多路径分流特征匹配（MSFM）。
首先，通过使用LAE来优化特征提取，该模型可以从多尺度特征图中获取更多的上下文信息和高质量细节，同时在降低噪声影响的同时提取医学图像中的ROI详细特征。
其次，MSFM被用于进一步优化高阶语义特征和低阶视觉特征的融合，以便在ROI特征和相邻特征之间实现更好的融合，从而提高检测率，提供更好的诊断辅助。
实验结果表明，LSM-YOLO在胰腺肿瘤的私有数据集上达到了48.6%的AP，在血细胞检测的BCCD公共数据集上达到了65.1%的AP，在脑肿瘤检测的Br35h公共数据集上达到了73.0%的AP。
作者的模型在以上三个数据集上实现了最先进性能，并且参数成本最小。
源代码可在https://github.com/VincentYuuuuu/LSM-YOLO中找到。

1 Introduction

医学影像技术如计算机断层扫描（CT）和磁共振成像（MRI）广泛应用于放射检查[16, 21]。

相应的诊断，如肿瘤筛选和血液成像分析，主要依赖于高级医生通过图像视觉分析。在医学影像中还没有工具和方法进行自动检测感兴趣区域（ROI）。现有的医学影像分析主要集中在医学影像分割，而很少将成熟的检测结果应用到临床实践中。医学影像中病变的大小并不统一，且在早期阶段难以检测到病变。此外，医学ROI检测模型也较少。此外，医学数据集的规模较小，不利于数据驱动的方法如深度学习。因此，作者的工作希望在这个领域进行扩展，结合自动检测与医学，以提供一种轻便、易于部署、高效的医学目标检测模型。

现在，主要检测器分为两类：基于卷积神经网络（CNN）的，如YOLO，和基于Transformer的，如DETR[2,27,29,30]。YOLO框架在速度和准确性之间取得了 remarkable 的平衡，使得在图像中进行快速可靠的目标检测成为可能。尽管DETR在大数据集（如MS-COCO）上的精确度非常好，但其高计算成本和参数数量阻碍了其全面性能，尤其是在具有较小型数据集的行业（如医学）中，YOLO在其中表现出色。正是由于这种优势，作者在本工作中选择使用YOLO。

在医学影像中，检测的ROI相对较小，病变通常只发生在CT或MRI扫描的器官的某些部分。而且，ROI与周围区域的关系至关重要。如何正确处理两者之间的关系是一个重要问题。通常，在医学设备上部署的函数应该是轻量的，并且不应该消耗太多资源，降低运营成本，提高医疗服务质量。这就是作者实现轻量级模型的原因。

为了解决上述挑战，作者开发了一个轻量级和易于部署的 LSM-YOLO 框架，以贡献于医学影像检测。首先，作者引入了 Receptive-Field Attention Convolutional operation（RFAConv）[28]，利用空间注意力机制共享卷积 Kernel 参数。这意味着在特征提取的初始阶段，模型学习物体区域和其周围环境的相似性和差异。为了提取多尺度特征图，作者设计了一种轻量级自适应提取（LAE），允许在保留尽可能多的信息丰富特征的基础上进行下采样，这不仅避免了与传统卷积相关的高计算需求问题，而且在多尺度采样过程中动态提取特征，使模型的注意力更加显著地关注物体区域。在获得多尺度特征图后，自然地，作者提供了一种合理的热量融合机制-多路 ConCat 特征匹配（MSFM）。这使得模型在特征融合过程中关注的坐标具有更大的权重值，从而学习到如肿瘤特征和位置等关键信息。通过上述方法，作者可以获得更丰富的上下文和高分辨率信息，从而提高模型的检测准确性和泛化性。此外，为了解决医学影像中小物体的数量问题，作者优化了输出头，特别是扩展了Path Aggregation-Feature Pyramid Network（PA-FPN）[12]结构，以提高小物体的检测能力，使用四个检测Head完成最终输出任务。

2 Related Work

Medical ROI Detection

医学ROI检测在提高诊断精确度、制定治疗计划和手术干预方面起着关键作用。通过自动识别和定位ROI的目标，有助于放射学和医生检测疾病的早期征象，如癌症，使及时干预和更好地治疗患者成为可能。

针对不同的器官区域，许多研究利用深度学习方法实现自动医学ROI检测。Kang等人[8]提出了RCS-YOLO，用于解决脑肿瘤的检测问题。Ahmed等人[1]将YOLO模型引入手腕畸形检测。DeGPR[20]是一个专注于细胞检测和计数的模型，可以为其他目标检测器提供帮助。Huynh等人[5]利用目标检测模型对痤疮皮肤疾病进行自动检测。CircleNet[13]是一个设计用于检测球形生物医学目标的模型，如肾小球和细胞核。作者还提出了在医疗任务中使用圆形边界框检测球形物体的方法，以更好地适应具有独特形状的检测任务。在医学图像处理领域，Shamshad等人[18]对Transformer的各种应用进行了全面综述，包括分类、分割、检测、重构和注册。这一系统的综述非常值得称赞。

Multi-scale Features for Object Detection

将多尺度特征引入到目标检测模型中是必要的。通常，更大的特征捕获较小物体的纹理细节，而较小的特征包含较大物体的语义属性。仅依赖于单尺度特征将遗漏详细信息。例如，在腹部CT图像中，胃和胰腺的大小差异显著。仅靠单尺度特征，检测器很难完全学习胃和胰腺的独特特征，可能导致模型只识别出胃而不知道胰腺的样子。

平衡高级语义信息和低级视觉信息一直是众多工作的重点。在这种情况下，特征金字塔网络（FPN）[11]结构受到了广泛采用，因为它采用了跨尺度连接和多尺度特征的融合。后续的工作对FPN进行了优化，以进一步解决上述问题。路径汇聚网络（PAN）[12]通过自下而上的途径增强了各层特征的集成。双向特征金字塔网络（BiFPN）[19]是一种加权双向特征金字塔网络，从上到下和从下到上重复地引入可学习的权重，实现多尺度特征融合。与层间交互不同，中心化特征金字塔（CFP）[14]专注于捕获全局长距离依赖关系。此外，亚进程特征金字塔网络（AFPN）[26]通过将相邻层的低级信息进行融合，进一步达到高级特征，支持非相邻层之间的交互。然而，将多尺度特征引入模型无疑会增加计算成本。变形DETR[30]在牺牲计算资源的同时实现了多尺度特征的较好融合。然而，过多的信息交换可能造成低级信息丢失，并在效率、准确率和轻量设计之间带来挑战。

3 Methods

所提出的 LSM-YOLO 网络结构如图1 所示。该网络主要在 Backbone 网络中提取特征，集成 Head 特征，并与四个输出头结合以输出。

title=

Lightweight Adaptive Extraction

LAE作为模块，用于提取多尺度特征图
MSFM作为模块，用于精炼和融合高级语义信息和低级空间特征

在多尺度特征提取中，与传统的卷积方法相比，LAE显著减少了参数数量和计算成本，同时提取出具有更丰富的语义信息的功能。图2 显示了LAE的构造原理图。

title=

在传统卷积过程中，边缘和角落的像素信息将被丢失，这些局部信息尤其对于医学影像来说非常重要，因为它代表了ROI目标与周围区域之间的隐性信息。此外，特征图相邻像素之间的信息存在差异，包含目标的像素具有比其相邻像素更高的信息熵，因此作者希望保留信息量更高的像素在采样过程中。

考虑到卷积操作的局部性质，在涉及复杂计算的情况下很难捕捉全局信息。作者采用了聚焦[6]概念，通过列和行的切片操作将采样过程中的数据分块。这一操作实现了采样目标的同时减少了信息损失，实际上将特征图的高度和宽度信息集中在通道层面。然而，作者并未直接采用切片操作，因为其具有很高的计算成本，这与作者实现轻量级处理的目标相矛盾。

作者设计了两路并行分支，采用共享参数和分组卷积的概念，高效地将输入映射到输出维度，同时降低参数数量。通过利用组卷积（N组），与传统卷积相比，参数数量减少到1/N。

每个 LAE 单元实现四倍下采样，即对高度和宽度同时乘以2。为了减轻采样过程中边缘信息的损失，在将特征图的高度和宽度信息保存到通道后，特征图的维度从四维（批处理、通道、高度、宽度）变为五维（批处理、通道、高度、宽度、n），其中'n'表示采样因子。适配性提取路径通过平均池化和卷积进行信息交换。本质上，该路径上的下采样根据四边形相邻像素（例如最左上角四个像素）组合特征图，同时通过softmax表示各个像素的权重，还将维度转换为五维。在'n'维上，适配性权重与其他分支合并。这一方法可以理解为在从高分辨率到低分辨率信息转换过程中，隐式地将全局信息包含在通道层面。总体而言，两个分支分别负责将高度和宽度信息集中在通道以及计算相应的信息权重。当LAE模块使用时，它是无参数的，便于模块替换。

Multipath Shunt Feature Matching

在多尺度特征融合中，作者试图摆脱仅依赖于通道信息交换的传统方法。这是因为在多尺度特征提取表示了各种大小目标在特征图上的映射。特别是在医学影像中，如肿瘤检测，肿瘤的存在通常与侵犯现象关联，具有多次发生和高转移倾向。这种现象在特征图上表现为空间和通道维度的高度相关性。通道信息交换可以增强模型捕捉视觉信息的能力。然而，语义信息在空间上高度集中，空间信息的交互有助于检测不同尺度的感兴趣区域（ROI）。例如，低分辨率但高语义信息特征图 inherently用于预测较大目标。如果作者合并高层次空间信息和低层次视觉信息，可以产生互补效应，利用来自更大感受野的全局信息帮助低层次特征图预测较小目标。因此，作者提出的MSFM模块对低层次到高层次的特征从空间和通道进行全面分析。图3显示了MSFM的结构示意图。

title=

MSFM模块遵循并联的概念，其中MatchNeck块用于增强模型表示ROI区域特征的能力，同时控制参数个数和计算复杂性。该过程首先使用分流运算符将信息流量分为两路，保留原始特征用于后续残差连接。MSFM模块以计算高效的方式从输入特征张量中提取高度、宽度和通道的信息。假设平均池化和全局平均池化操作分别表示为 title= 和 title= ，从输入特征 title= 提取 title= 的过程如下：
title=
title= 在数据正则化后，将高度（height）和宽度（width）信息与各个通道结合，可以帮助递归全局信息，从而捕捉ROI（Region of Interesting）站点及其邻近区域共有的特征，促进上下文信息的交互。同时，通过乘法运算器将空间信息流融合到通道中，作为辅助权重被保留，然后被传回到空间张量层。令经过后处理的height和width信息分别为 title= 和 title= ，相应的权重为 title= 和 title= ，空间信息的处理过程如下：
title=
令经过后处理后的channel信息为 title= ，输出为 title= ，channel信息分支的处理过程如下：
title=

将原始源信息与原始source信息连接，通过1x1卷积，最终产生输出。

MSFM模块有两个版本：一个是带有残差连接的，另一个是不带残差连接的。在backbone中，作者使用带有残差连接的版本，因为在当前阶段，主要任务是提取物体的主要特征，为后续阶段提供有意义的特征表示。残差连接有助于减少梯度消失的问题，从而加速模型收敛。在head中，作者采用不带残差连接的版本。此时，模型已经提取了丰富的特征信息，任务是对这些特征进行分析，以预测目标。因此，残差连接变得冗余。## 损失函数

本论文的损失函数由三部分组成：
title=

那么，作者的最终损失函数为：
title=

LSM-YOLO的损失函数分为分类分支和回归分支。分类分支采用二进制交叉熵损失（BCE），而回归分支则分为分布聚焦损失（DFL）[10]和SCYLLA-IoU（SIoU）损失[3]。本文的总损失是对上述三部分进行加权组合，其中每一部分都按比例加权。当 title= ，时，其定义如下：
title=

4 Experiments and Results

Datasets Details

为了评估提出的LSM-YOLO模型，作者使用了三个不同的医学数据集。作者的私有CT胰腺肿瘤数据集包括黏液性囊性肿瘤和血清性囊性肿瘤，其中训练集中有1173张图像，验证集中有309张图像。作者使用MRI脑肿瘤数据集（Br35H）[4]，该数据集包含总共701张图像。其中，500张图像用于训练，201张图像用于验证。此外，作者还利用了血细胞计数和检测（BCCD）[17]数据集，其中训练集中包含292张图像，验证集中包含72张图像。

Implementation Details

在模型训练和推理中，作者使用了两块NVIDIA GeForce RTX 4090 GPU。对于YOLO系列模型，作者统一设置epoch为300，输入图像大小为640 640。对于非YOLO模型，作者在各自原始论文中指定的epoch设置下进行实验。然而，对于RT-DETR，作者将epoch设置为300，因为作者发现在这些数据集上使用原始论文[29]的72个epoch并不能得到完全收敛。

Results

作者将比较模型分为YOLO系列和端到端DETR系列，它们目前在目标检测领域是两个主要类别。

【Tab.1】首次将提出的LSM-YOLO与在胰脏肿瘤数据集上最接近大小的YOLO系列检测器进行比较。LSM-YOLO具有更少的参数和显著更高的精度。与更大的模型相比，LSM-YOLO在胰脏肿瘤数据集上仍然具有明显的优势。与DETR系列模型进行比较时，相比比的模型数量和计算负载并未产生正面效果。原因在于DETR系列模型缺乏对多尺度特征的处理，导致更深层的网络无法获取足够的ROI肿瘤特征进行预测。

作者提出的LSM-YOLO在胰脏肿瘤数据集上实现了48.6% AP和60.8% AP，优于众多参数数量较少、计算成本较低的检测器。LSM-YOLO在小、中、大目标检测方面均表现出色。

作者还尝试了更大尺寸的模型，但结果表明与较小尺寸的模型相比性能较差。从【Tab.1】可以看出，模型尺寸增加时，检测精度降低。因此，可以得出结论，对于较小的医学数据集，较小尺寸的模型表现更好。

【Tab.1】与胰腺肿瘤数据集上最接近大小的当前最先进检测器进行比较。

【Tab.2】将作者的LSM-YOLO与BCCD血液细胞数据集上的其他检测器进行比较。作者的LSM-YOLO在相对较低的参数数量和计算成本下实现了65.1% AP和92.7% AP，展示了相对最先进的表现。

【Tab.2】与BCCD数据集上的其他最先进检测器进行比较。

【Tab.3】将作者的LSM-YOLO与Br35H脑癌数据集上的其他检测器进行比较。作者的LSM-YOLO在显著减少参数数量和计算成本的同时，实现73.0% AP和95.6% AP，优于先前的最先进模型RCS-YOLO。

【Tab.3】与Br35H脑癌数据集上的其他最先进检测器进行比较。

【Tab.3】呈现LSM-YOLO与在Br35H脑癌数据集上的其他检测器进行比较的结果。

【Tab.3】作者提出的LSM-YOLO在三个数据集的AP指标中表现出其对不同器官ROI目标的检测适应性。与当前流行的YOLO系列检测器和DETR系列检测器相比，LSM-YOLO在不增加计算成本的同时达到最先进的表现，这对于临床应用具有明显的实际意义。

Visualization

为了更好地展示检测性能，作者使用检测结果的视觉化和类激活映射（Class Activation Map, CAM）直观地显示ROI检测效果。在可视化图形的第一个子图行中，展示了检测结果，而在第二个子图行中则代表了类激活映射。

从图4的第一子图行中，图4(a)展示了LSM-YOLO成功检测出肿瘤位置，达到最高的置信度0.92。图4(b)说明了RT-DETR的一个虚假检测案例，而图4(c)则展示了YOLOv9错误地将目标分类。在图4的第二子图行中，可以看出LSM-YOLO与其他检测器相比表现出最佳的激活效果。此外，可以看出作者的LSM-YOLO成功检测到了肿瘤右侧小部分的衍生信息，而其他检测器未能检测到。

title=

图4：胰腺肿瘤数据集上的肿瘤ROI检测可视化对比。

图5的上半部分显示，LSM-YOLO可以准确地检测到重叠的细胞并在此类场景中表现出色，而其他检测器无法实现这一结果。在类激活映射中，LSM-YOLO在边缘不完整细胞上的激活效果明显优于其他检测器。

title=

从图5的下半部分可以看出，LSM-YOLO对正确分类脑肿瘤的置信度最高，且类激活映射的激活区域最大。这表明LSM-YOLO对肿瘤ROI特征的学习最为全面。

Ablation Study

为了评估所提出的RFABlock、LAE和MSFM模块的有效性，作者进行了消融实验。如图4所示，与没有这些三个模块的实验相比，RFABlock的添加分别提高了检测精度，LAE的添加和MSFM的添加也分别提高了检测性能。通过分别将LAE和MSFM模块集成到实验结果中表明，这两个模块进一步增强了检测性能。最后，通过将三个模块集成在一起，得到了最佳结果。

图5展示了在BCCD血液细胞数据集（上部）和Br35H脑肿瘤数据集（下部）上的细胞ROI检测的视觉比较。

如表5所示，作者在LAE模块的内部模块Lightweight Extraction (LE)和Adaptive Extraction (AE)以及Dimension Mapping (DM)模块上进行了消融实验，这与图2的上部和下部分以及DM模块相对应。在缺乏LE的实验中，使用卷积进行替代。将LE和AE集成到LAE模块中增强了检测率，通过DM集成和优化进一步提高了性能。这证明了LAE内部模块的合理性。表6展示了MSFM内部空间和通道部分的消融实验，每个部分都代表了不同维度的特征融合，这对于医学图像中ROI区域及其邻域内的交互具有益处。AP50:95指标从44.8%提高到48.6%，证明了两个内部组件的有效性。

title=