MITA-YOLO: 一种改进的间接视觉 YOLOv8 方法用于目标检测！

火势可能导致文化遗产建筑遭受严重破坏，因此及时的火警检测至关重要。传统的密集布线和钻孔可能对这些结构造成损害，因此减少摄像头的数量以最小化这种影响具有挑战性。
此外，由于噪声敏感性和火灾高发区的管理者专业知识的保护，避免误报至关重要。为了满足这些需求，作者提出了一种基于间接视觉的火警检测方法，称为 Mirror Target YOLO（MITA-YOLO）。
MITA-YOLO 将间接视觉部署和增强的检测模块相结合。它使用镜像角度来实现间接视图，解决不规则空间中可见性有限的问题，并将每个间接视图与目标监测区域对齐。Target-Mask 模块设计为自动识别和隔离每个图像中的间接视觉区域，并过滤掉非目标区域。
这使得模型可以继承管理者评估火灾风险区域的专家知识，提高火警检测的焦点和抗干扰能力。在作者的实验中，作者创建了一个包含 800 张图像的火警数据集。
结果表明，与其它主流模型相比，MITA-YOLO 显著降低了摄像头的数量，同时实现了优越的检测性能。

I Introduction

文物建筑是本地历史和文化的重要载体 [1]。这些建筑的火灾风险巨大，可能导致不可挽回的损失 [2]。许多纪念建筑和博物馆都属于这一类别，然而为了保持其历史完整性，它们通常缺乏传统的消防设施，如洒水器或烟雾检测器 [3]。在数字时代，利用深度学习算法进行火灾检测已成为一个潜在的解决方案 [4]。然而，由于建筑结构和内部障碍，有效的摄像头覆盖范围具有挑战性，需要安装许多摄像头和大量的电缆，这可能损坏建筑的结构。

为解决这些挑战，需要一种基于深度学习的检测方法，以扩大每个摄像头的监控范围，确保高检测精度，并通过过滤低风险区域最小化误报。这种方法将使火灾监控有效，同时保持历史建筑的完整性。传统火灾监控方法和基于深度学习的解决方案是两种主要方法。传统的火灾预防依赖于烟雾报警器、温度传感器和手动火灾报警按钮[5]。烟雾报警器检测烟雾粒子浓度，达到阈值时发出警报。温度传感器监测环境温度变化，当温度超过安全水平时发出警报。手动火灾报警按钮使个人在观察到火灾时向火控中心发出警报。然而，在建筑遗迹中安装烟雾报警器和温度传感器可能会严重影响建筑的结构和外观。这些安装通常需要进行大量的钻孔和布线，这可能会导致结构损坏，并损害这些场所的美学和历史完整性。因此，为了保护文化遗产，需要一种更精细的方法，在减少物理干预的同时保持有效的火灾监控。

传统的深度学习防火解决方案使用视频监控与传统深度学习算法相结合，这大大减少了所需的设备和数量，减轻了对文化遗产结构和历史特色的破坏[6, 7, 8]。然而，这些方法仅依赖直接视觉，限制了每个摄像头的视野范围。在形状不规则的空间中，通常需要多个摄像头，这增加了成本，并要求大量布线和钻孔，影响了这些建筑物的保护和审美价值。

为解决这些问题，作者提出了一种基于间接视觉的针对性防火检测方法，名为 Mirror Target YOLO（MITA-YOLO）。MITA-YOLO 通过镜子以及增强的检测模块实现间接视觉。该方法使用广角镜子扩展摄像头的视野范围，无需添加额外的摄像头即可监控被遮挡的区域。通过在火灾风险较高（目标检测区域）的区域放置镜子，同时避免低风险区域（非兴趣区），这种设置可以实现集中监控，而不会破坏建筑结构。

在 MITA-YOLO 中，由广角镜子产生的间接视觉有效地可视化被遮挡的区域，大大减少了不规则空间中所需的摄像头的数量，并避免由于布线过长而造成的结构损坏。通过调整镜子布局，使其仅关注高风险区域，确保每个镜子图像只包含目标检测区域，过滤掉无关区域。提出的 Target-Mask 模块通过分割每个图像中的间接视觉区域来增强这一能力。通过预训练模型，Target-Mask 可以自动识别镜子边界，并使用这些边界限制火警检测仅限于目标区域，过滤掉非兴趣区域[9]。因此，MITA-YOLO 可以专注于感兴趣区域内的相关目标，提高检测准确性并减少误报。

这种针对性方法实现了更高的检测精度，同时降低了漏检率，确保了文化建筑的历史完整性。

本文的主要贡献如下：

将间接视觉技术集成到基于深度学习的火灾检测中，利用镜子扩展摄像头的视野，减少在非规则空间中的部署，并将间接视觉与目标检测区域对齐。
作者提出了一种新颖的目标- Mask 模块，该模块能够自动识别间接视觉边界，并过滤掉无关区域，从而提高检测的准确性和抗噪声干扰的鲁棒性。
为了评估作者的方法，作者在一个不规则空间的文化遗产建筑中模拟真实世界场景，通过间接视觉捕获了 800 张图像，构建了一个独特的火灾检测数据集。
作者的比较实验表明，使用 YOLOv8n [10]进行比较实验，证明了作者的方法的有效性，在创建的数据集上，mAP50 提高了 3.7%，召回率提高了 3%。
MITA-YOLO 在间接视觉领域实现了最先进的火灾检测性能，在作者的数据集上超越了六种先进的深度学习模型。

II Related Work

Fire Detection in Heritage Buildings

文物建筑是人类历史和文化的重要遗产，具有重要的历史和文化价值。它们不仅是文化遗产的基础，也是促进旅游业和经济发展的宝贵资源。保护这些建筑是全社会的共同责任，消防预防和检测被认为是其保护的关键环节[11]。有效的消防检测系统必须在确保建筑物的原始结构和历史文化风貌不受影响的前提下，对潜在危险进行识别和应对[12]。

传统防火方法，如烟雾报警器和温度传感器，已被广泛使用[14]。然而，这些方法往往存在延迟检测、慢响应时间和可能损害文物结构的侵入式安装要求[15]。随着深度学习的进步，计算机视觉在传统建筑的火警检测方面表现出高效性和准确性[16,17,18]。为了进一步提高火警检测能力，扩散模型[19,20]由于能够生成高质量的特征表示和建模复杂的数据分布，因此具有巨大的潜力。尽管取得了这些进展，目前的系统仍无法应对文物建筑所特有的挑战，如保持结构完整性并尽量减少审美影响[21]。

为应对这些挑战，作者提出了一种针对文物建筑的 MITA-YOLO 定向火灾检测方法。作者的方法在显著减少摄像头、布线和 Pipeline 安装数量的同时，提高了检测精度，最大限度地减少了误报。MITA-YOLO 在确保文物建筑有效防火的同时，保留了历史和建筑完整性。

Detection Method Based on Indirect Vision

间接视觉，在医学、工业和交通运输等领域得到了广泛关注，因为它能够扩展视野并观察被遮挡的目标。朱等人[22]在医学领域展示了其应用，强调了通过调整镜子角度可以使目标区域对齐，以便更好地观察。同样，严[23]探索了其在工业场景中的应用，如帮助车辆进行车道变更和倒车。TCRL [24]提出了一种对比学习方法，通过全局和局部特征的交互来增强语义显著性。沙哈尔等人[25]进一步指出，后视镜使驾驶员能够监控在其视线之外的区域。然而，尽管这些研究强调了间接视觉在帮助人类感知方面的作用，但在计算机视觉方面的应用仍被忽视。MFC [26]提出了一种频率域过滤模块，以实现密集目标特征增强。CFIL [27]提出了一种频率域特征提取模块和频率域特征交互，以增强显著特征。现有火警检测模型[28, 29, 30]在目标检测方面取得了改进，特别是对于小型目标，但未能充分利用基于镜子的间接视觉的固有优势。传统方法通常进行全图像检测，引入了镜子反射区域外大量无关区域的噪声。

为了克服这些限制，MITA-YOLO 引入了一种新颖的目标- Mask 模块，该模块在图像中分割和隔离间接视觉区域。该模块自动识别镜面边缘，将其定义为检测边界，并过滤掉无关区域。通过利用间接视觉的目标预对齐区域，该方法可以最小化噪声干扰并提高检测准确性。此外，MITA-YO 与各种先进的目标检测模型兼容，提供了 versatility 和可扩展性，适用于更广泛的应用。

III Proposed Method

本文提出的改进点包括在文物建筑内部空间中应用间接视觉以及为目标- Mask 模块在检测网络中的添加。图 3 说明了更新后的算法模型结构。

Deployment of Indirect Vision

由于各种阻碍和建筑布局的不规则性，以及各种阻碍和观察角度的变化，摄像机通过直接视野的观测范围极大地受限，每个摄像机的监控范围也非常有限。为了实现有效的防范和控制覆盖，布置大量摄像机将带来大规模的 Pipeline 铺设和布线，这很可能对文物建筑造成不可逆的损害。同时，希望有一种更直接的方法来区分目标区域和非目标区域，以提高检测精度并减少误报。

为了解决上述问题，作者通过在建筑物的不规则空间中合理布置镜子，通过镜子的间接视觉扩大摄像头的视野。具体来说，作者利用镜子的反射特性。它可以在不改变物体位置的情况下改变观察者的视角。由它产生的间接视觉可以提供人们更多的信息。通过调整超广角镜的位置和角度，解决了不规则空间中视线受阻的问题，同时所需的摄像头数量也大大减少。同时，通过调整镜子只观察目标监控区域，实现了间接视觉和目标监控区域的对齐，即间接视觉不包含非兴趣区域。同时，通过调整摄像机的角度和焦距，可以获得包含所有间接视觉的最佳图像。

为了安全起见，作者的镜子可以使用丙烯酸镜子。同时，镜子可以轻松地夹在建筑物上，避免过度钉子和固定。同时，大幅减少摄像头也相应减少了电线和 Pipeline 工作量。减少了损坏文物建筑的概率。

Target-Mask Module

火场景检测中存在许多干扰因素。例如，周围环境可能呈现复杂的场景，具有各种背景元素，如许多装饰和人群，这将引入大量的冗余信息和干扰图像。由于这些背景特性带来的过度重复和干扰，区分火烟目标和复杂背景将具有挑战性。目标- Mask 模块的基本原理是利用间接视觉与特征信息的合作，过滤掉不相关特征信息，同时增强有用的特征信息，使模型能以更适应的方式关注图像中的重要区域。传统注意力机制，如 CBAM（卷积块注意力模块）[31]，强调特征图中的重要通道和空间位置，以提高卷积神经网络的表达能力。CA（通道注意力）[32]关注特征图的通道维度，以实现重要通道的增强，但它们都基于直接视觉，没有考虑间接视觉和直接视觉的共存以及如何处理它们对应关系。

在遗产建筑的火监控任务中，为了减少钻孔和布线，作者将利用间接视野来扩展单目摄像头的覆盖面积，从而减少所需的摄像头数量，同时实现间接视野与目标区域的对齐。当需要使用间接视野处理监控任务时，为了解决模型在新复杂情况下的容易误检和遗漏问题，作者设计了最针对性的目标- Mask 模块，并将其插入图像输入和 Backbone 网络之间的 Neck 部分。如图 4 所示，目标- Mask 模块包含三个子模块：间接视觉识别器（IVR）、目标 Mask 生成器（TMG）和 Mask 混合器（MB）。IVR 包括一个间接视觉目标网络，称为目标-Net。目标-Net 内置网络的权重通过预训练进行转移。在第一轮训练中，目标-Net 识别出图像中的间接视野，然后将读取位置信息传输到 TMG。根据获取的位置信息，TMG 将为目标区域生成一个 Mask ，然后传递给 MB。收到目标 Mask 后，MB 将融合并覆盖目标 Mask 与通过图像数据，这样通过图像将只保留间接视野区域内的图像。这样，当后续图像通过目标- Mask 模块时，生成的 Mask 将映射到通过图像，而其他区域将被过滤掉作为非兴趣区域。这样，可以确保检测到的图像中只存在间接视野，防止间接视野和直接视野之间的混淆。同时，通过这种划分和过滤，模型可以更专注于间接视野区域，并消除无关区域的干扰。这种有针对性的检测有助于模型在复杂环境背景下准确识别目标区域内的火特性。与此同时，与传统的 CBAM 和 CA 相比，目标- Mask 模块是基于间接视野检测任务的新型模块。它不仅具有更高的性能，而且在所需的参数方面也更有效。因此，本文选择介绍目标- Mask 模块。将目标- Mask 模块引入 YOLOv8 的 Neck 部分，模型将更关注目标区域的定位信息，从而提高目标区域检测的准确性，减少误报。

IV Experiment and Analysis

Datasets

作者以位于中国的广东省委员会军事委员会的前址作为研究目标。这是一个省级的文化遗产保护单位，因防火监测而困扰。由于文物建筑的特性，实际进行火势测试是不可能的，这也不符合相关的文物保护法规。因此，作者使用 3DMAX 进行虚拟火场模拟，以便进行后续的火警检测实验。通过设置和调整模型中的广角镜，并使用 3DMAX 的渲染方法，作者可以获得相应的场景图像。在本实验中，作者设置了四个目标监测区域和一个非目标区域。通过调整，镜子的间接视图与目标监测区域对齐。

同时，由于场地的高度位置，没有通过线。天花板由不燃混凝土材料制成，远离人群。该区域发生火灾的概率接近零。因此，作者没有设置广角镜来观察这个区域，即这个区域不包括在间接视图内，被用作非目标区域。在这个非目标区域，作者用少量数据挂上一些旗帜，作为检测中的噪声，以测试检测模型的抗干扰能力。这也是场地实际运行中的真实情况。

然后，作者用相机对着建筑的正门拍摄，形成这个火警数据集，基于间接视图。这个数据集包含总共 800 张火警图片，以 1645x2493 的像素大小保存为 JPG 格式。同时，为了验证模型在非目标区域抵抗噪声干扰的能力，作者在非目标区域中添加了 100 个作为噪声的旗帜。最后，它们被随机分为训练集 560 张图像、验证集 120 张图像和测试集 120 张图像。数据集中的部分图像如图 5 所示。

Experimental Environment and Parameter Setting

本研究中使用的实验操作系统是 Win 10，而 PyTorch 作为所开发深度学习模型的底层框架。详细的环境信息请参见表 1。模型训练阶段的超参数包括输入图像大小为 640 x 640，批量大小为 64，优化器为随机梯度下降（SGD），训练轮数为 100 个周期。

学习率初始化为 0.01，动量和权重衰减值分别设置为 0.937 和 0.0005。除其他训练参数外，均使用 YOLOv8n 模型默认值。此外，本研究中提供的官方预训练权重文件被用于增强训练后模型的泛化能力。

Evaluation Metrics

在本文中，主要使用的指标有精确率（Precision）、召回率（Recall）和 mAP。精确率是指模型预测的所有正类别样本中实际为正样本的比例，这衡量了模型在预测正类别时的准确性；召回率是指模型正确预测的所有正类别样本中实际为正样本的比例，这衡量了模型能否高效地找到所有正类别样本；mAP 是一种常用的目标检测任务中的评价指标，它结合了模型在不同类别上的精确率和召回率曲线，并计算平均值，这衡量了模型在多个类别上的检测性能，通常用于评估目标检测算法的整体有效性。其中，mAP50 表示在 50% IoU 阈值处的 mAP 值。

Comparative Experiments on Different Attention Mechanisms

表 2 呈现了使用不同注意力机制整合的结果，包括四种不同的类型：CBAM、CA、SA [33]和 Target-Mask。将 Target-Mask 模块集成到 YOLOv8 中可以获得最佳结果。具体来说，与原始 YOLOv8 相比，它在与非兴趣区域进行检测时，实现了 6.7%的显著改进。

此外，在精度指标的比较中，Target-Mask 模块击败了 CBAM 模块 5%。这表明，在间接视觉检测场景中，与其它注意力模块相比，Target-Mask 在检测性能上具有最大的提升。这主要归因于 Target-Mask 能够直接过滤掉非兴趣区域的干扰，有效降低模型的误报率。在文物保护建筑的防火监测任务中，高精度可以减少误报的频率，从而避免不必要的资源浪费和现场恐慌。

Ablation Experiment

为了验证 Target-Mask 中每个子模块的功能和相互影响，作者在相同的数据集和训练参数下进行了消融实验。结果如表 3 和图 6 所示。在未添加任何子模块的情况下，这代表 Baseline 模型 YOLOv8n 的正常检测性能。当从 Target-Mask 中的三个子模块中仅移除 MB 子模块时，虽然 TMG 可以生成目标 Mask ，但是没有 MB 子模块来叠加和过滤生成的 Mask 与原始数据，原始图像可以顺利通过，检测性能与 Baseline 模型 YOLOv8n 相同。

当仅移除 TMG 子模块时，意味着不会再生成并传递任何 Mask 到 MB 模块，因此原始数据也可以顺利通过而无需处理。然而，当 IVR 子模块被移除时，由于 TMG 无法获取间接视场的位置数据，它将假设原始图像中不存在间接视场，因此生成完全黑色的 Mask ，该 Mask 被传递到 MB 子模块与原始图像数据叠加。

这将过滤掉整个图像。可以看出，当三个子模块同时存在时，模型的性能得到了提高和增强。因此，从实验结果可以得知，Target-Mask 中的三个子模块是相互依赖的。如果其中任何一个被移除，预期的效果将无法实现。

Comparison with Other Models

为了全面调查本文提出的改进模型在火灾检测任务中的性能，作者在相同的数据集和训练参数下，与其他知名目标检测模型进行了系列比较实验。这些模型包括 YOLOv3-Tiny [34]，YOLOv5s [35]，YOLOv7-Tiny [36]，YOLOv8n [37]，YOLOv8n-World [38]，以及最新的 YOLOv9-Tiny [39]。

这些比较实验的结果分别呈现于表 4 和图 7。显然，与其他模型相比，改进模型在三个评价指标（召回率、精确率、mAP50）上取得了最高值，这有力地验证了模型改进的有效性。

当将改进模型与基准模型 YOLOv8n 进行比较时，发现改进模型的 mAP50 值增加了 3.7%。这一显著的提高明确表明，改进模型在确定目标位置和分类目标方面的性能已经得到有效提升。同时，改进模型的召回率也增加了 3%。召回率的提高意味着模型捕捉重要目标物体的能力得到了增强。

在文化遗产建筑的火灾监控中，遗漏火物体或异常事件可能带来严重后果。然而，具有高召回率的模型可以显著降低这种风险。通过 Target-Mask 模块，模型可以完全专注于检测目标区域，这极大地增强了关键区域的图像特征提取能力和对非兴趣区域的抗干扰能力。因此，模型能够更好地捕捉目标物体的特征信息，从而提高模型的整体性能。

Experimental Effect Verification

在图 8 中，作者从测试集选择了一些检测结果样本，以清晰地展示模型改进带来的差异。左侧列是相机获得的原始图像，中间列是使用 YOLOv8n 模型获得的检测结果，右侧列是 MITA-YOLO 模型获得的检测结果。首先，在 YOLOv8n 对数据 a 进行检测时，它可以在非兴趣区域下的间接视觉中识别出火目标。同时，它也可以识别出前方两个旗帜中的图像不能作为火目标。然而，后方白旗中的图案被错误地识别为火目标；而在 MITA-YOLO 对数据 a 进行检测时，除了可以识别出非兴趣区域下的间接视觉中的火目标外，由于非兴趣区域直接过滤，因此不会受到非兴趣区域中的噪声影响，从而不会产生误报。其次，在 YOLOv8n 对数据 b 进行检测时，漏掉了非兴趣区域下的小火目标；而在 MITA-YOLO 对数据 b 进行检测时，由于只使用非兴趣区域作为目标区域，因此浓度更加强，从而成功识别出了非兴趣区域下的小火目标。

从上述比较结果中，作者可以看出，尽管 YOLOv8 在训练过程中可以理解旗帜中的图案不应被识别为火目标，但在某些不熟悉的旗帜形状或位置发生变化时，仍会出现误报。

MITA-YOLO 的检测区域精确，可以直接继承人工先验知识以去除无关区域的干扰，从而大大降低误报率，为现场工作带来极大便利。另一方面，由于 MITA-YOLO 仅关注检测间接视觉区域，并更注重间接视觉区域的目标，在基于间接视觉的场景中，其整体检测精度更高，漏检率也大大降低。

V Conclusion

在本研究中，作者构建了一种基于间接视觉的火灾检测方法，名为 MITA-YOLO。该方法的创新之处在于将间接视觉的优势引入深度学习领域。

首先，通过巧妙的间接视觉安排，不仅扩展了单个摄像头的监测范围，还实现了与目标监测区域的对齐。然后，通过使用作者设计的 Target-Mask 模块，模型可以自动识别每个间接视觉作为目标检测区域，并同时过滤出其他非兴趣区域。

这种设计不仅显著减少了摄像头数量，减轻了文化遗产建筑结构受损和影响历史特征的影响，而且模型可以完全继承可能发生火灾的区域的判断，从而增强火灾检测模型的集中注意力和抗干扰能力。作者的方法不仅提高了文化遗产建筑的防火保护，还减少了误报对场地运营的影响。

基于作者创建的间接视觉火灾数据集，与原始 YOLOv8 和其他主流检测模型相比，MITA-YOLO 在间接视觉检测任务上表现出更高的准确性和鲁棒性。此外，这种检测方法不仅适用于文化遗产建筑的火灾检测，还可以用于需要扩展单目视觉覆盖范围、具有先前区域划分经验需要继承或具有成本节约需求的各类项目。

参考文献

[0]. Mirror Target YOLO: An Improved YOLOv8 Method with Indirect Vision for Heritage Buildings Fire Detection.

END

作者：小书童
来源：集智书童

推荐阅读

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区嵌入式 AI 专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。