FMRFT 融合Mamba和 DETR 用于查询时间序列交叉鱼跟踪 !

鱼的生长、异常行为和疾病可以通过图像处理方法进行早期检测，这对工厂水产养殖具有重要意义。然而，水下反射和某些鱼类因素（如高相似性、刺激性迅速游泳和多目标遮挡）给多目标鱼跟踪带来了挑战。为了解决这些挑战，本文建立了一个复杂的虚拟多场景跟踪数据集，并提出了一个实时端到端鱼跟踪模型，称为FMRFT。
在该模型中，引入了低功耗的Mamba In Mamba (MIM)架构到跟踪算法中，实现多帧视频时间戳记忆和快速特征提取，从而提高了多鱼视频连续帧相关分析的效率。此外，利用RT-DETR的优越特征交互和先验帧处理能力，为鱼提供了一个有效的跟踪算法。
通过将QTSI Query 交互处理模块集成到模型中，该模型可以有效地处理被遮挡的目标和冗余跟踪帧，从而实现更准确和稳定的鱼跟踪。在数据集上进行训练和测试后，该模型实现了分数90.3%和准确率94.3%。
实验结果表明， proposed FMRFT模型有效地解决了鱼类种群中高相似性和相互遮挡的挑战，使得在工厂养殖环境中实现准确跟踪。

1 Introduction

随着养殖业的快速发展，实时监测和评估鱼的状态对于提高养殖效率和增强管理实践至关重要。鱼类对光、水质和养殖密度等外部刺激产生各种行为反应。通过跟踪鱼类状态，农民可以深入了解鱼类的健康状况、环境适应能力等方面。与基于传感器或人工观察的传统方法相比，计算机视觉技术在鱼类跟踪方面具有实时监测、非接触观察和非干扰等优势，可模拟人类视觉来识别和跟踪目标。这种方法在大规模养殖业智能管理方面是一种有效手段。

多目标跟踪是计算机视觉领域的一个任务，专注于在视频序列中定位和跟踪多个目标。在这个领域已经出现了一系列的算法，其中最主要的两种策略是检测器驱动跟踪和 Query 驱动跟踪。检测器驱动跟踪的核心思想是首先使用一个目标检测算法在每个帧中识别目标。然后，匹配算法如DeepSort）、ByteTrack（Zhang, Sun, Jiang, Yu, Weng, Yuan, Luo, Liu和Wang，2022）或其他相关算法被用于在连续帧之间关联和匹配检测到的目标，从而实现目标的轨迹跟踪。这种方法的优势在于其依赖于一个强大的目标检测器，可提供准确的目标位置信息。然而，在涉及遮挡、灯光变化和快速目标运动的复杂场景中，方法仍面临巨大挑战。与之相比， Query 驱动跟踪是一个新兴的方法，将每个目标表示为一个 Query ，通常是一个特征向量，在视频序列中搜索和匹配目标。基于 Query 的跟踪方法特别擅长处理目标外观和遮挡的变化，由于利用目标特征的连续性，在复杂场景中表现出更高的鲁棒性。

尽管跟踪鱼类的任务通常比在物体跟踪中遇到的场景复杂得多。首先，如图1(a)所示，由于诸如呼吸和游泳等行为，不同生长阶段或相同期间个体鱼类的形态变化并不明显，这会增加目标识别的复杂性。其次，如图1(b)所示，鱼类水槽中不同角度的光线条件变化，以及光的反射、散射和吸收，会导致低对比度、低清晰度和图像褪色，从而阻碍目标的精确检测和跟踪。如图1(c, d)所示，鱼类在游泳时常会相互遮盖，尤其是在高密度水产业环境中，这种遮挡会给连续目标跟踪带来严重挑战。此外，氧气产生器产生的气泡、水中的饲料残留和传感器设备可能在图像中的鱼类目标具有相似的纹理或亮度特性，进一步复杂化了鱼类跟踪。

为应对这些挑战，本文提出了一种实时鱼类跟踪模型，FMRFT，用于在复杂工厂养殖场景中追踪鱼类。本文的主要贡献如下：

创新框架融合：作者将Mamba In Mamba (MIM)和RT-DETR创新性地融合在现有MOTR框架内，以实现对鱼类目标的准确跟踪。这种融合策略提高了模型在复杂环境中有效应对遮挡和相似挑战的能力。
新颖的 Query 时间序列交集（QTSI）：作者提出了一种新颖的 Query 交互模块（QTSI），通过计算跟踪 Query 、检测 Query 和实框之间的交叠度（IoU）来实现信息交互和融合，从而在训练阶段减少对单一跟踪 Query 的依赖，并有效防止产生多个冗余检测帧。
增强数据融合方法（Fusion MIM）：为了进一步提高特征提取的深度和广度，作者设计了新的数据融合方法，即Fusion MIM，通过在不同尺度的MIM特征信息深度融合来增强模型通过特征交互提取多个层面的特征的能力。
新颖的时间跟踪 Query 交互模块（MQIM）：作者引入了一种Mamba Query 交互模块（MQIM），通过更深入地与解码层输出进行交互来使跟踪 Query 得以学习。这种交互机制增强了模型在动态场景中适应目标变化的能力，并提高了跟踪稳定性。
新建立的多目标鱼类跟踪数据集：作者已经建立了一个新的多目标鱼类跟踪数据集，该数据集包括各种养殖场景中的鲟鱼跟踪数据，共包含8000张高质量的鲟鱼跟踪图像。该数据集为鱼类行为分析和健康状况评估提供了宝贵的视觉资源。

本文其余章节的要点如下：第二章回顾了鱼类跟踪的前期工作，并简要介绍了Mamba和DETR模块；第三章详细介绍了所提出的FMRFT方法；第四章进行了比较和消融实验，并呈现了实验结果的视觉化。最后，第五章总结了本文，并对未来的研究提出了建议。

2 Related Work

多目标跟踪（MOT）是计算机视觉领域的一个重要技术，广泛应用于自动驾驶、智能监控和行为识别等领域。然而，多目标跟踪也面临着遮挡、变形、运动模糊、拥挤场景、快速运动、光照变化和尺寸变化等挑战，这些挑战同样出现在单目标跟踪中。此外，多目标跟踪还涉及到领域特定的复杂挑战，例如轨迹的初始化和终止，以及类似目标的相互干扰。因此，多目标跟踪仍然是图像处理的一个具有挑战性的领域，并继续吸引大量的长期研究投资。目前，有两种常用的目标跟踪策略，以下将介绍：

Tracking by Detection

基于检测的目标跟踪（Tracking by Detection）是多目标跟踪（MOT）领域中广泛使用的一种范式（Benjidira, Koubaa, Azar, Khan, Ammar和Boulila，2022）。如图2所示，该方法通常包含两个步骤：目标检测和目标关联（Jiao, Zhang, Liu, Yang, Hou, Li和Tang，2021）。检测使用各种深度学习模型进行。然而，主要的挑战在于目标关联，即跟踪感兴趣物体的轨迹（Wojke, Bewley和Paulus，2017）。用于目标关联的常见方法包括线性回归（Seber和Lee，1977）、均值漂移（Comaniciu, Ramesh和Meer，2000）、隐马尔可夫模型（Chen, Fu和Huang，2003）、卡尔曼滤波器（Rodriguez, Sivic, Laptev和Audibert，2011; Reid，1979）、扩展卡尔曼滤波器（Mitzel和Leibe，2011）、粒子滤波器。

作为检测基础目标跟踪的创始者，Bewley等人（Wojke等人，2017）开发了首个高效的在线多目标跟踪方法，SORT，通过使用卡尔曼滤波器进行运动预测和匈牙利算法进行数据关联，在视频中实现对多个目标的快速和精确跟踪。Wojke等人（Wojke等人，2017）提出了DeepSORT算法，该方法借鉴了SORT。通过引入深度学习获取的外观特征，DeepSORT解决SORT在处理遮挡和长时间跟踪时遇到的识别切换问题，从而增强了多目标跟踪的鲁棒性。StrongSORT（Du, Zhao, Song, Zhao, Su, Gong和Meng，2023）通过改进目标检测、特征嵌入和轨迹关联，以及引入AFLink和GSI算法，进一步改善了多目标跟踪。通过将几乎所有检测帧与高分目标关联，StrongSORT改进了跟踪性能和准确性。ByteTrack（Zhang等人，2022）通过将几乎所有检测帧与高分目标关联，解决了SORT可能错过真实目标并使轨迹碎片化的问题。OC-SORT（Cao, Pang, Weng, Khirodkar和Kitani，2023）算法通过引入观测中心重新更新（ORU）和观测中心动量（OCM）解决遮挡和非线性运动引起的累积错误和目标方向估计不准确问题。

在检测基础的鱼跟踪方法中，通常使用主流的目标检测算法来检测鱼。例如，Martija等人（Martaja和Naval，2021）通过 Reshape 深度匈牙利网络（DHN）为连续帧之间的预测检测计算判别性亲和力分数，与Faster R-CNN模型相结合，在野外捕获的视频序列中检测连续的鱼跟踪。Sun等人（Sun, Zhang, Shi, Tang, Chen, Xiong, Dai和Li，2024）提出了基于YOLOv7-DCN和SORT算法的跟踪技术，该方法在渔船上跟踪主要目标，使用增强的目标检测和计数算法，集成卡尔曼滤波器和匈牙利算法。Wang等人（Wang, Xia和Lee，2021）开发了一种并行形状指数特征为基础的鱼跟踪算法，该算法检测鱼头和鱼体中心，并集成SORT框架和卡尔曼滤波器，准确跟踪大量红鲫鱼的运动轨迹。Gong等人（Gong, Hu和Zhou，2022）通过将CBAM关注机制集成到YOLOv4-tiny模型中，结合特征学习，与SORT跟踪器一起实现水下鱼的高效和精确跟踪。

检测基础的目标跟踪方法广泛应用于多目标跟踪（MOT）领域。然而，由于多目标跟踪的复杂性和挑战性，仍存在许多不足之处。为了解决这些问题，研究者们提出了各种改进方法，如基于深度学习的多目标跟踪方法（如DeepSORT）和基于检测的方法（如StrongSORT、ByteTrack和OC-SORT）。这些方法在提高多目标跟踪的性能、准确性和鲁棒性等方面取得了较大的进展。然而，现有的方法还存在一些问题，如计算资源的消耗、实时性要求等方面仍需改进。因此，继续研究新的多目标跟踪方法，如基于深度学习的多目标跟踪方法，可以为进一步提高多目标跟踪的性能和准确率提供新的思路。

Tracking by Query

在计算机视觉领域，自注意力机制（尤其是Transformer）的普遍应用让 Query 引导的目标跟踪方法在跟踪鲁棒性方面展示出了显著的优势，为多目标跟踪（MOT）领域带来了新的研究视角和突破（Kugarajeevan等人，2023）。目前，TransTrack（Sun等人，2020）和TrackFormer（Meinhardt等人，2022）是两种采用Transformer架构来解决MOT任务的代表性跟踪框架。TransTrack将目标检测和关联整合到一个统一的框架中，利用Transformer的注意力机制，如图3所示。相反，TrackFormer算法引入了一个基于Transformer的编码-解码架构，并采用自回归轨迹 Query 机制，有效地解决了多目标跟踪的关键挑战，包括数据关联、身份保持和连续帧中的时空轨迹预测。此外，它还实现了端到端可训练的多目标跟踪和分割，如图4所示。

此外，徐等人（2022年）提出了一个第一人称多目标跟踪架构，首次解决了拥挤场景下的检测不准确和计算效率低的问题，通过引入密集图像关联检测 Query 和高效稀疏跟踪 Query 。这一创新极大地提高了多目标跟踪的准确性和操作效率。MOTR（Zeng等人，2022）算法通过引入“跟踪 Query ”和迭代预测机制，进一步提高了视频序列跟踪的准确性和效率。MOTRv2（Zhang，Wang和Zhang，2023）算法通过整合预训练的YOLOX目标检测器来生成 Anchor 点，显著提升了多目标跟踪的检测性能，既提高了准确率又提高了效率。

鉴于其灵活的 Query -键机制，许多学者最近将Transformer架构应用于多鱼跟踪领域。Gupta等人（2021年）提出了一个名为DFTNet的深度鱼跟踪网络，该网络通过结合编码外观相似度用的双网络和捕捉连续帧之间运动相似度的Attention Long Short-Term Memory网络（Attention LSTM），实现了高效鱼跟踪。Li等人（2024年）引入了一个基于Transformer的多鱼跟踪模型（TFMFT），并采用了多种关联（MA）方法，以增强跟踪的容错能力，通过在ID匹配模块中集成简单的互相链接匹配。Liu等人（2024年）开发了FishTrack，这是一个具有三个分支的鱼跟踪模型：目标检测、轨迹预测和重识别。该模型同时建立了鱼运动的模型和外观模型，实现了多鱼在线跟踪。Mei等人（2024年）提出了一种新型的单目标鱼跟踪方法，SiamFCA，它基于双网络和坐标注意力机制。这种方法还通过使用对比受限的自适应直方图均衡化（CLAHE）进一步增强了图像的对比度和模型的准确性和鲁棒性。

然而，上述方法主要解决了诸如遮挡和复杂环境等问题，而往往忽略了鱼体不同部分的强关联以及连续帧之间的时间连续性。这种忽视会导致一些现象，如具有相似形状的鱼体部分被错误地认为是同一种鱼，以及检测帧中的冗余。

Vision Mamba and RT-DETR

在视觉表示学习中，Vision Mamba (Zhu, Liao, Zhang, Wang, Liu和Wang, 2024)模型的引入带来了传统Transformer结构的重大突破。通过利用双向状态空间模型(BSSM)，Vision Mamba旨在克服传统自注意力机制在处理长序列数据时的扩展性限制。与Vision Transformer (Dosovitskiy, Beyer, Kolesnikov, Weissenborn, Zhang, Unterthiner, Dehghani, Minderer, Heigold和Gelly, 2020)模型相比，Vision Mamba通过BSSM高效地处理图像序列，同时捕捉全局和局部视觉信息，实现了线性时间复杂度，从而显著提高了计算效率。

Vision Mamba模型在处理长序列数据方面的显著优势使其在涉及高分辨率图像和视频数据的视觉任务中脱颖而出。在此基础上，众多研究行人通过引入诸如Fusion Mamba、Mamba in Mamba (Chen, Tan, Gong, Chu, Wu, Liu, Ye和Yu，2024)和VMamba等方法进一步改进了模型，从而为视觉表示领域开辟了新的研究方向。

DETR (Carion, Massa, Synnaeve, Usunier, Kirillov和Zagoruyko,2020)将目标检测任务转变为多类分类问题，通过集成Transformer架构，具有精确的目标定位和关系建模优势，因此特别适用于如多目标跟踪等应用。然而，DETR同时也与高计算复杂度和大量资源需求相关联。

相比之下，RT-DETR (Zhao, Lv, Xu, Wei, Wang, Dang, Liu和Chen, 2024)模型利用Transformer架构的优势，显著提高了推理速度和准确率。通过高效集成编码器IoU Query 选择，同时移除了传统NMS后处理的需要，RT-DETR在实时目标检测方面取得了重大突破。

在目标跟踪的特定领域，现有的基于Transformer的框架通常面临如目标损失和计算效率低下等挑战，尤其是在长时间跟踪快速移动的目标时。为了克服这些挑战并提高跟踪稳定性和精确度，本研究将Mamba在Mamba（MIM）框架与RT-DETR相结合。这一结合利用了MIM框架在高效长序列处理能力和特征提取内存机制方面的优势，从而实现了更有效的鱼类目标跟踪。这种方法不仅增强了实时跟踪性能，还提高了在复杂环境中适应目标运动特性的能力，为目标跟踪领域提供了一种新颖的技术解决方案。

3 Methods

Main Framework

本框架利用MIM架构进行特征提取，RT-Decoder架构进行解码，以及QTSI和MQIM模块进行检测和跟踪 Query 的后续处理。整体结构如图5所示。首先，视频序列依次输入到模型中，其中每一帧都通过MIM架构进行高效的特征提取和编码。为确保 Query 充分学习特征信息，模型在训练阶段整合了RT-DETR的独特的不确定最小 Query 选择机制。

使用RT-DETR的特定方案从编码器中提取初始化检测 Query 并输入到RT-Decoder进行解码。对于后续帧，使用前帧的跟踪 Query 和解码的检测 Query 作为当前帧的跟踪 Query ，在经过QTSI后进行互动。同时，跟踪 Query 和新初始化的检测 Query 通过MQIM处理，作为下一帧的跟踪 Query 。

Fusion MIM

本论文提出了一个创新性的特征提取模块Fusion MIM，该模块结合了特征融合单次多帧检测器（FSSD）的优点。该模块专门设计为增强从深层特征到浅层映射的详细信息，同时提高从浅层特征到全局信息的有效传输。Fusion MIM模块如图6所示。

本模块在不同的尺度上设置了四个MIM特征提取子模块，以获得图像的视频帧图像X的初始视觉词维度W0和视觉句维度S0，如图1所示：

接着，通过四个MIM模块的不同深度，将初始视觉词和视觉句维度转化为不同尺度的特征信息F，如图2，图3和图4所示：

其中，表示相应的特征提取过程，表示每个MIM模块的深度，并将其转换为特征融合模块相互作用的信息融合，如图5和图6所示：

其中，表示特征映射模块，通过加权融合将深层细节信息映射到浅层特征，表示双交叉注意力模块，通过依次处理多个尺度的编码器特征以捕捉长程依赖关系并消除编码器与解码器特征之间的语义鸿沟。这种精心设计的特征融合策略有效地整合了Mamba In Mamba中的各种尺度的特征，提高了特征表示的丰富性和准确性，并为提取鱼体边界提供了可靠的支撑。

Query Time Sequence Intersection

由于个别鲸鱼之间的相似度过高和鱼类之间的严重遮挡，使得原始的MOTR模型过度依赖Track Query，导致假跟踪问题。为解决这个问题，本文提出了一种Query Temporal Interaction Module（QTSI），该模块借鉴了MO-YOLO（Pan等人，2023）模型。QTSI使得模型能够在均匀分布Query检测的同时最小化额外的计算负担，该模块仅在训练阶段使用。QTSI的主要框架如图7所示。

由于Detect Query和Track Query都包含目标的边界框（BBOX）信息，因此通常通过Detect Query预测新目标。这种方法有助于避免原始模型中跟踪 Query 可能会从帧t（t>2）错误地传递到后续帧进行预测的问题。QTSI的具体计算过程如图8所示：首先定义以下术语：

Detection Frame BBox：对应于前一帧的检测 Query 。
Tracking Frame BBox：对应于前一帧的跟踪 Query （不包括新的匹配），
Real Frame ：前一个时间步骤的真实帧。
Tracking Query ：前一帧的跟踪 Query （包括新的匹配）。

这里l、m、n和分别表示检测帧、跟踪帧、真实帧和新匹配 Query 的数量，分别为m+o=n。定义MIOU（最大交并比）为最大IOU，ERF为每个真实帧，ETF为每个跟踪帧，EDF为每个检测帧。

Mamba Query Interaction Module

这篇论文中，作者提出了一种新的基于Mamba的 Query 融合交互模块（MQIM），将其原始QIM模块转变为基于Mamba的时空特征交互模块。通过利用视觉Mamba（Zhu等人，2024年）的双向时序交互机制，MQIM可以通过长期特征记忆和反馈促进多个帧的特征关联。这种增强改进了快速移动物体的跟踪。模块图示如图9所示。

通过与QTSI模块处理的跟踪 Query 以及对应的时间特征解码输出进行交互，下一帧的初始跟踪 Query 从当前帧中获得先验知识。这个过程使得之前帧的跟踪结果更好地应用到下一帧的跟踪中。### 联合平均损失

在这篇论文中，作者使用了多个损失模块进行优化，每帧图像的损失计算如方程（8）所示。

由于MOTR算法将多帧图像的通用损失作为整个视频序列的总体损失，从而有效提高了时间序列视频序列的跟踪性能，本文也采用这种方法优化损失计算。根据方程（8）计算跟踪损失和检测损失，然后分别求和并求平均，如图9和10所示：

4 Experiments

Datasets and Settings

在这篇论文中，作者构建了一个新的鱼类追踪数据集。该数据集中的视频片段在中国农业大学的数字渔业国家创新中心录制。摄像头的分辨率为1920×1080，帧率为30 FPS。视频片段在两个不同的实验场景中录制，如图10所示。

为了模拟一个真实的养殖场景（例如涉及气泡、水流旋转等的环境），场景2加强了水流和氧气设备，以及各种形态的传感器。视频属性的详细信息请见表1，视频片段长度为10到20秒。通过视频帧分割和自动标记技术共计获得了11,000张标记好的视频帧。表1中还呈现了数据集的训练和测试集划分信息，两个情况都包含在数据集中。

本实验所使用的硬件环境包括：处理器：13代英特尔酷睿i9-13900K 32核，内存：128 GB，以及GPU：2 x NVIDIA GeForce RTX 4090。操作系统为Ubuntu 23.04，并使用PyTorch框架实现代码。其他相关实验参数请见表2。

Evaluation Metrics

为了证明所提出的FM-RFT模型具有优越性，本文使用了多种指标，包括多目标跟踪精度（MOTA）（11）（Dendorfer, Rezatofighi, Milan, Si, Cremers, Reid, Roth, Schindler和Leal-Taixe，2020; Ciaparrone, Sanchez, Tabik, Troiano, Tagliaferri和Herrera，2020）、识别F1分数（IDF1）（Ristani, Solera, Zou, Cucchiara和Tomasi，2016）、识别精度（IDP），识别召回率（IDR）以及每秒钟帧数（FPS），以及每个GPU的训练内存分配（TMA）。

MOTA测量单摄像机多目标跟踪的准确性，通过方程（11）计算：

其中，表示模型误预测为负的样本比率，表示模型误预测为正的样本比率，表示所有帧中目标跳变的总和（即跟踪轨迹从'跟踪'到'无跟踪'的变化），而是在所有帧中真正目标的总数。MOTA越接近1，跟踪器性能越好。

MOTP是衡量单摄像机多目标跟踪匹配准确性的指标，即预测轨迹与真实轨迹之间的距离，反映跟踪结果的准确性，并通过方程（12）计算：

其中表示帧中匹配的数量。对于每对匹配，计算匹配误差，是假设与其分配的真实目标之间的边界框重叠。

图10显示了两种不同的数据收集环境。

识别F1分数（IDF1）表示物体识别在每个物体帧上的F1分数，通过下面的方程（13）计算：

此外，和用于更详细地评估检测器和跟踪器的性能。计算和的公式如下：

其中IDTP和IDFP分别表示真正阳性ID数量和假阳性ID数量，IDFP表示假阴性ID数量。IDTP表示整个视频中正确分配的检测物边缘权重的总和，表示准确分配检测物的百分比。IDFN表示选择为假阳性ID边缘的总和，而IDFP表示选择为假阴性ID边缘的总和。

Experimental Evaluation

为了突出本文提出的模型的优势，作者在新的鲟鱼数据集上训练并测试了主流的检测跟踪和 Query 跟踪方法，所有实验在相同的实验条件下进行，结果如下表所示（表示较低的值更好，表示较高的值更好）。在这张表中，OC-SORT （Cao等人，2023年）和 FairMOT （Zhang，Wang，Wang，Zeng 和 Liu，2021年）是基于检测的方法，其余模型是基于 Query 的，包括 TrackFormer （Meinhardt等人，2022年），TransCenter （Zeng等人，2022年），MOTR （Zeng等人，2022年），MOTIP （Yang，Duraiswami 和 Davis，2005b），以及本文提出的 FMRFT。

从表3中可以看出，FMRFT在 IDR，MOTA 得分上最高，分别是90.3%，90.4%，96.3%，同时保持了较低的 MOTP 为 0.123。此外，在训练过程中，FMRFT展示了良好的 FPS 和低的视频内存使用。

与基于检测的传统方法相比，FMRFT 在多目标鱼跟踪任务中显示出显著的优势。虽然基于检测的方法在检测速度方面具有优势，但在跟踪和识别准确性方面不足，尤其是在复杂场景中。相比之下， Query 式多目标跟踪模型在相关指标上有所提升。其中，TransCenter获得了最高的 IDP，MOTR获得了最低的 MOTP。然而，FMRFT 在 IDF1和 MOTA 指标上展现出最佳的整体性能。

为了进一步验证 FMRFT 模型的有效性，作者在相同的实验场景下通过可视化跟踪结果来展示其性能。如图11所示，对比 T 时刻、T+100 时刻和 T+300 时刻的跟踪结果，基于检测的方法在目标跟踪方面表现良好，但当同时跟踪多个物体时大量非检测发生。对于 Query 式 TransCenter 和 TrackFormer 模型，当存在大量鱼类遮挡时，跟踪有效性显著下降。虽然 MOTR 和 MOTIP 在识别和跟踪方面表现良好，但存在更多重复帧，尤其是在长时间跟踪中这一问题尤为明显。相比之下，本文提出的 FMRFT 模型在长时间跟踪以及诸如遮挡、强光照和传感器干扰等复杂场景下，维持了良好的跟踪性能。

Ablation Experiment

在本论文中提出的FMRFT模型中，采用融合MIM（Fusion MIM）架构进行特征提取，采用RT-Decoder架构进行编码，从而实现对多目标鱼的高准确识别，同时增强了对抗复杂环境如遮挡和眩光的鲁棒性。然后，使用 Query 时间序列交集（Query Time Sequence Intersection, QTSI）模块进行后处理检测和跟踪 Query ，有效地最小化了多标签分配给同一跟踪目标的问题。最后，加速移动目标的跟踪性能，采用Mamba Query 交互模块（MQIM）。在多个帧中进行特征记忆和关联，从而提高跟踪性能。为了验证每个模块的有效性，进行了消融实验，结果如表4所示。其中，↓表示更好，↑表示更高。

从表4可以看出，将MQIM、融合MIM和QTSI模块集成到主框架中，可以提高所有性能指标，相对于主框架模型，IDF1提高了7.8%，MOTA提高了8.8%，MOTP降低了0.048。这进一步证实了各模块的有效性。

为了进一步阐明各模块的作用，图12显示，单独的主框架能实现良好的跟踪性能，但仍然存在误检和漏检，如图12中绿色圆圈所示。此外，传感器干扰会导致错误检测，如图12中蓝色圆圈所示。通过集成相关模块，这些误检和漏检逐渐减少，跟踪准确性显著提高。图12的反方 illustrates that当使用MOTR模型中的TALA模块时，在长时间跟踪过程中，单目标的多重跟踪帧仍然存在，如图12第三行最后一张图片所示的红色帧。最后一行，使用本文提出的OTSI模块，新检测到的目标的权重较高，从而减小了过度依赖前帧跟踪结果导致的冗余帧。另外，MQIM和融合MIM模块的组合使用，带来了非常有成效的跟踪结果。

Visualization and Generalizability

为了观察FMRFT在各种实验场景下的跟踪准确性，本节将模型应用到的图13所示的场景中，以进一步验证其鲁棒性。尽管场景1的环境相对简单，由于外科医生形态的微小差异，存在重叠遮挡和飞溅等问题，但模型表现出了卓越的跟踪性能。在场景2中，尽管存在挑战如金属容器反光、水流、传感器和供氧设备等问题，但FMRFT仍能保持高性能。从时刻T到时刻T+200，该模型准确地追踪每位外科医生，即使在存在复杂环境因素的情况下，也展示了高识别准确性。

为了验证模型的长期稳定性，作者在场景2中的时刻T、T+100、T+400和T+900评估了FMRFT的跟踪性能，如图14所示。结果表明，FMRFT在时间上保持了一致和稳定的跟踪。然而，有一些鲸鱼 Either过于被遮挡或从实验场景中退出，这表明可能需要为消失场景中的物体分配新的跟踪ID。为了进一步提高模型优化，未来的工作将侧重于结合专门的特征记忆等方法，以增强目标出现的场景的跟踪稳定性。

5 Conclusion

在本文中，作者提出一种名为FMRFT的实时鱼跟踪模型，该模型基于 Query -时互动，将Mamba在Mamba(MIM) 和 RT-DETR 框架集成，以解决复杂场景中遮挡和冗余检测帧的问题。该模型利用了 MIM 和 RT-DETR 融合框架的低图形内存占用。

鉴于鱼和场景之间的相似度较高以及场景中存在干扰物，作者介绍了一种新型的特征提取框架 Fusion MIM，该框架设计用于深入提取鱼特征。针对单一鱼的多重重叠冗余跟踪帧问题，作者开发了一种新颖的 Query -时互动模块和基于 MIM 的特征互动模块，以提高连续帧之间的跟踪相关性和消除冗余帧。在所提出的手术鱼跟踪数据集上进行测试，该模型实现了 90.3% 的 IDF 和 94.3% 的 MOTA，证实了其有效性。

消融实验证实，该模型在各种条件下保持了准确和稳定的鱼跟踪性能，包括明亮的灯光、反射和水波等。总体而言，所提出的鱼跟踪模型适合复杂场景，为工厂养殖中的鱼跟踪提供了一种新的解决方案。

参考

[1].FMRFT: Fusion Mamba and DETR for Query Time Sequence Intersection Fish Tracking.

来源：集智书童

推荐阅读

欢迎大家点赞留言，更多Arm技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。