【导读】研究人员对基于 Transformer 的 Re-ID 研究进行了全面回顾和深入分析,将现有工作分类为图像/视频 Re-ID、数据/标注受限的 Re-ID、跨模态 Re-ID 以及特殊 Re-ID 场景,提出了 Transformer 基线 UntransReID,设计动物 Re-ID 的标准化基准测试,为未来 Re-ID 研究提供新手册。
目标重识别(Object Re-identification,简称 Re-ID)旨在跨不同时间和场景识别特定对象。
近年来,基于 Transformer 的 Re-ID 改变了该领域长期由卷积神经网络(CNN)主导的格局,不断刷新性能记录,取得重大突破。
与以往基于 CNN 与有限目标类型的 Re-ID 综述不同,来自武汉大学、中山大学以及印第安纳大学的研究人员全面回顾了近年来关于 Transformer 在 Re-ID 中日益增长的应用研究,深入分析 Transformer 的优势所在,总结了 Transformer 在四个广泛研究的 Re-ID 方向上的应用,同时将动物加入 Re-ID 目标类型,揭示 Transformer 架构在动物 Re-ID 应用的巨大潜力。
论文地址:http://arxiv.org/abs/2401.06960
项目地址:https://github.com/mangye16/ReID-Survey
Transformer 架构方法打破 CNN 架构性能记录
研究背景
Transformer 以优异性能满足各种 Re-ID 任务的需求,提供一种强大、灵活且统一的解决方案。
研究人员将现有工作分类为基于图像/视频的 Re-ID、数据/标注受限的 Re-ID、跨模态 Re-ID 及特殊 Re-ID 场景,详细阐述 Transformer 在应对这些领域中各种挑战时所展现的优势。
考虑到无监督 Re-ID 的流行趋势,研究人员提出了新的 Transformer 基线——UntransReID,在单模态/跨模态任务实现最先进性能。
一般的 Re-ID 流程
针对尚未被充分探索的动物 Re-ID 领域,研究人员还设计了标准化的基准测试,进行广泛的实验以探讨 Transformer 在这一任务中的适用性,促进未来研究。
最后,讨论了一些在大模型时代中重要但尚未深入研究的开放性问题。
Transformer 在图片/视频 Re-ID 的应用
Transformer 在 backbone 层依靠注意力机制,具有全局、局部和时空关系的通用建模能力,有助于在图像/视频 Re-ID 任务中轻松提取全局、细粒度和时空信息。
Transformer 在图像 Re-ID 的应用
1. 架构优化:设计特殊的 Transformer 架构,如金字塔结构、层次聚合等,或改进注意力机制。
2. Re-ID 特定设计:利用视觉 Transformer 具备注意力机制和图像块嵌入的特性,捕捉局部区分性信息。通过 Transformer 中的编码器-解码器结构实现某些关键信息的解耦。根据不同目标类型的结构先验和任务特性进行 Transformer 架构设计。
图像 Re-ID 方法设计的不同 Transformer 架构
Transformer 在视频 Re-ID 的应用
1. 应用 Transformer 进行后处理:许多应用 Transformer 的视频 Re-ID 方法为混合架构,先利用 CNN 模型提取特征,再使用 Transformer 模型进一步处理。通过 Transformer 的自注意力机制,捕捉序列中的长期依赖关系和上下文信息。
2. 纯 Transformer 架构:为克服混合架构中 CNN 导致的长距离信息获取受限,一些研究尝试探索纯 Transformer 架构在视频 Re-ID 中的应用。
数据/标注受限的 Re-ID
Transformer 为无监督学习提供更多可能。Transformer 能够对更强大、更通用的模型进行广泛自监督预训练,以应对数据或标注受限的 Re-ID 任务。标注受限场景通常采取无监督 Re-ID,而数据受限则主要通过领域泛化 Re-ID 解决。
Transformer 在无监督 Re-ID 的应用
1. 自监督预训练:一类针对无监督 Re-ID 中 Transformer 应用的研究关注自监督预训练。Transformer 模型对大规模无标签数据具有强大可扩展性,其结构的灵活性提供了更多样化的自监督范式。
2. 无监督领域自适应:Transformer 在无监督领域自适应(UDA)问题中受到的关注有限。对于行人 Re-ID,Wang 等人借助 Transformer 实现不同身体部位之间的细粒度领域对齐。对于车辆 Re-ID,一项工作通过联合训练策略,令 Transformer 自适应地关注每个域中车辆的判别部分。
Transformer 在跨模态 Re-ID 的应用
Transformer 提供了统一的架构,有效处理不同模态的数据。多头注意力机制可在各种特征空间和全局语境中聚合特征。高度适应性的编码器-解码器结构可容纳不同类型的输入和输出。因此 Transformer 特别适合在跨模态 Re-ID 中建立模态间关联,促进多模态信息的融合。
可见光-红外 Re-ID旨在匹配白天的可见光图像与夜间的红外图像。因红外图像缺乏颜色与光照条件,视觉 Transformer 可更好地捕捉模态不变特征并具备更强的鲁棒性。视觉 Transformer 的结构及其注意力机制可在 patch 级别轻松建立局部跨模态关联。现有可见光-红外 Re-ID 方法聚焦于学习模态共享特征,将特征分解为模态特定特征和共享模态特征,在特征层面进行模态对齐。
文本-图像 Re-ID为跨模态检索任务,根据文本描述在图像库中识别目标。作为 Transformer 架构在多模态应用中的里程碑,对比语言-图像预训练(CLIP)等大型多模态预训练模型使该领域取得显著进展。近期,CLIP 已成为下游文本-图像 Re-ID 任务中的有力工具。
素描-图像 Re-ID 与骨架 Re-ID均属于跨模态匹配任务,前者基于艺术家或业余者绘制的素描,后者则基于姿态估计生成的骨架图。Transformer 擅长提取全局特征,在素描-图像 Re-ID 中表现突出。对于骨架 Re-ID,可利用 Transformer 对骨架点构成的图结构进行全关系建模。
Transformer 在特殊 Re-ID 的应用
在实际应用需求的推动下,Re-ID 领域出现一系列特殊应用场景。Transformer 被初步应用于这些复杂挑战,体现了卓越的可扩展性和适应性。
遮挡 Re-ID:遮挡 Re-ID 场景下,图片中的识别目标被部分遮挡,导致身份信息难以完整提取。近年来基于 Transformer 的方法在这一场景取得显著成效,其核心策略包括提取局部区域特征。
换衣 Re-ID:在长期 Re-ID 场景中,行人可能会以未知方式更换衣物,以服装外观为主导的判别性特征表示将失效。Lee 等人在换装 Re-ID 场景下对不同的特征提取主干网络进行评估,Transformer 架构相较于 CNN 表现出显著性能优势。
以人为中心的任务:以人为中心的通用模型旨在将包括行人检测、姿态估计、属性识别和人体解析在内的多个人体相关任务整合到同一框架中,从而相互促进,提升如 Re-ID 这类下游任务的性能。
行人检索:行人检索是一种端到端方法,通过多任务学习同时解决行人检测与 Re-ID 这两个目标冲突的问题。将多尺度 Transformer 架构引入行人检索方案可实现查询层面的实例级匹配。
群体 Re-ID:群体 Re-ID 利用群体中的上下文信息来匹配在同一个群体中的个体,面临群体成员变动与布局变化等挑战。传统方法在位置建模方面存在不足,利用 Transformer 的位置嵌入机制可更好地处理群体级别的布局特性。
无人机 Re-ID**:**与固定摄像头相比,无人机在高度与视角上快速变化,导致图像更为复杂。在鸟瞰图像中分析车辆与行人时,显著的边界框尺寸差异与物体方向不确定性是关键挑战。除了纯无人机视角 Re-ID 外,还有研究重点关注空中与地面视角的跨域匹配。
特殊 Re-ID 场景
新基线 UntransReID
研究人员提出了一个单模态/跨模态的常规无监督 Re-ID 基线 UntransReID。
无监督 Re-ID 基线 UntransReID
单模态无监督 Re-ID:研究人员在无监督训练过程中设计了一种面向 patch 级别的 mask 增强策略。在数据增强过程中采用一系列 learnable tokens 来 mask 部分图像 patch,并在训练过程中建立原始特征与掩码特征之间的对应关系,将此作为监督信号来引导模型学习。
跨模态无监督 Re-ID:针对可见光-红外跨模态行人 Re-ID,研究人员设计了一种双流 Transformer 结构,包含两个面向特定模态的 patch 嵌入层以及一个模态共享的 Transformer。为进一步提升模态的泛化能力,在可见光通道中引入随机通道增强作为额外的输入,实现联合训练。
实验结果分析:对于单模态无监督 Re-ID,UntransReID 取得了与当前最先进方法相当的性能。跨模态 Re-ID 现有先进方法大多基于 CNN 且需要复杂的跨模态关联设计,UntransReID 在多个可见光-红外 Re-ID 数据集上凭借简洁的设计实现了最先进的性能。
表 1 基于 CNN/Transformer 的有监督/无监督方法的实验结果
表 2 可见光-红外跨模态基线在 RegDB 和 SYSU-MM01 上的实验结果
动物 Re-ID
研究人员特别探讨了动物 Re-ID 领域研究现状,总结近年来的动物 Re-ID 数据集和基于深度学习的动物 Re-ID 方法,为动物 Re-ID 制定统一的实验标准,并评估在此背景下使用 Transformer 的可行性,为未来的研究奠定坚实基础。
近年来的动物 Re-ID 数据集
动物 Re-ID 方法
基于全局图像的方法:许多现有研究借鉴行人 Re-ID 的传统方法,将完整的动物图像输入深度神经网络以获取可靠的特征表示。
基于局部区域的方法:一些工作在数据采集与特征提取阶段关注动物的关键部位,例如牛的头部、大象耳朵、鲸鱼尾巴以及海豚的鳍等。
基于辅助信息的方法:Zhang 等人以牦牛头部左右朝向的简化姿态为辅助监督信号,强化特征表示;Li 等人借助姿态关键点估计将老虎图像划分为多个身体部位进行局部特征学习。
动物 Re-ID 的统一基准测试
研究人员使用多种先进的通用 Re-ID 方法进行了广泛动物 Re-ID 实验。实验评估了基于 CNN 架构的 BoT 方法和基于 Transformer 架构的 TransReID、RotTrans 方法。基于 Transformer 架构的方法在多数情形下表现更优,本实验证明了 Transformer 在动物 Re-ID 应用的可行性与巨大潜力。
最先进的 Re-ID 方法在多个动物数据集上的评估结果
未来展望
Re-ID 与大语言模型的结合
将大语言模型(LLM)与 Re-ID 任务深度融合正成为热门研究方向。通过生成或理解视觉数据的文本描述,LLM 可在细粒度语义提取、无标记数据的利用以及模型泛化能力提升等方面为 Re-ID 提供有力支持。
通用 Re-ID 大模型构建
满足多模态、多目标的实际应用场景是 Re-ID 未来的重要诉求。Transformer 在多模态数据融合和大模型训练中表现出突出能力,可用于同时处理视觉、文本乃至更多元的信息,从而建立模态无关、任务统一的通用 Re-ID 模型。
面向高效部署的 Transformer 优化
视频监控、智能安防等场景要求实时性与轻量级部署,在保持 Transformer 鲁棒性的同时需要减少计算开销。有效迁移通用预训练模型的知识到特定 Re-ID 任务,应对大规模动态更新中的灾难性遗忘问题,这些也是未来亟待解决的课题。
参考资料:
http://arxiv.org/abs/2401.06960
END
来源:OpenCV学堂
推荐阅读
- MITA-YOLO: 一种改进的间接视觉 YOLOv8 方法用于目标检测!
- 使用 PyTorch 加速生成式 AI 之 GPT Fast
- LoRA 适配器无缝集成,创新 4 位量化技术,助力扩散模型在边缘设备上的高效部署 !
- 【ml-engineering 翻译系列】计算加速器之 gpu
欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式 AI 专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。