OrientedFormer: 基于 Transformer 的定向目标检测新框架！

由于遥感图像中的目标具有多方向分布，定向目标检测是一个具有挑战性的任务。最近，与传统卷积神经网络（CNN）方法相比，端到端 Transformer 基方法通过消除后处理操作器的需求而取得了成功。
然而，直接将 Transformer 扩展到定向目标检测存在三个主要问题：
1）目标可以任意旋转，需要编码角度、位置和大小；
2）定向物体的几何关系在自注意力中缺乏，因为内容与位置 Query 之间没有交互；
3）定向物体导致值与位置 Query 之间的错位，主要在交叉注意力中，这使得准确分类和定位变得困难。
在本论文中，作者提出了一种端到端 Transformer 基定向目标检测器，包括三个专用模块来解决这些问题。
首先，作者提出了一种高斯位置编码，使用高斯分布来编码定向框的角度、位置和大小。其次，作者提出了一种瓦瑟斯坦自注意力，通过利用高斯瓦瑟斯坦距离评分来引入几何关系并促进内容与位置 Query 之间的交互。最后，作者提出了一种定向交叉注意力，通过根据其角度以位置 Query 为中心旋转采样点来对值和位置 Query 进行对齐。
在六个数据集（DIOR-R，一系列 DOTA，HRSC2016 和 ICDAR2015）上的实验表明，作者方法的有效性。与先前的端到端检测器相比，OrientedFormer 在 DIOR-R 和 DOTA-v1.0 上分别获得了 1.16 和 1.21 AP50，同时将训练周期从 3 倍减少到 1 倍。
代码可从https://github.com/wokaikaixi...获取。

I Introduction

定向目标检测是计算机视觉和遥感的交叉领域中的基本任务，其目的是通过一组定向框定位物体并对其进行分类。在定向目标检测中使用的遥感图像是由卫星或其他航空平台在地球表面捕捉到的目标物体的照片。由于物体具有多种方向、密集排列和不同尺度，定向目标检测仍然具有挑战性，如图 1(a)所示。这些定向物体的特性使得准确定位和分类目标物体变得困难。

为了准确检测物体，基于卷积神经网络（CNNs）的定向目标检测方法[1, 2, 3]取得了显著的进展。其中大多数是两阶段[4, 5, 6]或一阶段[7, 8, 9]的检测器。两阶段方法在第一阶段使用区域 Proposal 算法选择前景 Proposal 框，并在第二阶段优化这些 Proposal 。例如，RoI Transformer 学习将水平 Anchor 点转换为定向 Anchor 点，但水平 Anchor 点经常与实例特征对齐不准确。为了解决这个问题，RRPN 使用旋转区域 Proposal 网络生成大量的定向 Proposal 。定向 R-CNN 在定向区域 Proposal 网络中引入了中点偏移表示。同时，一阶段检测器直接预测 Anchor 框的位置和类别，以避免复杂的 Proposal 生成。例如，R3Det 直接获取定向 Proposal ，并通过优化模块进行对齐。然而，上述基于 CNN 的方法依赖于一对一的标签分配策略，需要复杂的自定义后处理操作，如非极大值抑制（NMS）。

DETR [10] 首先将 Transformer [11] 应用于水平目标检测，一系列相关的工作 [12, 13] 已经取得了令人瞩目的性能。受到他们的启发，一些检测器将 Transformer 应用于定向目标检测，通常遵循编码器-解码器架构。与采用密集先验（例如，框和点）的方法相比，基于 Transformer 的检测方法使用一组 Query （例如，内容和位置 Query ）来表示物体实例，这些实例通常按层逐步更新。 Transformer 的架构主要由三个模块组成：位置编码、自注意力、交叉注意力。位置编码用于学习输入 Token 的序列顺序。自注意力处理 Query 之间的配对交互并删除重复预测。交叉注意力促进值和 Query 之间的交互，使模型能够关注相关的区域。此外，基于 Transformer 的检测器得益于一对一的标签分配和端到端框架，这消除了需要复杂的手设计过程的需要。

然而，将 Transformer 框架扩展到定向目标检测面临三个主要问题需要克服。

(1) 物体可以任意旋转，需要编码角度，除了位置和大小之外。角度用于描述定向物体，这使它们与水平 Box 区分开来。角度、位置和大小都是表示定向物体的必要条件。目前的基于 Transformer 的方法[14]仅使用常规位置编码来编码位置和大小，而忽略了角度。此外，作者注意到角度 θ、位置(x,y)和大小(w,h)的物理含义和数据范围不同。如果没有归一化，坐标和大小的值范围受图像大小的限制，而角度以弧度为单位，在定向 Box 的旋转范围内从[-\pi/2,\pi/2]。因此，常规位置编码不适合定向物体。

(2) 定向物体的几何关系在自注意力中缺乏。

(3) 定向物体导致值和位置 Query 之间的错位。物体可以任意旋转，而多尺度图像特征具有金字塔结构。这通常导致在交叉注意力中值和位置 Query 之间的错位，值来自图像特征，位置 Query 表示定向物体的 Box 。这使得准确分类和定位目标物体变得困难。

在本文中，作者旨在解决基于 Transformer 的定向目标检测中的上述问题。作者提出一个端到端的基于 Transformer 的定向目标检测框架，称为 OrientedFormer。作者的检测器配备了三个专用模块：高斯位置编码（PE）、瓦塞尔自注意力（Wasserstein self-attention）和定向交叉注意力（oriented cross-attention）。

首先，针对编码角度的问题，作者构建了一个基于高斯分布从定向框转换而来的高斯位置编码（PE）。它将角度、位置和大小统一为同一度量，并有效地编码了框的角度。

其次，针对缺乏几何关系的问题，瓦塞尔自注意力使得内容 Query 和位置 Query 能够相互交互。几何关系信息通过高斯瓦塞尔距离分数来衡量，并由所有位置 Query 提供。

第三，针对对齐问题，定向交叉注意力对值和位置 Query 进行对齐。它根据角度将稀疏采样点围绕位置 Query 旋转。焦点区域分布在定向框内和外，提供了广泛的上下文信息，如图 1b 所示。

最后，作者在各种定向目标检测数据集（如遥感图像）上进行了大量实验。所有实验结果一致地证明了 OrientedFormer 在提高准确率方面的有效性。此外，作者通过在场景文本检测研究中验证了作者的方法的一般化。

总的来说，作者方法的主要贡献可以概括为四个方面：

高斯位置编码被提出，用于编码定向 Box 的角度，除了位置和大小。它建立在高斯分布上，将角度、位置和大小统一到一个度量中。

瓦塞尔自注意力机制被提出，以引入几何关系到自注意力中。该模块利用高斯瓦塞尔距离分数来衡量两个不同内容 Query 之间的几何关系。

为了解决对齐问题，提出了定向交叉注意力机制，通过绕位置 Query 旋转一小部分采样点，实现值和对位置 Query 的对齐。

广泛的实验表明作者的方法的有效性。使用 ResNet50 作为 Backbone 网络，OrientedFormer 在 DIOR-R 上的 AP50 达到了 67.28%，在 DOTA-v2.0 上的 AP50 达到了 54.27%，分别建立了新的最先进基准。

II Related Work

Oriented Object Detection in Remote Sensing

Ii-A1 Convolution neural network (CNN) methods

已经取得了显著的性能提升。现有的基于 CNN 的定向目标检测器主要分为一阶段和二阶段方法。一阶段检测器预测 Anchor 框的位置和类别，这些 Anchor 框密集覆盖图像特征图，如 R3Det [15]，S-Net [16]和 PSC [17]。 Anchor-Free 框方法[9, 18]通过用先验点替换手工制作的 Anchor 框框简化了一阶段流程。一阶段方法依赖密集候选，每个候选直接由分类和回归损失监督。在训练中，使用基于预定义原则的一对多分配策略，如候选框和真实框之间的 IoU 超过阈值。

二阶段方法从第一阶段的密集区域候选中选择前景 proposal 框，并在第二阶段定位和分类这些 proposal 框。第一阶段使用区域 proposal 算法学习粗略的 proposal 框，如 Oriented R-CNN [4]和 ReDet [5]中的区域 proposal 网络。二阶段方法需要相似的标签分配策略。在推理时，一阶段和二阶段方法都需要一些后处理操作，例如 NMS 用于移除非预测结果。

Ii-A2 End-to-end Transformer-based methods

这些方法在水平目标检测[10, 12]中得到了广泛应用，它们可以直接输出结果，无需手工制作的组件。一些研究行人[19]将它们扩展到定向目标检测。AO2-DETR [14]引入了一个定向框生成和精炼模块，用于准确定向位置先验，这基于 Deformable DETR [12]。ARS-DETR [20]在以前工作的基础上提出了一种旋转变形注意力，其中采样点基于角度进行旋转，以进行特征对齐。此外，某些方法专注于改进物体 Query 。PSD-SQ [21]将物体 Query 表示为点集，而不是定向框，以实现准确的实例特征采样。

DQ-DETR [22]设计了一种动态 Query ，逐渐减少堆叠解码层中的物体 Query 数量，以更好地平衡模型精度和效率。此外，一些研究关注于增强一对一标签分配。EMO2-DETR [23]观察并解决了一对一标签分配导致物体 Query 相对冗余的问题，因为物体在图像中分布不均。与现有方法不同，为了有效编码定向框，测量内容 Query 之间的几何关系，并调整值和位置 Query ，作者提出了拟合高斯 PE，Wasserstein 自注意力，和定向交叉注意力。

Attention in Transformer-based Object Detection

Ii-B1 Self-attention

目标 Query 被输入到自注意力机制中，并与彼此相互作用以消除重复预测[10]。大多数基于 Transformer 的检测器采用 DETR[10]中的普通自注意力。

在普通自注意力中，只使用内容 Query ，而位置 Query 提供的几何关系被丢失。因此，普通自注意力没有考虑到内容 Query 之间的几何关系。

与这种方法不同，作者在自注意力中引入高斯韦伯距离分数来衡量不同内容 Query 之间的几何关系。

Ii-B2 Cross-attention

在交叉注意力中，图像特征作为值与 Query 进行交互。DETR [10] 中的基础交叉注意力只采用单个特征图，效率较低。为了加速收敛速度，Deformable DETR [12] 提出的变形注意力关注于参考周围的一小部分采样点。对应这些点的特征学习分类和回归。但是，在监督角度的情况下，采样点学习位于特殊位置 [14]，例如角落和轴线上的 Box ，这可能不是最优的。Anchor DETR [24] 将注意力解耦为行和列注意力并逐个处理。图像特征的行和列序列缺乏方向和空间信息。

SMCA [25] 提出了一种空间调制的共注意力，通过限制注意力响应在初始估计的边界框位置附近变得高。Dynamic DETR [26] 设计了基于 RoI（Region of Interesting）的动态注意力，灵感来自动态卷积 [27]，以帮助 Transformer 关注感兴趣的区域。上述方法在面临定向 Box 时会导致错位。与他们不同，作者的定向交叉注意力通过围绕位置 Query 旋转一小部分采样点来对齐值和位置性 Query 。

Positional Encoding

位编码对 Transformer 捕捉输入 Token 的序列顺序至关重要。它首先在 Transformer [11]中应用，用于自然语言处理中注入 Token 在序列中的相对或绝对[11]位置的信息。由于 Transformer 没有卷积，它需要位编码来学习 Token 的序列顺序。

上述方法是为一维单词序列语言模型设计的，而除此之外，位编码在计算机视觉领域得到广泛应用。在目标检测中，DETR [10] 使用了可学习的位编码。DAB DETR [28] 将框的中心坐标（x,y）和大小（w,h）分别映射到四个向量，并将它们作为最终嵌入。

两阶段的变形 DETR [12] 先生成区域 Proposal ，然后通过正弦绝对位置编码进行编码。上述方法只编码水平框。而作者的建议高斯位编码是基于高斯分布构建的，它是由定向框转换而来。它可以编码定向框的角度、位置和大小。

Nomenclature

为了在随后的讨论中提高清晰度，作者在此列出所使用符号及其对应的描述，并汇总在表 1 中。

III Method

在本文中，作者提出了一种基于远程感测图像的端到端 Transformer 基础的定向目标检测器，称为 OrientedFormer。在此部分，作者首先在 III-A 部分介绍了整体架构，然后分别在 III-B 部分解释了目标 Query ，III-C 部分说明了高斯位置编码，III-D 部分介绍了瓦舍尔自注意力，III-E 部分介绍了定向交叉注意力，最后在 III-F 部分介绍了标签分配和损失。

Overall Architecture

遵循[10, 12]，作者在解码器中依次使用作者提出的自注意力、交叉注意力和前馈反馈网络（FFN）。在自注意力中，物体 Query 相互交互，而在交叉注意力中，采样特征作为值进一步与 Query 交互。通过 FFN，生成更新后的 Query 和检测结果。在训练过程中，预测由分类和回归损失监督。

Object Queries

Gaussian positional encoding

现代的 PE 仅用于水平 Box ，且不准确地编码定向物体的角度。为了解决这一限制，作者提出了高斯 PE，它可以均匀地编码角度、位置和大小。

_1) 卷积神经网络（CNN）的初步：在解码器中，位置编码将位置 Query 转换为正弦嵌入，然后与位置编码一起训练内容 Query 。

首先，作者回顾一下目标检测中的现代位置编码。在许多常见的水平目标检测器[12, 13]中，将位置编码应用于 Query 可以表示为：

高斯位置编码（Gaussian PE）：所提出的 Gaussian PE 是按照上述高斯分布的定向 Box 的期望。在方程（1）中的原位置编码可以重写为：

在编码向量的上下标 2i 和 2i+1 中，分别表示向量的索引。这种重参化使得可以得到高斯位置编码的封闭形式。

根据这两个数学事实，随机变量线性变换的期望是随机变量期望的线性变换，随机变量线性变换的方差是方差和系数的平方乘积。根据这些属性，作者可以计算在位置编码后提升的定向方盒的高斯分布的平均值和协方差：

Multi-head Wasserstein Self-attention in Decoder

纯多头自注意力[10]在内容 Query 之间使用的自注意力机制没有考虑几何关系信息。为了解决这个问题，作者提出了 Wasserstein 自注意力，它将几何关系引入自注意力机制，并能够有效地抑制冗余检测[10]。

Iii-D1 Wasserstein Self-attention

作者将高斯瓦塞尔距离分数引入到自注意力中。它可以测量两个不同 Query 之间的几何关系，并帮助自注意力关注重要区域，这是瓦塞尔自注意力与其他普通自注意力的主要区别。

Iii-D2 Complexity of Wasserstein Self-attention

Multi-head oriented cross-attention in Decoder

（2）从图像特征中采样值，并按照角度进行对齐；

（3）提出的交叉注意力可以分解为三个不同的注意力机制，每个机制关注不同的视角：尺度感知注意力、空间感知注意力和通道感知注意力。

取向交叉注意力与变形注意力之间的差异如下：

（1）作者的注意力根据角度旋转采样点进行对齐，而变形注意力不这样做；

（2）作者的注意力关注三个视角：可伸缩感知、空间感知和通道感知，而变形注意力只强调通道感知；

（3）作者的注意力使用可学习的位置 Query ，而变形注意力使用一套固定的网格作为参考点；

（4）在作者的注意力中，采样点在虚拟 3D 特征空间中分布，而在变形注意力中，它们被限制在 2D 平面上。

Iii-B1 Coordinates of positional queries

Iii-B2 Calculation of values and feature alignment

这些偏移量被转换为取样点：

与其他流行的交叉注意力一样，作者也引入了多个 Head 的定向交叉注意力。因此，位置 Query 周围采样点的数量为 g·O ，其中 g 和 O 分别表示头数量和采样点数量。

由于远程感测图像中的物体是定向的，作者需要根据角度 θ 对采样点进行对齐：

Iii-B3 Scale-aware attention

作者提出了具有尺度的注意力，它动态地融合不同尺度的特征：

Iii-D4 Channel-aware attention

首先，根据题目要求，作者需要将英文 AI 学术论文翻译成简体中文。以下是我对这段英文的理解和翻译：

请注意，由于英文原文中可能存在一些不准确或模糊的表述，翻译结果可能不是完全准确的。在需要时，请务必参考原文以获得更准确的信息。

Iii-D5 Spatial-aware attention

Label Assignment and Loss

在定向目标检测任务中，有两个子任务，分别是分类物体类别和回归物体位置。在标签分配阶段，使用了一对一匈牙利匹配[14]。损失包括分类损失 Focal 损失[19]，回归损失 L1 损失[18]和旋转 IoU 损失[18]。

IV Experiment

Datasets

作者在 6 个常见数据集上进行实验。_DIOR-R_[13]是一个大规模的面向目标的检测数据集，用于遥感图像。它包括 23,463 张图像和 192,512 个实例，这些实例属于 20 个常见类别。作者在训练集和验证集上训练模型，并在测试集上进行测试。DOTA 系列[12]是用于遥感图像的面向目标的检测数据集。它们包括 DOTA-v1.0[12]/ v1.5 / v2.0[11]，这些数据集在图像、实例和类别数量上有所不同。图像大小从 800800 到 4,0004,000 像素，覆盖各种场景和物体。 DOTA-v1.0 的类别有 15 个，包含 2,806 张图像和 188,282 个实例。

DOTA-v1.5 使用与_DOTA-v1.0 相同的图像，但添加了更多的小实例，总实例数为 403,318。 DOTA-v2.0 包含 11,268 张图像和 1,793,658 个实例。作者在这些数据集的训练集和验证集上训练模型，并在测试集上进行测试。作者将测试结果提交给 DOTA 的官方评估服务器，以获得检测性能。HRSC2016 [17]是一个用于遥感图像船只检测的具有挑战性的数据集，包括 1,061 张图像。该数据集分为两个集：训练集和测试集，分别包含 617 张和 444 张图像。作者在测试集上使用两个指标 PASCAL VOC07 和 VOC12 评估模型。ICDAR2015 [18]用于文本检测，包括 1,000 张训练图像和 500 张测试图像。

Implementation Details and Evaluation Metrics

在 DOTA-v1.0/1.5/2.0 上的实验中，图像被裁剪成重叠区域为 200 的的 Patch ，并进行 12 个周期的训练。在第 8 和 11 个周期时，学习率被除以 10。此外，在 DOTA-v1.0 的多尺度训练中，图像首先被重置为三个尺度（0.5，1.0 和 1.5），然后在进行单尺度训练后裁剪。在 Dior-R 实验中，图像训练了 12 个周期，固定尺寸为 800×800。在 HRSC2016 实验中，作者将图像缩放到（512，800）的范围内，并进行了 24 个周期的训练。在 ICDAR2015 上的图像训练了 24 个周期，固定尺寸为 800×800。

评估指标：AP_{50}，AP_{75}和 AP_{50:95}衡量了方法的精确度。作者还分析了不同方法的精确度、召回率、F-measure、PASCAL VOC 07 和 12 指标。FPS 是评估推理速度的指标。Params 和 FLOPs 分别用于计算模型的参数和复杂性。Epochs 用于衡量模型训练时间。

Comparisons With State-of-the-Arts

在 DIOR-R 上的结果：作者将 OrientedFormer 与现代的 CNN 基础和 transformer 基础检测器进行比较。DIOR-R [35] 上每个类别详细的比较结果报告在表 3 和图 6、7 中。比较方法的结果来自其论文。作者的方法在 LSK-T 上达到 65.07% AP50，在 ResNet50 上达到 67.28% AP50，在 Swin-T 上达到 68.84% AP50，超越了所有比较的 CNN 基础单阶段和两阶段检测器以及 transformer 基础检测器。

在 DOTA-v1.0 上的结果：作者在表 4 中报告了在 DOTA-v1.0 上的结果，与当前基于 CNN 的检测器和基于 Transformer 的检测器进行了比较。比较方法的结果来自其论文。在通过 AP50 衡量的准确性方面，OrientedFormer 在 ResNet50 上达到了 75.37%，在 Swin-T 上达到了 75.88%，在 ResNet101 上达到了 75.92%的单尺度数据，此外，在多尺度数据上，它还达到了 79.06%的 AP50。

Iv-B3 Results on DOTA-v1.5

表 5 展示了作者的方法与其他现代检测器之间的比较，使用了它们论文中的结果。使用 ResNet50 Backbone 网络，作者的方法在单尺度数据上实现了 67.06% AP50。DOTA-v1.5 中包含许多小目标实例，例如小汽车（SV）、船舶（SH）和游泳池（SP）。对于这些实例，作者的方法表现更好。

Iv-B4 Results on ICDAR2015

作者在 ICDAR2015[39]上进行了实验，结果如表 6 所示。作者使用与作者的方法相同的设置，重新实现了比较方法，使用 MMRotate 实现。作者的 OrientedFormer 在精度、召回率和 F-measure 方面分别达到了 85.3%、74.2%和 79.4%。

Iv-B5 Results on HRSC2016

HRSC2016 仅包含船只。表 7 显示了作者的方法以及其他论文中物检测器的结果。作者的定向 FFN 在 ResNet50 模型下，在 VOC07 和 VOC12 指标下分别实现了 90.17% 和 96.48% 的 AP50，与现代检测器相竞争。

Iv-C6 Results on DOTA-v2.0

如图表 8 所示，作者提出的 OrientedFormer 与基于 CNN 的一阶段和两阶段检测器进行了比较，采用了它们论文中报告的结果。为了进行公平的比较，所有模型的 backbone 都是 ResNet50。作者的方法在单尺度数据上在 DOTA-v2.0 基准测试中实现了最先进的性能，AP50 为 54.27%。作者的方法超过了所有比较的基于 CNN 的检测器。

Ablation Study

物体 Query 数量：在本实验中，作者评估了物体 Query 数量的影响，如表 9（a）所示。随着物体 Query 数量的增加，性能显著提高。当物体 Query 数量为 100 时，AP50 仅为 65.16%，但当物体 Query 数量增加到 300 时，它上升到 67.28%（提高了 2.12%）。这表明足够的物体 Query 数量可以有效地覆盖图像中的物体。

在定向交叉注意力中使用的采样点数量：在本次消融研究中，作者使用不同的采样点数量，如表 9（b）所示。使用大量采样点的原因是，这些采样点所获取的特征负责物体的分类和回归，而空间感知注意力主要关注这些特征。当作者从 4 个采样点增加到 32 个采样点时，AP50 从 65.60%增长到 67.28%。这表明，丰富的特征有助于促进空间感知注意力和整个解码器。
面向定向交叉注意力中的注意力头数量：在本实验中，作者使用了不同的注意力头数量，如表 9（c）所示。使用多个头的原因是不同的头可以在 Query 和值之间建立不同的关联。随着头数从 8 增加到 64，AP50 从 66.33%增长到 67.28%。这表明注意力头可以提供多个子空间进行表示，并扩展了关注特征不同部分的 ability。

Comparisons of different Positional Encodings

作者进行了不同 PE 的消融实验，结果如表 10 所示。可学习的 PE [10]、遵循变形 DETR [12]的正弦绝对 PE 以及 DAB DETR [28]进行了比较。这些 PE 仅编码定向框的大小和位置，但缺乏角度信息。由于缺乏序列顺序信息，模型在没有任何 PE 的情况下达到了 66.85%。当使用变形 DETR 和 DAB DETR 以及可学习的 PE 时，AP50 有所降低。作者认为这些 PE 对于位置 Query 不匹配。作者的高斯 PE 可以带来性能提升。

Comparisons of different Self-Attention

在表 12 中，作者将 Wasserstein 自注意力与其他现代自注意力进行比较。当应用普通的 Self-Attention[10, 12]时，模型仅实现了 AP50 为 67.03%。

作者用前景交集（IoF）和交集与并集（IoU）方法替换高斯韦伯距离得分进行比较。与 IoF 和 IoU 方法相比，作者提出的韦伯自注意力取得了最佳性能，分别实现了 0.71%和 0.2%的改进。

Effects of proposed Individual Strategy

在本研究中，作者评估了作者在方法中提出的每种策略的有效性，包括高斯位置编码（PE）、瓦斯退位自注意力（Wasserstein self-attention）和定向自注意力，如表 11 和 XIII 所示。逐步地将每种单个策略整合进来，它们都提高了性能。

Convergence and Training Epochs

DETR [10] 存在收敛速度慢和训练时间长的问题。为了进一步研究收敛性，作者将 OrientedFormer 与其他端到端模型进行比较，如图 8 所示。为了进行公平的比较，所有方法都在 12 个 epoch 内，在 DIOR-R 上训练，每次 300 个 Query 。OrientedFormer 在 ResNet50 上仅用 12 个 epoch 就实现了 AP50 67.3%，超过了 Deformable DETR-O with CSL（31.2%）和 ARS-DETR（38.9%）。

作者将 OrientedFormer 与其他端到端模型在准确率和训练周期上进行比较，如图 9 所示。在 12 个训练周期内，训练 OrientedFormer 可以超越 ARS-DETR 和 Deformable DETR-O，它们分别需要 36 个训练周期。具体来说，OrientedFormer 在 ResNet50 上的 AP50 为 75.37%，而 ARS-DETR 为 74.16%，Deformable DETR-O 为 69.48%，在 36 个训练周期内。

Comparison of Speed, Parameters, FLOPs and Accuracy

为了进一步探索 OrientedFormer 的性能，作者在 DOTA-v1.0 上与其他方法（包括基于卷积神经网络的两阶段方法以及大多数一阶段方法）进行了比较实验，结果如表 14 所示。OrientedFormer 在速度上超过了基于卷积神经网络的两阶段方法和其他端到端方法，但略逊于大多数一阶段方法。此外，与其他端到端方法相比，OrientedFormer 的参数数量略有增加。

Comparison of Different Feature Layers of Backbone

Backbone 网络从图像中提取特征，在定向目标检测中起着重要作用。作者在不同的 Backbone 网络特征层数量（如表 5）上进行了实验。随着 Backbone 网络特征层数量的增加，模型的 AP、参数和 FLOPs 逐渐增加。由于多尺度特征可以捕捉图像中的丰富信息，因此作者选择了 4 层特征。

Comparison of Different Sampling Methods

学习可更新的采样点通过对位置 Query 的中心点旋转角度进行对齐，在作者的定向交叉注意力中进行对比。作者将作者的方法与不同的采样策略进行比较，如表 16 所示。固定偏移方法利用位置 Query 中心点周围的固定采样点。变形偏移方法不旋转采样点，这是作者方法的主要区别。随机偏移方法在位置 Query 中心点周围使用随机采样点。作者在图 11 中可视化了不同方法的学习点。作者的定向交叉注意力可以更有效地对齐特征，从而关注更准确的目标特征。

Visualization

Iv-L1 Comparison with other methods

作者将作者的方法与其他方法在大规模物体、密集堆叠物体、复杂背景图像和低光照条件下进行比较，如图 10 所示。其他方法在准确检测大型物体方面存在困难，通常会错过密集堆叠物体，将背景噪声误认为是物体，而在恶劣的环境条件下表现不佳。

Iv-L2 Learnable positional queries

位姿 Query 用于表示物体的位置。作者在图 12 中显示了学习得到的位姿 Query 的中心点。实验中使用了默认的 300 个位姿 Query 。位姿 Query 位于物体的中心点和疑似物体的中心点。这展示了位姿 Query 在表示物体位置方面的实用性。

Iv-L3 Learnable sampling points

为了更好地理解学习导向的交叉注意力，作者在图 13 中可视化了位置 Query 的中心和解码器中的采样点。为了提高可读性，所有采样点都缩放到了原始图像。从采样点采样到的特征充当交叉注意力的值。采样点与定向框对齐。大多数采样点都分布在定向框内，而其他则位于框外。

Iv-L4 Detection results

作者在不同的数据集上可视化了检测结果。图 14 展示了在 DOTA、DIOR-R 和 HRSC2016 上的检测结果。定向框准确地定位图像中的目标。值得注意的是，DOTA 数据集包含许多描绘极端天气和恶劣照明条件的图像。然而，在作者的方法下，在这些情况下仍具有有效性。

Iv-L5 Suboptimal results

作者在图 15 中展示了某些次优的结果。在定向遥感的图像中，有许多大小较小但 aspect ratio 巨大的目标物体。此外，一些前景目标与背景相似。这些挑战需要在未来的研究中进一步探讨。

V Conclusions

在本文中，作者提出了一种端到端 Transformer 基础检测器 OrientedFormer，用于远程感测图像中的定向目标检测。所提出的 OrientedFormer 包括高斯位置编码、Wasserstein 自注意力以及定向交叉注意力。

这些专门的部分共同工作，以准确分类和定位远程感测图像中具有多个方向的物体。首先，引入高斯位置编码，编码不仅物体的位置和大小，还编码定向框的角度。

其次，提出 Wasserstein 自注意力，将内容 Query 之间的几何关系集成到自注意力机制中。最后，设计定向交叉注意力，通过根据物体角度旋转采样点来解决对齐问题。

在六个数据集上的大量实验表明了作者的方法的有效性。作者验证了基于 Transformer 的检测器可以与基于 CNN 的一阶段和两阶段检测器具有竞争力。

与先前的端到端检测器相比，OrientedFormer 在 DIOR-R 和 DOTA-v1.0 上的性能分别提高了 1.16 和 1.21 AP50，同时将训练周期从 3 倍减少到 1 倍。

END

作者：小书童
来源：集智书童

推荐阅读

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区嵌入式 AI 专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

OrientedFormer: 基于 Transformer 的定向目标检测新框架 ！