细小物体由于其有限的空间分辨率,往往呈现出点状分布的特点。因此,使用点级监督进行边界框预测自然且成本效益高,成为传统框级监督的一种替代方案。
然而,细小物体的小尺寸和缺乏特征使得点标注容易受到噪声的影响,对模型的鲁棒性构成了重大挑战。
为应对这些挑战,作者提出了一种端到端的点级监督方法——Point Teacher,首次用于解决航空图像中细小目标检测的鲁棒性问题。
为处理点标注因尺度模糊和位置偏移带来的标签噪声,Point Teacher 使用了教师-学生架构,并通过两阶段去噪过程分离学习。
在此框架中,教师网络逐步去噪从噪声点标注中派生出的伪框,指导学生网络的学习。
具体而言,在第一阶段,随机遮掩图像区域有助于回归学习,使教师能够将噪声点标注转化为粗略的伪框;
在第二阶段,通过动态多重实例学习进一步细化这些粗略的伪框,该方法会在粗略伪框周围动态构建建议袋,并从中选择最可靠的实例。
在三个细小物体数据集(即 AI-TOD-v2、SODA-A 和 TinyPerson)上进行的广泛实验验证了所提出方法的有效性和鲁棒性,尤其是在对抗点位置偏移方面。
值得注意的是,仅仅依靠点监督,作者的 Point Teacher 已经表现出与框级监督方法相当的性能。
1. Introduction
尽管近期在微小目标检测方面取得了显著进展,现代微小目标检测器的成功很大程度上依赖于大规模高质量标注数据,如 TinyPerson 、AI-TOD 和 SODA 。然而,获取高质量标注数据对于微小目标尤其具有挑战性,这些目标的特点是像素数量较少且缺乏区分特征,这大大增加了框标注的成本和难度。此外,微小目标极低的像素足迹导致形状和特征信息高度稀疏,使得它们类似于点分布。
这自然引出了一个有趣的问题:作者能否简化框标注为点标注以监督微小目标检测?虽然这个问题先前曾针对通用目标进行探索,但对于微小目标检测而言仍然是一项重大挑战,原因在于其独特的尺寸小和边界模糊问题。具体来说,现有的基于点监督的目标检测(PsOD)
方法通常会对点的位置施加强烈的前提假设,例如中心点、中心区域、高斯区域或 Mask 区域 假设。尽管这些前提假设在通用场景下有利于优化模型,但对于小目标而言却不再适用,导致性能急剧下降(图 1(a))。这种性能下降主要归因于小目标点标注的噪声分布:极为有限的尺度和模糊的边界不仅使得确保点标注准确落在目标主体上变得极具挑战性,还让模型特别容易受到位置噪声的影响(图 1(b))。
为了弥合嘈杂点标注带来的挑战与精确小目标检测需求之间的差距,作者引入了 Point Teacher(图 1(c))——一种在基于去噪训练方法下的鲁棒性对位置噪声进行处理的点监督方法。在之前的点到框训练中,缺乏尺度信息和嘈杂的点标注显著降低了生成伪框的质量,严重影响了用于框预测的监督信号的有效性。
Point Teacher 通过将针对小物体的 PsOD 任务转化为两阶段的框生成和去噪过程来应对这一挑战:
第一阶段将嘈杂的点标注转换为粗略的框预测,第二阶段则通过学习去噪边界框逐步提升框质量。作者将这两个阶段分别命名为空间感知框生成和噪声感知标签演化。尽管每个阶段不同,但整个模型依然以端到端的方式进行训练。值得注意的是,与依赖辅助知识(例如合成目标或使用 SAM 基模)来生成点到框的方法不同,作者的方法通过自监督学习策略直接使网络推理出小物体的粗略尺度,从而避免使用辅助知识。
在具体的时空感知框生成阶段,作者随机 Mask 图像的一部分,并要求网络预测被 Mask 区域的尺度和位置,赋予网络初步的空间 Aware (即边界框回归能力)。
随后,在后续的噪声感知标签演化阶段,作者引入了一个动态多实例学习(DMIL)模块,以精炼由教师网络生成的噪声伪边界框,为学生网络提供更清洁的监督。与之前的 MIL 模块相比,作者的 DMIL 能够动态扩展目标袋,并在袋内校正每个 Proposal 的位置。这种位置调整增强了袋子生成的可靠性,即使点标注噪声较大也是如此。此外,作者提出了一种简单而有效的鲁棒回归损失——抖动 IoU 损失(Jittering IoU Loss),用于减轻对噪声伪边界框的过拟合现象。抖动 IoU 损失通过对回归目标施加可控的小扰动,鼓励模型从多个附近的靶标位置中学习。这使得模型能够更好地捕捉整体目标分布,避免过分依赖特定的噪声边界框。
作者的点教师可以无缝集成到各种检测架构中,支持横向边界框(HBB)和定向边界框(OBB)任务。在小型物体数据集(即 AI-TOD-v2、TinyPerson 和 SODA-A)上进行的全面实验表明了所提出方法的稳健性和有效性。
本文的主要贡献包括三个方面:
- 作者提出了点教师(Point Teacher),这是一种端到端的点监督框架,专门用于解决在嘈杂点标注下实现精确检测的挑战。
- 作者的点教师将学习过程拆分为两阶段去噪学习范式,包括空间感知盒生成阶段和噪声感知标签演化阶段,以确保在嘈杂点监督下的鲁棒性能。
- 作者证明,作者的点教师具有很高的普适性,可以应用于现成的目标检测器,并支持横轴边界框(HBB)和定向边界框(OBB)任务,在基于中心的点标注和嘈杂点标注下的点基小目标数据集上取得了最先进的成果。
2. Related Work
2.1. Tiny Object Detection
极低的像素数量使得小型目标检测面临巨大挑战,导致针对这一问题的专业研究激增。简而言之,作者可以将专门设计用于小型目标检测的方法区分为如下几类。
(a) 多尺度图像和特征表示。在图像层面,技术如 SNIP 和 SNIPer 通过在特定范围内标准化物体尺度来实现尺度不变检测。在特征层面,特征金字塔网络已成为多尺度检测策略的基础,随着 PANet(Liu 等人,2018)、递归 FPN、BiFPN、TridentNet(Li 等人,2019)和去噪 FPN 等方法的发展,这些技术得到了进一步完善。近期,王等人(Wang 等人,2024)、肖等人和彭等人(Peng 等人,2024)提出了新的特征融合策略,通过有效结合全局和局部特征,提高了对微小物体的表示能力。
(b) 超分辨率。除了多尺度技术外,基于超分辨率的方法也成为了提升特征表示的有效手段,通过高效重构高分辨率特征来弥补有限像素信息的不足。这些方法利用生成模型的进步和图像增强技术,放大了细微细节,从而提高了对微小目标检测的准确性。
(c) 学习策略。最近的研究还揭示了细粒度目标检测(TOD)中的学习策略的新见解。值得注意的是,鉴于 Intersection over Union(IoU)对框偏移的敏感性,一些工作引入了新的评估指标以获得更准确的任务分配。此外,更加最新的方法(例如 RFLA)开发了尺度平衡的任务分配策略,为微小物体提供了更有效的监督。
以往的研究在假设拥有完全标注训练集的情况下,在微小目标检测方面取得了显著进展。然而,在现实世界中,获取完全标注的数据集代价高昂。本项工作则致力于在点监督条件下实现稳健且高效的 aprending。
2.2. Point-supervised Object Detection
使用点标注进行训练因其较低的标注成本而受到了广泛关注。为了仅通过点监督来实现边界框预测,广泛采用的方法是两步点到框的转换。第一步是训练一个模型从点标注生成伪边界框,第二步则是利用生成的伪边界框来训练目标检测器。根据生成伪边界框的方式,现有的方法可以分为以下几类(见图 2)。
(a) 基于 MIL 的方法。基于 MIL 的方法通常首先训练一个 MIL 模型生成伪框,然后使用这些伪框来训练检测器。Papadopoulos 等人 提出了一种中心点击标注方法,用以替代框标注,利用 MIL 改进定位过程。UFO2(Ren 等人,2020)引入了一个统一的弱监督检测框架,利用 MIL 从标签、点、素描或框等多种类型的标注中学习并定位目标。Omni-DETR(Wang 等人,2022)在 UFO2 的基础上支持更多形式的混合标注,从而提高了检测准确性。
然而,这些多实例学习(MIL)方法基于旅行商路径问题(OTSP)方法,并未专门针对点监督任务进行设计。P2BNet 首次提出了一种针对点监督改进的 MIL 框架,显著提高了伪框生成的质量。PointOBB 在此基础上引入了一种自监督损失来学习角度和尺度信息,并将其应用于定向目标检测。张等人将这些方法扩展到稀疏点标注设置中,大幅降低了标注成本。
(b)基于 CPM 的方法。基于 CPM 的方法训练一个分类头以生成类别概率图(CPM),随后使用该 CPM 生成用于训练检测器的伪框。PLUG(何等人,2024)通过引入点- Mask -框框架细化了点到框的过程,在此框架中,CPM 被用来生成有助于生成伪框的 Mask 。PointOBB-v2 进一步优化了这一过程,通过提出非均匀正负样本策略来训练 CPM,从而实现更准确的 Mask 生成。
(c)基于辅助信息的方法。基于辅助信息的方法分为两类,根据辅助知识来源的不同可分为合成法和 SAM 法。合成法人工合成物体或模式作为端到端训练的伪标签,而 SAM 法则利用分割一切皆有可能模型(SAM)生成的 Mask 来优化检测过程。Point2Rbox 作为一种合成法,引入了合成知识并构建了合成目标以学习回归能力,使端到端的定向目标检测成为可能。P2RBox 和 PMHO 采用了点- Mask -框范式,并整合了 SAM 模型,从而显著提升了网络性能。
尽管这些方法已经推进了点监督目标检测的发展,但它们主要假设点的位置位于中心或中心区域内部。对于具有极少像素占用的小目标而言,这种假设过于严格,因为即使位置发生微小偏移也会导致显著的准确性下降,这是因为小目标对位置的高度敏感性。
此外,上述方法采用的是两阶段、非端到端的范式,通常需要更多的时间来实现点到框的检测训练过程。因此,在本文中,作者关注点位置对网络性能的影响,并提出了一种鲁棒的端到端去噪为基础的点监督目标检测方法——Point Teacher。
3. Methodology
3.1. Overall Framework
本文提出了一种端到端点监督小目标检测器。与之前两阶段方法不同,这些方法首先训练一个伪框生成器,然后再训练一个检测器,作者提出了一种基于去噪的端到端方法,该方法包括空间感知盒生成阶段和噪声感知标签演化阶段,如图 3 所示。这两个阶段被集成到一个统一的 Pipeline 中,实现了从点标注直接优化到最终检测输出的过程。
在空间感知盒生成阶段,网络被训练以发展空间 Aware 并学习从点到粗略伪框的映射。在随后的噪声感知标签演化阶段,网络进行去噪学习,以细化粗略的伪框为精确的伪框。此外,由于标注的点提供了类别信息和粗略的位置 Prompt ,在整个过程中进行目标分类。总体损失函数可以总结为:
此外,由于Point Teacher对方向不敏感,因此它适用于水平边界框(HBB)和有方向边界框(OBB)检测任务。在本节的最后一部分中,作者将演示如何在HBB检测器上部署该方法。对于OBB检测器,唯一需要调整的是引入角度参数 θ。
3.2. Spatial-aware Box Generation
Mask 区域回归通过利用回归驱动的指导机制增强了模型的空间 Aware 。然而,基于 MIL 的方法通过在粗略的伪框周围应用固定尺度的抖动来构建袋子,缺乏根据空间 Aware 动态调整袋子构建的灵活性(Wu 等,2023)。为了应对这一局限性,作者引入了一个动态多实例学习(DMIL)模块。如图 4 所示,DMIL 包括四个关键过程:袋子构建、袋子扩展、袋子分类器和实例选择。
作者的 DMIL 强调扩展构建的袋子,并引入了回归分支以细化建议框,从而提高空间 Aware 并生成更准确的伪框。为了清晰起见,作者使用 HBB 任务为例来说明 DMIL 框架。当扩展到 OBB 任务时,只需将角度参数 θ 纳入所有边界框,并将 RoI 提取器(Ren 等,2017)替换为旋转 RoI 提取器(Ding 等,2019)。
在构建并扩展了集合之后,为 DMIL 配备从每个集合中选择高质量 Proposal 的能力是至关重要的。因此,在集合分类器阶段,作者专注于训练 DMIL 的分类器和实例选择器。
总结来说,空间感知框生成阶段的损失可以表述如下:
3.3.Noise-aware Label Evolution
在空间 Aware 框生成阶段之后,网络实现了粗略的空间 Aware ,使得教师网络能够预测粗略的伪框。在噪声 Aware 标签演化阶段,作者进一步细化粗略的伪框并执行去噪训练。
遵循典型的教师-学生架构,作者使用教师网络生成的伪框来监督学生网络进行高质量的训练。然而,作者的方法在两个关键方面与之前的方案有所不同:
(1) 点匹配:与像 Soft Teacher 这样的方法不同,这些方法仅基于分类得分阈值(≥0.9)来确定伪框的位置,作者的方法还利用点标注的空间信息来更好地指导伪框的生成。
(2) 框细化:在 PsOD 任务中,教师网络生成的伪框较为粗糙且不适合直接监督学生网络。因此,作者利用 DMIL 和抖动 IoU 损失对这些伪框进行细化,以实现更精确的框生成并增强回归分支的鲁棒学习能力。需要注意的是,在之前的空间感知框生成阶段,作者仅训练 DMIL 以增强空间 Aware 而不细化伪框。而在本阶段,作者将进一步利用 DMIL 来细化伪框。
点匹配:与仅使用分类得分来确定伪框不同,作者的方法得益于点标注粗略位置信息提供的指导。为了实现标注点与预测框的最佳匹配,作者提出了一种两阶段 Top K 点匹配方法。具体来说,作者首先根据候选框与标注点的 L1 距离筛选出 Top K1 个候选框。接着,从这 K1 个候选框中,使用成本矩阵选择 Top K2 个 Box ,这有助于合并和生成伪框。成本矩阵由两大组成部分构成:分类成本和空间成本。
3.4. Detector Integration
作者的方法具有通用性,并不限制于特定的目标检测器。然而,由于点标注中缺乏尺度信息,像 FPN(Lin 等人,2017b)和现有检测器(如 FCOS,Tian 等人,2019;Faster R-CNN,Ren 等人,2017)中的尺度感知组件无法直接使用。为解决这一问题,作者在方法中替换了 FPN 和 Label Assignment,采用了提出的 Top-down FPN 聚合和尺度不变的 Label Assignment。
自顶向下 FPN 聚合:FPN 的每一层都有具有不同感受野的特征点(Gong 等人,2021 年),通常用于从低层到高层检测不同大小的目标,范围从 P3 到 P7 层。对于非常小的目标,特征主要分配给 P3 层。为了在避免尺度混淆的同时仍然结合高层次语义信息,作者提出了一种简单而有效的自顶向下的 FPN 聚合策略。具体而言,作者使用 1 × 1 卷积(Conv)和上采样(Up)操作将来自 P3 至 P7 层的特征聚合到一个输出层 M,如下图所示:
4. Experiments
4.1. Experimental Settings
实现细节。作者的实现基于 MMDetection(Chen 等,2019)和 MMRotate(Zhou 等,2022)工具包,构建于 PyTorch(Paszke 等,2019)深度学习框架之上。作者采用 ImageNet(Russakovsky 等,2015)预训练模型作为 Backbone 网络。使用随机梯度下降(SGD)优化器进行 12 个周期的训练,动量设置为 0.9,权重衰减为 0.0001,批量大小为 2。初始学习率设置为 0.005,并在第 8 和第 11 个周期后减少。区域建议网络(RPN)生成至多 3000 个建议框。
在推理过程中,作者通过置信度阈值 0.05 筛选背景框,并应用非最大抑制(NMS),IoU 阈值设为 0.5,选择前 3000 个边界框。其余所有参数与 MMDetection 和 MMRotate 中的默认值一致。鉴于基于 IoU 的指标对于小目标检测特别不利(Xu 等,2022a),在点注解场景下,AP0.5 不是一个理想的评价标准。
因此,在本工作中,作者采用 AP0.25 作为替代的评价指标。教师模型是学生模型的指数移动平均(EMA),EMA 动量设置为默认值 0.999(Xu 等,2021b)。生成伪边界框的融合权重设置为 0.25,抖动比例 r 选择为 0.2。在融合过程中,K1、K2、K3 分别设置为 5、3 和 1。空间感知边界框生成阶段在训练的前 4000 个迭代中发生,剩余迭代用于噪声感知标签演化阶段。
4.2. Main Results
作者将在 AI-TOD∇·D·O (水平目标检测)和 SODA-A (定向目标检测)数据集上,将作者的方法与当前最先进的(SOTA)方法进行对比。如表 1 所示,作者的方法在小目标检测任务中始终优于所有现有的 SOTA 算法。对于水平目标检测任务,作者将作者的方法与 P2BNet 和 PLUG(He 等,2024)进行了对比。其中,P2BNet 的表现仅为 2.4%。这主要是因为 P2BNet 作为一个基于 MIL 的伪框生成器,仅仅依赖分类得分来过滤伪框,而小目标的弱特征使得分类得分不能准确反映伪框的质量。另一方面,PLUG 作为一个基于 CPM 的伪框生成器,生成相对准确的伪框。然而,由于小目标边界不清且色彩特征不明显,PLUG 中的分割损失难以有效收敛。相比之下,在空间感知框生成阶段获得粗略伪框之后,作者的方法利用了具有空间感知性的 DMIL ISPRS 期刊模块,从而生成更稳定和准确的伪框,从而在检测性能上提高了 16.3%。对于定向目标检测任务,作者将作者的方法与 PointOBB(Luo 等,2024)、PointOBB-v2(Ren 等,2024)和 Point2Rbox(Yu 等,2024)进行了比较。
虽然 PointOBB 仍然是一种基于 MIL 的方法,但由于 SODA-A 数据集中物体尺寸较大,分类得分问题得到了缓解,从而显著提高了准确性,达到 37.8%。Point2Rbox 作为一种辅助方法,也表现出很强的竞争性。然而,值得注意的是,小目标的不明确特征在合成目标和真实小目标之间造成了域差距,限制了其泛化能力。在训练过程中,网络容易过度拟合合成目标的特点,从而使回归分支恶化。与此相反,作者的方法通过利用 DMIL 生成的伪框进行监督,解决了这一问题,从而在性能上提高了 11.1%。与 HBB 任务上的显著改进不同,Point Teacher 在 OBB 任务上的表现相对较差。这主要是因为作者的方法从 HBB 直接转移到 OBB,并未进行任何细化或专用设计以解决角度相关的问题。
作者还在 TinyPerson(Yu 等人,2020)数据集上进行了实验。如表 4 所示,作者的方法实现了竞争力的表现,达到 Supervised 准确率的 54.4%。
4.3.Robustness of Point Location
为了评估作者的方法对点位置变化的鲁棒性,作者进行了一系列详细的实验。首先,在完全随机化的点位置设置下(m=100%),作者分别在 AI-TOD 12.0 和 SODA-A 数据集上进行了主要评估,见表 2。与表 1 中中心点设置的结果相比,所有方法都出现了一定程度的性能下降。Point2Rbox 的性能下降最为显著,达到了 35.1%,因为它在其标签分配策略中依赖于中心点作为先验信息,这导致在随机化点位置下性能大幅下降。类似地,基于 MIL 的方法(如 P2BNet、PointOBB)和基于 CPM 的方法(如 PLUG、PointOBB-v2)在该条件下也表现出一定程度的下降。相比之下,作者提出的一种基于降噪的方法展示了较强的鲁棒性,在 AI-TOD v2.0 和 SODA-A 数据集上的性能分别只下降了 3.9% 和 7.3%。
此外,作者还进一步分析了不同点位置参数 m 值设为 0%、30%、60% 和 100%时的结果。表 3 中的结果显示,作者的方法无论在哪种点位置设置下都能保持较高的准确性,而其他方法如 P2BNet 和 PLUG 则随着点位置的变化显示出更大的准确性下降。值得注意的是,当点位于中心(即 m=0%)时,相较于 m=30%,准确性略微降低了 0.8%。这是因为将点放置在中心位置能够提供先验信息,促使网络学习到中心偏置。相反,将点位置设置为 30% 增强了网络的鲁棒性,从而产生了更准确的预测。
4.4. Ablation Study
点教师中的模块验证:为了进一步验证作者提出的方法中每个模块的有效性,作者在 AI-TOD ×2.0 数据集上进行了消融实验,结果见表 5a。当仅使用空间感知框生成阶段时,网络开始发展空间感知能力。因此,精度相对较低,仅为 21.0 AP。引入了噪声感知标签演化阶段后,网络性能有所提升。教师网络提供的伪框监督改善了整体性能。但由于这些伪框较为粗糙,精度仅提高了 3.5%。加入 DMIL 模块后,粗糙的伪框得到细化,提供了更为稳定和精确的监督信号。最后,通过集成抖动 IoU 损失,网络对嘈杂边界框的鲁棒性显著增强,整体性能进一步提升了 11.0%。此外,为了验证作者提出的 DMIL 是否比 MIL 提供了更准确的监督,作者分别用单阶段 MIL 和两阶段 MIL*(Chen 等,2022)替换 DMIL。
伪框生成中的{K1、K2、K3} :K1, K2 和 K3是控制伪框生成的超参数。具体而言,K1 和 K2 联合工作以指导教师网络生成粗糙的伪框,而 K3 则用于 DMIL 模块进行实例选择以过滤高质量的建议框。如表 5c 所示,当 K1 和 K2 分别设置为 5 和 3 用于生成粗糙的伪框时,结果显著优于分别设置为 3 和 1 的情况。这是因为更多的建议框增加了生成更准确的框的可能性,并有助于构建中等大小物体的建议框。对于 K3,相对于 5,使用 1 进行伪框的细化证明更为有效,因为更多建议框的细化往往会生成更大的框,这更适合中等大小的物体。
r 在抖动 IoU 损失中的作用:参数 r 控制着抖动 IoU 损失中扰动的程度。当r+ 设为 0 时,抖动 IoU 损失退化为标准 IoU 损失。如表 5d 所示,将 r 设为 0.2 时可以获得最佳性能,而将 r 增加到 0.4 和 0.6 则会导致准确率下降。这是因为轻微的扰动引入了有益的噪声项,防止网络过度拟合到不准确的回归目标。然而,随着 r 的增加,扰动变得过于明显,导致网络学习错误信息,从而导致准确率下降。
DMIL 融合中的 β:β 控制粗伪框与通过 DMIL 选择的 Proposal 之间的融合权重。β 是一个广泛使用的超参数,用于生成伪框。当 β 设置为 0 时,仅使用通过 DMIL 筛选出的 Proposal 来生成细化的伪框。相反,当 β 设置为 1 时,仅使用粗伪框进行监督。如表 5e 所示,设置 β 为 0 可能导致目标漂移(即在密集场景中预测到更高置信度的目标的伪框),从而降低准确性。另一方面,仅依赖设置为 1 的 β 值的粗伪框会导致不准确的预测。通过平衡这两种来源的监督,可以实现最佳性能,因为结合两者提供了更可靠的预测结果。
第一阶段的训练时间:空间感知框生成阶段(即 Phase1)在前 4000 次迭代(即总训练迭代次数的 5%)内发生,以使网络获得初步的空间感知能力。为了评估该阶段持续时间对整体网络性能的影响,作者进行了不同 Phase1 持续时间(分别为总训练迭代次数的 5%、25%、50%和 100%)的实验。实验结果显示,随着 Phase1 所占比例的增加,网络准确性逐渐下降。这种行为可以归因于基于 Mask 的指导学习方法,它仅能使网络获得粗略的空间感知能力,而这种能力不会随着训练时间的增长而提升,过长的初始化过程会减少用于噪声学习阶段(即 Phase2)的时间分配,从而恶化整体网络性能。值得注意的是,在仅使用 Phase1 而不使用 Phase2 进行训练时,其准确性显著低于同时使用两个阶段的情况。
4.5. Visual Analysis
作者进行了一系列分析性实验,以证明作者的方法可以为训练提供可靠的边界框监督。首先,作者将 DMIL 模块生成的伪边界框与 GT 边界框可视化展示在图 5 中。DMIL 生成的伪边界框更为精确,并且与 GT 边界框紧密对齐。然而,在密集场景中(如图中的第四列所示),由于 DMIL 在细化过程中依赖分类得分,导致了重叠预测的发生。其次,作者在测试集上展示了作者方法的检测结果,并将其与 SOTA 算法 PLUG 进行了对比。结果显示在图 6 中,即使仅有点标注,作者的方法在端到端训练场景中也能生成相对准确的预测结果。
5. Discussion
在本工作中,作者探索了使用低成本标注检测小目标的潜在可能性,特别是利用点标注。由于小目标主体部分的规模有限且边界模糊,准确标注其主要部分颇具挑战性。因此,作者提出了一种抗点干扰的方法——Point Teacher,以解决这些问题。
为了进一步推动点监督小目标检测领域的进展,本节致力于回答以下三个关键问题:
为什么研究点监督而非其他标注方法来实现小目标检测?点标注不仅适合小目标的独特特性,还能在标注成本和检测准确性之间找到平衡。由于尺寸较小(小于 16x16 像素),小目标在特征图上呈现出点状分布。与较大目标相比,点标注提供了更强的先验信息,特别是在小目标检测方面具有明显优势。此外,虽然点标注的成本略高于图像级标注(Chen 等,2022),但其检测精度可以媲美框标注,因此具有实际的应用价值。相比之下,诸如草图或其它详细形式的标注方法会引入更高的成本,并且往往包含过多对于小目标检测任务来说冗余的信息(Ren 等,2020)。因此,点标注既精准又高效,是标注小目标的最佳选择。
为什么现有的点监督方法在微小目标检测中表现不佳?微小物体的弱特征表示和模糊边界为其适应这一领域带来了显著挑战。当前的方法主要分为三类:基于 MIL 的方法,基于 CPM 的方法,以及基于辅助信息的方法。基于 MIL 的方法依赖分类分数来选择 Proposal 作为监督。然而,微小物体的弱特征使得根据分类分数区分 Proposal 变得困难,限制了 MIL 方法在微小目标检测中的应用。基于 CPM 的方法使用类别概率图生成伪框(CPM)。然而,微小物体的小规模和模糊边界削弱了 CPM 中的边界显著性,降低了这些方法的效果。对于基于辅助信息的方法(不包括 SAM 方法),微小物体的弱特征表示阻碍了回归训练的泛化能力,妨碍了进一步提高检测精度。相比之下,作者提出的 Point Teacher 引入了一种两阶段去噪范式,在每阶段逐步提升伪框的质量。这种方法确保了更稳健的监督,有效应对了微小目标检测带来的挑战。
点教师的局限性是什么?尽管点教师取得了显著的进步,但仍存在一些挑战。首先,虽然作者的方法在点监督的小目标检测方面表现出色,但在多尺度目标上的性能仍有优化空间。这一限制是因为空间 Aware 框生成阶段依赖于随机遮掩区域来增强空间 Aware 。然而,使用的遮掩区域简单且形状和颜色变化有限,这限制了模型在多尺度目标上的泛化能力。为了应对这一问题,未来的研究可以引入更多样化的遮 Mask 式,或者在空间 Aware 阶段采用多尺度特征来提高模型的泛化能力。其次,在点标注固有的位置噪声影响下,密集排列的小目标的精确检测变得更加困难,这对精准定位造成了重大障碍。尽管作者的方法利用空间 Aware DMIL 提高了局部化指导的效果,但在密集排列的目标场景中,多个实例学习仍然难以有效地过滤伪 Box 。未来的工作可以探索使用视觉-语言模型(Radford 等,2021;Kirillov 等,2023),这些模型提供了增强的文本-视觉对齐能力,以在密集目标布局中提供更稳健的指导。
6. Conclusion
单点监督为标注大规模微小物体数据集提供了一种经济高效的解决方案。然而,微小物体固有的挑战——如其较小的尺寸和较弱的特征——使其对点位置的精度非常敏感。
在本文中,作者研究了在变化的点位置下点监督微小目标检测的鲁棒性,并引入了 Point Teacher,这是一种稳健的端到端基于点的检测器。Point Teacher 包括一个旨在减轻点定位噪声的两阶段去噪学习范式。
在空间感知框生成阶段,通过随机 Mask 图像区域来增强空间 Aware ,促使网络更好地预测空间模式。在噪声感知标签演变阶段,使用带有 DMIL 的师生架构来细化伪框并提高检测准确性。
此外,作者引入了一种新颖的抖动 IoU 损失,以防止模型过度拟合到噪声伪框,从而进一步增强鲁棒性。在微小物体数据集上进行的大量实验表明,Point Teacher 超越了现有方法,在点监督微小目标检测中展现出更优的鲁棒性和准确性。
Acknowledgements
参考
[0]. Tiny Object Detection with Single Point Supervision .
END
作者:小书童
来源:集智书童
推荐阅读
- PyTorch 博客 CUTLASS Ping-Pong GEMM Kernel 简介
- 【视觉多模态专栏】理解 Transformer 模型结构
- 多视角 Transformer,在图像分类、目标检测以及实例和语义分割实现 Top-1 精度 !
- SGLang 的 Expert Parallel 特性解读
欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式 AI 专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。