作者提出了Hyper-YOLO,一种将超图计算集成到视觉特征中以捕捉高阶相关性的新目标检测方法。尽管传统YOLO模型强大,但它们在脖子设计上存在局限性,这限制了跨层次特征的集成和高级特征间关系的利用。
为了解决这些挑战,作者提出了Hypergraph Computation Empowered Semantic Collecting and Scattering(HGC-SCS)框架,该框架将视觉特征图转换为语义空间,并构建一个超图以进行高阶消息传播。
这使得模型可以获得语义和结构信息,超越了传统的关注特征的学习。
Hyper-YOLO在其 Backbone 中采用了提出的混合聚合网络(MANet),进行增强的特征提取,并在其 Neck 分引入了基于超图的跨层次和跨位置表示网络(HyperC2Net)。
HyperC2Net在五个 Level 上运作,并摆脱了传统的网格结构,允许在 Level 和位置之间进行复杂的高级交互。这种组件的协同作用使得Hyper-YOLO成为各种尺度模型的最先进结构,正如其在COCO数据集上的优越性能所示。
具体而言,Hyper-YOLO-N在12%的AP和9%的AP的改进下显著超过了先进的YOLOv8-N和YOLOv9-T。
I Introduction
YOLO系列是目标检测领域的主流方法,为各种应用场景提供了多种优势。YOLO的架构包括两个主要部分:backbone 和 neck 。尽管backbone主要用于特征提取,但已经取得了广泛的研究成果,而neck负责多尺度特征的融合,为各种大小的目标的检测提供了强大的基础。本文特别关注的是neck,这对于提升模型在检测不同尺度物体方面的能力至关重要。
现代YOLO模型采用PANet [16]作为它们的neck,该模型采用自顶向下和自底向上的途径来促进跨尺度信息的全局融合。然而,PANet的能力主要局限在将相邻层之间的特征融合,并没有解决特征映射内的跨 Level 特征融合问题。相比之下,类似于Gold-YOLO [10]的收集-分发neck设计可以促进层间的信息交换,但仍不足以在特征映射内实现跨位置交互。此外,它并未充分利用特征之间潜在关系的潜力,特别是在涉及多重相关性的情况下。多重相关性是指在不同尺度、位置和语义 Level 之间存在复杂的非线性关系,这对于理解视觉数据内的更深层次的上下文和交互关系至关重要。值得注意的是,低级视觉特征及其相关性的协同表示在目标检测任务中起着关键作用。将这些基本特征与高级语义信息结合起来对于在给定场景中准确识别和定位物体的水平至关重要。对低级特征隐藏的多重相关性进行语义分析仍然是在许多计算机视觉任务中具有挑战性和重要性的一部分。在实践中,超图[17,18]被广泛用作表示复杂多重相关性,因为它相对于简单的图具有增强的表达能力。尽管在简单图中,边只能连接两个顶点,限制了它们的表达能力,而在超图中,边可以连接两个或多个顶点,从而实现更复杂的互连。相比于简单的图,超图可以捕获多个实体之间的更丰富的相互作用,这对于需要理解复杂而多变的相关性,如计算机视觉中的目标检测任务(在此过程中,特征映射内的跨 Level 和跨位置相关性至关重要)。
不同于大多数专注于增强特征提取后端的工作,作者提出了Hypergraph Computation Empowered Semantic Collecting and Scattering(HGC-SCS)框架。这种框架巧妙地通过将提取到的特征图转换为抽象语义空间,并构建复杂的超图结构,从而增强由视觉后端提取的特征图。超图作为使语义空间内的特征之间能够进行高阶消息传播的通道。这种方法使视觉后端具备了同时整合语义信息和复杂结构信息的能力,从而超越了传统语义特征关注的学习的限制,提高了性能。
在上述HGC-SCS框架的基础上,作者引入了Hyper-YOLO,一种基于超图计算的新YOLO方法。Hyper-YOLO首次将超图计算集成到视觉目标检测网络的 Neck 组件。通过模拟特征图从视觉后端提取的复杂高阶关联,Hyper-YOLO极大地提高了目标检测性能。在背部架构方面,Hyper-YOLO集成到YOLOv8提供的基站结构中,并引入了混合聚合网络(MANet),将三种独特的基结构融合在一起,丰富信息流动和增强特征提取能力。在 Neck ,利用提出的HGC-SCS框架,作者实现了五个不同尺度特征融合的 Neck ,称为基于超图的跨 Level 和跨位置表示网络(HyperC2Net)。与传统 Neck 设计相比,HyperC2Net同时融合五个不同尺度的特征,同时打破视觉特征图的网状结构,以促进在不同水平和位置之间的多阶消息传播。超YOLO作为一项突破性的架构。在COCO数据集上的实验结果(见图1)证实了其在性能上的显著优势,证明了这种复杂方法在推进目标检测领域方面的有效性。
作者的贡献可以总结为:
- 作者提出了一个名为“超图计算赋能语义收集与散布(HGC-SCS)”的框架,通过高阶信息建模和学习提高视觉backbone的性能。
- 利用所提出HGC-SCS框架,作者开发了HyperC2Net,这是一个有助于在语义层和位置之间实现高阶消息传递的目标检测颈。HyperC2Net显著提高了 Neck 的提取高阶特征的效率。
- 作者提出了混合聚合网络(MANet),它通过包含三种不同类型的块来丰富信息流,从而增强backbone的特征提取能力。
- 作者提出了超YOLO,它通过超图计算提高模型的感知高阶信息的能力,从而改进目标检测。具体地,作者的Hyper-YOLO-N在COCO数据集上实现了显著的改进,与YOLOv8-N相比AP提高了12%,与YOLOv9-T相比提高了9%。
II Related Work
本部分讨论了现有的与本研究主题相关的工作。
相关工作主要包括以下几个方面:
A.相关工作
近年来,人工智能(AI)领域取得了巨大进展,其中包括自然语言处理(NLP)领域。为了在NLP中实现更高质量的翻译,研究者们提出了许多有效的翻译模型。例如,许多研究者专注于构建能够翻译复杂句子的模型,如Bahdanau等人的Transformer模型和Cho等人提出的COTA模型 [1]。此外,还有一些研究者提出将深度学习(DL)与传统机器翻译(TM)相结合的翻译方法。例如,Lu等人提出了Seq2Seq模型,将神经网络(NN)的编码器与解码器相结合,以实现高质量的翻译 [2]。
B.翻译数据集
翻译数据集是NLP领域中的重要资源。在构建和使用翻译模型时,需要使用大量的高质量翻译数据来训练和评估模型。目前,已有许多常用的翻译数据集,例如WMT、TED、Tnews等。这些数据集涵盖了多种语言,包括英语和其他主要语言,如中文、法语和西班牙语等。
C.翻译评估指标
在构建和使用翻译模型时,需要使用合适的评估指标来衡量模型的性能。常用的评估指标包括BLEU、chrF、Similarity等。其中,BLEU是最常用的评估指标之一,它通过计算翻译结果与参考译文之间的相似度,从而评估模型的性能。
D.翻译环境
翻译环境是影响翻译质量的重要因素。传统的机器翻译系统往往需要用户在输入文本中指定翻译的目标语言,而近年来,通过将翻译任务嵌入到对话系统中,可以直接与用户进行自然语言交互,以获得更好的翻译质量 [3]。
YOLO Series Object Detectors
实时目标检测领域,YOLO系列(从YOLOv1的单阶段检测演变为YOLOv8的性能优化模型)已成为基石。每个迭代版本,从YOLOv4的结构优化到YOLOv7的E-ELAN背部结构,都带来了显著的进步。YOLOX引入了 Anchor-Free 检测,Gold-YOLO利用其收集和分发机制增强了特征融合。尽管RT-DETR等检测器出现,但YOLO系列仍然占主导地位,部分原因是它有效地利用了CSPNet、ELAN和改进的PANet或FPN进行特征集成,同时具备YOLOv3和FCOS的 sophisticated预测头。YOLOv9引入了可编程梯度信息以及用于最小化在深度网络传输过程中的信息损失的Generalized Efficient Layer Aggregation Network。在建立YOLO方法的基础上,本文提出了一种先进的Hyper-YOLO方法,它利用超图计算增强YOLO框架复杂的关联学习能力。Hyper-YOLO旨在改进层次特征的学习和集成,推动目标检测性能的边界。
Hypergraph Learning Methods
III Hypergraph Computation Empowered Semantic Collecting and Scattering Framework
IV Methods
在这一部分,作者首先介绍了YOLO的初步表示以及拟议的超YOLO框架。接下来,作者详细介绍了作者超YOLO提出的两个核心模块,包括作者的超YOLO的基本块(MANet)和 Neck (HyperC2Net)。最后,作者分析了Hyper-YOLO与其他YOLO方法之间的关系。
Preliminaries
Hyper-YOLO Overview
Mixed Aggregation Network
针对作者超分辨率YOLO的 Backbone 结构,为提升基础网络的特征提取能力,作者设计了一种混合聚合网络(MANet),如图2所示。这种架构将三种典型的卷积变体:1x1跳过卷积用于通道特征的 Reshape ,Depthwise Separable Convolution (DSConv)用于高效的空间特征处理,以及C2f模块用于增强特征层次的集成,融合在一起以发挥协同作用。这种聚合产生了一种更丰富多彩的特征梯度流,在训练阶段显著增强了每个五关键阶段内部所包含的语义深度。作者的MANet可以表示为:
Hypergraph-Based Cross-Level and Cross-Position Representation Network
对于作者超超详细的YOLO,在以下子部分中,为了全面融合从backbone获得的跨层和跨位置信息,作者进一步提出了一种基于超图的跨层和跨位置表示网络(HyperC2Net),如图4所示。HyperC2Net是HGC-SCS框架的实现,能够捕获语义空间中的那些潜在的高阶相关性。
Iii-B1 Hypergraph Construction.
Iii-B2 Hypergraph Convolution.
Iii-B3 An Instance of HGC-SCS Framework.
Comparison and Analysis
YOLO系列技术的主要发展集中在主干和 Neck 分的优化改进上,特别关注每个连续的YOLO迭代中作为进化核心的主干部分。例如,最初的YOLO框架[1]引入了DarkNet Backbone ,此后经过了一系列增强,如YOLOv7中引入的ELAN(高效层聚合网络)模块,以及YOLOv8中公布的C2f(具有反馈的跨阶段部分连接)模块。这些创新极大地推进了 Backbone 架构的视觉特征提取能力。
相比之下,作者的Hyper-YOLO模型将创新轴转向了 Neck 分的结构设计。在颈架构领域,如YOLOv6[5]、YOLOv7[7]和YOLOv8[8],一直采纳了PANet(路径聚合网络)结构。同时,Gold-YOLO[10]则采用了创新的聚集-分发颈范式。接下来,作者将比较HyperYOLO的HyperC2Net与这两种经典颈架构。
尽管PANet结构在融合多尺度特征方面具有高效性,但其融合仅限于直接相邻的层之间的信息融合。这种直接邻接限制了网络内信息融合的宽度。而HyperC2Net通过使 Backbone 生成的五级特征进行直接融合,克服了这一限制,从而生成了更强大、更多样化的信息流动,有助于减少不同深度特征之间的连接间隙。值得注意的是,虽然Gold-YOLO引入的聚集-分发颈机制可以整合多个层次的信息,但它并没有 inherently考虑特征图中的跨位置交互。而HyperC2Net的独创之处在于,它利用超图计算来捕捉特征图内在的复杂高阶关联。语义域中的超图卷积有助于不受网格限制的信息流动,以便实现跨水平和跨位置的高阶信息传递。这种方式打破了传统网格结构的限制,实现了更精细、更集成的特征表示。
HyperC2Net生成的特征表示考虑了原始数据 Backbone 提供的语义特征,以及潜在的高阶结构特征。这种丰富的特征表示对于实现目标检测任务上的优秀性能是至关重要的。HyperC2Net利用这些复杂的高阶关系的能力,相比传统的PANet和最近的创新集聚会分发颈,具有显著优势,强调了高阶特征处理在推动计算机视觉领域先进技术中的价值。
V Experiments
Experimental Setup
V-A1 Datasets
本文使用了微软COCO数据集[41],该数据集是目标检测的基准。本研究使用了其中的train2017子集进行训练,而Val2017子集作为验证集。在Val2017子集上对超YOLO模型的性能进行了评估,具体结果请参见表1。
V-A2 Compared Methods
作者选择了包括YOLOv5 [4]、YOLOv6-3.0 [5]、YOLOv7 [7]、YOLOv8 [8]、Gold-YOLO [10]和YOLOv9 [21]在内的高级YOLO系列方法进行比较。作者在实验中采用了它们报告的默认参数配置。
V-A3 Our Hyper-YOLO Methods
作者开发的超YOLO基于YOLOv8的四个尺度(-N,-S,-M,-L)。因此,作者对超YOLO架构的每个阶段的超参数(卷积层数,特征维度)进行了修改,如表S2所示,因此得到了超YOLO-N,超YOLO-S,超YOLO-M和超YOLO-L。考虑到作者的超YOLO在 Neck 分引入了高阶学习,增加了参数数量,作者进一步在超YOLO-N的基础上减少了参数,形成了超YOLO-T。具体来说,在超YOLO-T的超C2Net中,底部Up阶段的最后一个C2f被替换为一个1x1卷积。此外,作者注意到最新的YOLOv9在推理过程中采用了一种新的可编程梯度信息传递和剪枝方法来减少参数,同时保持准确性。基于YOLOv9,作者开发了超YOLOv1.1。具体来说,作者将YOLOv9的 Neck 分替换为超YOLO的超C2Net,从而使YOLOv9具有高阶学习的能力。
V-A4 Other Details
为了确保公平的比较,作者排除了拟合和自我蒸馏策略在所有考虑的方法中的使用,如[5]和[10]所概述的那样。此外,考虑到输入图像尺寸可能会对评估产生潜在的影响,作者将所有实验中的输入分辨率统一为640×640像素,这是领域中常用的选择。评估基于标准的COCO平均精确度(AP)指标。有关实现特定之处请参见A和C部分。
Results and Discussions
在COCO Val2017验证集上的目标检测结果如表1所示,主要得出四点观察结论。
首先,提出的Hyper-YOLO方法在所有四个尺度上都优于其他模型。例如,在AP指标上,Hyper-YOLO在-N尺度上实现了41.8%,在-S尺度上实现了48.0%,在-M尺度上实现了52.0%,在-L尺度上实现了53.8%。与Gold-YOLO相比,Hyper-YOLO分别实现了2.2、2.6、2.2和2.0的提升。与YOLOv8相比,提升分别为4.5、3.1、1.8和0.9。与YOLOv9相比,Hyper-YOLO分别实现了3.5、1.2、0.6和0.8的提升。这些结果验证了Hyper-YOLO方法的有效性。
其次,作者注意到,作者的方法不仅提高了Gold-YOLO性能,还显著减少了参数数量。具体而言,在-N尺度上降低了28%,在-S尺度上降低了31%,在-M尺度上降低了19%,在-L尺度上降低了25%。主要原因是作者的HGC-SCS框架在与Gold-YOLO的汇集分发机制相比较时,进一步引入了高阶学习到语义空间。这使得作者的方法能够更有效地使用 Backbone 网络提取的多样化信息,包括跨层和跨位置信息,同时使用更少的参数。
最后,作者观察到,与YOLOv8相比,作者的Hyper-YOLO带来的改进随着模型尺度的减小(从-L到-N)而变得更加显著(从0.9提高到4.5)。这是因为较小的模型尺度削弱了特征提取能力和从视觉数据中获取有效信息的能力。在这种情况下,高阶学习成为必要,以便捕捉特征图语义空间中的潜在高阶相关性,丰富最终的检测Head用于检测的特征。此外,在语义空间中的超图基础上的高阶消息传播允许不同位置和层之间的直接信息传递,增强有限参数基础上 Backbone 网络的特征提取能力。
Ablation Studies on Backbone
在本和小节中,考虑到模型的规模,作者选择Hyper-YOLO-S进行对backbone和neck的消融研究。
Iv-C1 On Basic Block of Backbone.
作者在提出的MANet上进行消融实验,以验证基础块中提出的混合聚合机制的有效性,结果见表2。为确保公平比较,作者使用与YOLOv8 [8]中相同的PANet [16]作为 Neck ,以便两种方法之间的唯一差异在于基础块。实验结果明确显示,在相同 Neck 下,MANet在所有指标上都优于C2f模块。这种优越性能归因于混合聚合机制,该机制集成了三种经典结构,导致信息流动更加丰富,从而实现了增强性能。
Iv-C2 On Kernel Size of Different Stages.
作者进一步进行了关于卷积核大小的消融实验,这在确定感受野和网络捕捉数据空间层次的能力方面是一个至关重要的因素。在作者的实验中,表示使用在第i阶段的MANet的卷积核大小。
Ablation Studies on Neck
Iv-D1 High-Order vs. Low-Order Learning in HGC-SCS Framework
HGC-SCS 框架的核心是语义空间的超图计算,这使得在特征点集中实现高阶信息传播成为可能。作者通过将超图简化成一个图来进行低阶学习来进行有效性评估,结果如表4 所示。在这种情况下,图是由连接图相邻节点中心节点并在 -球内的边构建的。使用的图卷积操作[42]是经典的:,其中是图邻接矩阵 的对角度矩阵。此外,作者包括了一个没有任何相关的学习配置:" None"。实验结果如表4 所示,表明高阶学习与其他两种方法相比表现出优越性能。从理论上讲,低阶学习可以被视为高阶学习的子集,但缺乏建模复杂相关的能力。相反,高阶学习具有更强的相关建模能力,这对应着更高的性能天花板,因此它更容易实现更好的性能。
Iv-D2 On the Semantic Collecting Phase
第一个阶段是语义搜集,其主要作用是将输入到语义空间的总体信息量确定下来。作者在该阶段进行了相应的消融实验,如表5所示,使用了三种不同的配置,分别选取3,4或5个特征图层作为输入。实验结果表明,更多的特征图层可以带来更丰富的语义空间信息。这种增强的信息丰富度使得超图能够完全发挥在模拟复杂相关性方面的能力。因此,输入配置为5个特征图层时取得了最佳性能。这一结果表明,当将更多层次的特征图层整合到模型中时,模型可以从输入数据中获得更全面的表示。更多的特征图层可能引入了视觉输入的更广泛的语义意义和细节,使得超图能够建立更高层次的联系,以更全面地理解场景。因此,采用整合5个特征图层的配置能够最大化基于超图的复杂相关性建模的潜力。
V-D3 On Hypergraph Construction of Hypergraph Computation Phase
为了检验构建超图时所使用的距离阈值的影响,作者进行了进一步的消融实验,结果如表6所示。与不引入超图计算的配置"None"相比,引入超图计算会显著提高整体性能。还观察到目标检测网络在从7到9的阈值范围内表现 relatively 稳定,变化很小。然而,在阈值6和10时,性能出现下降。这可以归因于直接影响语义空间中特征平滑度的连接节点数量。较高的阈值可能导致更连接的超图,其中节点更有可能共享信息,可能导致特性过度平滑。相反,较低的阈值可能导致无法充分利用特性之间的高阶关系,从而构建出较不连接的超图。因此,超YOLO使用8作为构建超图的距离阈值。确切的值将基于实证结果确定,在丰富连接的超图与过度平滑或未正确连接的特性表示之间进行平衡。
More Ablation Studies
在本小节中,作者对Hyper-YOLO的4种不同的模型规模进行了全面的消融研究,以评估脊骨和 Neck 的改进对其性能的影响,详细结果已在表7中呈现。YOLOv8的基准性能被放在表的最上端。表格中间部分介绍了只包含脊骨改进的作者的HyperYOLO模型。最后,作者详细介绍了同时受益于脊骨和 Neck 改进的完整的HyperYOLO模型。根据表7的实验结果,作者有以下三个观察。
首先,采用个别的和联合改进显着提升了-N,-S和-M模型的性能,验证了作者提出的修改的有效性。其次,每个改进的影响似乎与规模有关。当作者从-N到-S,-M和-L模型,由于脊骨改进而获得的逐步性能增益从2.6降至1.5,0.8和最后0.1。相比之下, Neck 改进在所有这些规模上持续贡献更显著的改进,分别增加了1.9,1.6,1.0和0.8。这表明,尽管脊骨中扩大感受野和宽缩带来的好处在小模型中更加明显,但是高级的HyperC2Net颈可以为所有模型提供更均匀的增强,通过丰富语义内容和提高整体目标检测能力。第三,当关注小目标检测(AP*)时,同时受益于背骨和 Neck 增强的HyperYOLO-L模型实现了1.6的显著增加,而仅仅引入背骨改进的模型只能实现0.6的改进。这强调了超图模型,特别是 Neck 增强,在捕获小物体及其之间复杂关系并显著提高这些具有挑战性的场景的检测潜力。
More Evaluation on Instance Segmentation Task
作者将超分辨率YOLO(Hyper-YOLO)应用于COCO数据集上的实例分割任务,确保与先驱YOLOv8进行直接比较,通过采取一致的网络修改方法:用分割头替换检测Head。实验结果如表8所示。
实验结果清楚地说明了Hyper-YOLO获得了显著的性能提升。对于AP,Hyper-YOLO在-N变体中获得了4.7个AP的显著提升,在-S变体中获得了3.3个AP的显著提升,在-M变体中获得了2.2个AP的显著提升,在-L变体中获得了1.4个AP的显著提升。同样,对于AP,Hyper-YOLO也表现出显著改进,-N变体中实现了3.3个AP的显著提升,-S变体中实现了2.3个AP的显著提升,-M变体中实现了1.3个AP的显著提升,-L变体中实现了0.7个AP的显著提升。这些结果充分证明了Hyper-YOLO中集成的新技术的有效性。
Visualization of High-Order Learning in Object Detection
在作者这篇论文中,作者提供了一个数学理由,解释了如何超越传统基于网格邻居结构的设计限制,这种设计通常在特征映射内的消息传播依赖这种结构。这种设计使得在特征空间的高级高阶消息传播成为可能。为了进一步证实作者基于超图的车颈的有效性,作者在修订的稿件中包含了图5中的可视化。这些可视化对比了在应用作者的超卷积层前后特征映射的情况。从这些图像中可以看出,在各场景中,对语义上相似的背景,如天空和地面,关注度有持续性降低,而前端物体则保持关注。这表明,通过超图计算,超卷积帮助车颈更好地识别图像中的语义相似物体,从而支持检测Head做出更一致的决定。
VI Conclusion
在这篇论文中,作者提出了Hyper-YOLO,这是一个具有创新性的目标检测模型,它将超图计算与YOLO架构相结合,以利用视觉数据中的高阶相关性。
通过解决传统YOLO模型的固有局限性,特别是在 Neck 的设计无法有效地将特征集成到不同的 Level ,并利用高阶关系,作者在目标检测方面取得了显著的提升。
作者的贡献为未来的目标和检测框架的研究与发展设立了一个新基准,并为作者基于HGC-CSC框架的视觉架构中超图计算的进一步探索铺平了道路。
参考
[1].Hyper-YOLO: When Visual Object Detection.
作者:小先知
来源:集智书童
推荐阅读
- 【翻译】使用 Triton 核心加速 Llama3 FP8 推断
- CUDA-MODE课程笔记 第9课: 归约(也对应PMPP的第10章)
- TensorRT-LLM初探(三)最佳部署实践
- CAS-ViT 提升图像分类、目标检测、语义分割等任务性能,可部署到手机端!!
欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。