本文提出了图特征金字塔网络:GraphFPN,其能够使其拓扑结构适应不同的内在图像结构,并支持跨所有尺度的同步特征交互,与Faster R-CNN+FPN搭配!性能优于Sparse R-CNN等网络,单位:复旦大学, 香港大学等
1简介
特征金字塔在需要多尺度特征的图像理解任务中已被证明是强大的。多尺度特征学习的最新方法侧重于使用具有固定拓扑结构的神经网络跨空间和尺度执行特征交互。
在本文中提出了图特征金字塔网络,该网络能够使其拓扑结构适应不同的内在图像结构,并支持跨所有尺度的同步特征交互。首先为每个输入图像定义一个特定于图像的超像素层次结构来表示其固有的图像结构。图特征金字塔网络从这个超像素层次结构继承了它的结构。上下文层和层次层旨在实现相同尺度内和不同尺度之间的特征交互。为了使这些层更鲁棒,作者通过概括卷积神经网络的全局通道注意力,为图神经网络引入了2种类型的局部通道注意力。提出的图特征金字塔网络可以增强卷积特征金字塔网络的多尺度特征。
作者通过将其集成到Faster R-CNN算法中来评估在目标检测任务中的图特征金字塔网络。修改后的算法不仅在MS-COCO 2017验证和测试数据集上以明显的优势优于先前最先进的基于特征金字塔的方法,而且还优于其他流行的检测方法。
本文主要贡献
- 提出了一种新的图特征金字塔网络,利用固有的图像结构,支持所有尺度的同时特征交互。该图特征金字塔网络继承了输入图像的超像素层次结构。上下文层和层次层的设计分别是为了促进相同规模内和跨不同规模的特性交互;
- 在现有的卷积神经网络全局通道注意机制的基础上,进一步引入了图神经网络的2种局部通道注意机制;
- 在MS-COCO 2017验证和测试数据集上的大量实验表明,无论是否基于特征金字塔,图特征金字塔网络都可以帮助实现比现有的最先进的目标检测方法明显更好的性能。消融研究进一步验证了所提网络组件的有效性。
2图特征金字塔网络
图特征金字塔网络旨在通过在超像素层次上构建多尺度图神经网络来增强卷积特征金字塔网络。
2.1、Superpixel Hierarchy
2.2、Multi-scale Graph Pyramid
作者为图金字塔定义了2种类型的边。它们被称为上下文边缘和层次边缘。
上下文边缘连接同一层次上的2个相邻节点,而层次边缘连接不同层次上的2个节点,如果它们对应的超像素之间存在ancestor-descendant关系。上下文边缘用于传播层次边缘用于弥合不同层次之间的语义差距,而同一层次内的上下文信息。
请注意,层次边缘是密集的,因为在每个节点和它的每个ancestor和descendant之间都有这样的边缘。这些密集的连接会产生很大的计算和内存成本。因此,每个层次边缘都与其节点特征之间的余弦相似度关联,作者根据它们的余弦特征相似度对层次边缘进行修剪。在所有关联到节点的分层边缘中,排在最后50%的边缘将被删除。
2.3、Graph Neural Network Layers
在图金字塔的基础上构造了一个图神经网络GraphFPN。在GraphFPN中有2种类型的层,上下文层和层次层。这2种类型的层在图金字塔中使用相同的节点集,但不同的图边集。上下文层只使用上下文边缘,而层次层只使用修剪过的层次边缘。GraphFPN在最开始有L1上下文层,在中间有L2层次层,在最后有L3上下文层。更重要的是,每一层都有自己的可学习参数,这些参数不会与任何其他层共享。
表5中的消融研究表明,双局部通道注意力在GraphFPN中相当有效。
2.4、Feature Mapping between GNN and CNN
卷积神经网络可以保留局部和目标的位置信息,对目标检测有明显的好处,而图神经网络可以跨多个语义尺度灵活地建模局部和目标之间的依赖关系。
Mapping from CNN to GNN
Mapping from GNN to CNN
2.5、目标检测
本文提出的图特征金字塔网络可以用融合后的特征金字塔代替传统的FPN,集成到的目标检测中。采用Faster RCNN作为检测算法,并进行相同的端到端训练。
3实验
3.1 SOTA对比
3.2 可视化对比
4参考
[1].GraphFPN: Graph Feature Pyramid Network for Object Detection
END
原文:集智书童
作者: ChaucerG
推荐阅读
- 让检测告别遮挡 | 详细解读NMS-Loss是如何解决目标检测中的遮挡问题?
- 详细解读 Transformer的即插即用模块 | MoE插件让ViT模型更宽、更快、精度更高
- 超越MobileNet V3 | 详解SkipNet+Bias Loss=轻量化模型新的里程碑
更多嵌入式AI技术干货请关注嵌入式AI专栏。