Happy · 2022年01月18日

G-GhostNet | 适配GPU,华为诺亚提出G-Ghost方案升级GhostNet

GhostNet是华为诺亚在轻量化网络架构设计方面的力作,首次见刊于CVPR2020,也是CVPR2020最具影响力论文之一。GhostNet无论在工业界还是在学术界影响力均不小,最近两年也有不少基于GhostNet思想而进行的“魔改”,比如前段时间火热的PP-PicoDet的骨干架构就有GhostNet的身影。

近期该团队对其进行了扩展,提出了适用于服务器的G版GhostNet,即G-GhostNet。作者将早期GhostNet称之为C-GhostNet,即适用于CPU/移动端的GhostNet。关于C-GhostNet可以参考如下两个链接:

本文仅针对G版GhostNet进行介绍,感兴趣的同学建议查看原文以全面理解作者关于GhostNet设计的背后思想。
image.png
CVPR2020: https://arxiv.org/abs/1911.11907
IJCV2022: https://arxiv.org/pdf/2201.03297.pdf
code: https://github.com/huawei-noah/CV-Backbones

1 背景&出发点

尽管C-GhostNet能大幅减少FLOPs同时保持高性能,但它所用到的cheap操作对于GPU既不cheap也不够高效。具体来说,depthwise卷积具有低计算密度(ratio of computation to memory operations),无法充分利用GPU的并行计算能力。如何在精度和GPU延迟之间获得更好的平衡,仍然是一个被忽视的问题

除了FLOPs与参数量外,《Designing Networks Desing Space》一文引入"Activations"衡量网络复杂度,相比FLOPs,它与GPU延迟具有更高的相关性。也就是说,如果我们可以移除部分特征减少"Activations",我们就能够很大概率降低GPU延迟

另一方面,CNN的主体部分通常包含多个分辨率渐进式缩小的阶段,每个阶段由多个Blocks堆叠而成。本文旨在降低"stage-wise"冗余而非C版的"block-wise",极大的减少中间特征进而降低计算量与内存占用
image.png
上图给出了ResNet34第二阶段不同block的特征可视化对比,可以看到:尽管最后一个模块的特征采用了更多操作,但部分特征与第一模块处理的特征非常相似,这意味着:这些特征可以通过对底层特征进行简单线性变换得到。此即为G-GhostNet的出发点。
image.png

2 Intrinsic Feature Aggregation

image.png
image.png

3 G-GhostNet

我们可以采用上述所提G-Ghost对现有CNN架构进行重构,即将常规的阶段构建替换为G-Ghost阶段构建。通过探索"stage-wise"冗余,G-Ghost阶段取得了更佳的精度-GPU延迟均衡。
image.png

4 Experiments

在实验部分,作者进行了非常详尽的分析,为简单起见,这里仅提供了G-GhostNet相关的实验。对其他部分实验感兴趣的同学建议查看原文。
image.png
上表给出了以ResNet为蓝本的对比,它采用G-Ghost对ResNet34的阶段架构进行替换,可以看到:

  • G-Ghost-ResNet34 w/o mix取得了比ResNet34-0.8x更高的性能,同时参数量与GPU延迟相当;
  • 引入mix操作后可以进一步提升模型性能且额外计算量可忽略,G-Ghost w/ mix取得了与ResNet34相当的性能,同时GPU推理延迟降低16%。
    image.png
    上表给出了RegNet为蓝本的对比,从中可以看到:相比RegNetX-3.2GF-0.75x, G-Ghost-RegNet取得了1.1%的性能提升,同时具有稍快推理速度
    image.png
    上表对比了G-Ghost-RegNet与其他CNN架构的性能对比,可以看到:所提G-Ghost-RegNet取得了最佳的精度-FLOPs均衡
    image.png
    上图给出了不同网络的精度与GPU延迟的对比,可以看到:所提G-Ghost-RegNet取得了最佳的精度-GPU延迟均衡
    image.png
    上图给出了本文所设计G-GhostNet与其他轻量型网络的精度-GPU延迟性能对比,可以看到:尽管G-GhostNet具有更高的FLOPs、更高CPU延迟,但它具有更低的GPU延迟、更高精度
    image.png
    最后,我们再补充一个下游任务上的性能对比,见上表,可以看到:
  • G-Ghost可以将GPU推理速度从21.9提升到25.9FPS,降低0.7mAP指标;
  • G-Ghost-RegNetX-3.2GF取得了超越ResNet50与RegNetX-3.2GF-0.75x的性能,同时具有更快推理速度,验证了G-Ghost骨干的有效性与泛化性。
首发:AIWalker
作者:happyaiwalker

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker
推荐阅读
关注数
6200
内容数
193
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息