Happy · 2020年09月03日

AIM20|超轻量型超分网络|MAFFSRN

首发:AIWalker

640.jpg
标题&作者团队

paper:https://arxiv.org/abs/2008.12912

【导语】图像/视频增强在手机端的应用非常多,但是基于深度学习的画质增强方法却往往难以真正的落地,这其中原因有二:(1) 模型过大,导致计算复杂度、内存占用高;(2) 输入图像分辨率过大,往往输入1K,甚至更高(像图像分类、目标检测的输入往往只有200-300,且特征分辨率逐级下降,而画质增强类算法往往只存在分辨率增大过程,较少进行分辨率降低)。该文从模型的超轻量角度出发,提出了一种超轻量型的模型,这无疑为相应方法的真正落地提供了一个强大的Baseline,故推荐给各位。

Abstract

轻量型超分网络对于真实场景应用极为重要,尽管已有诸多基于深度学习的方法在图像超分领域取得前所未有的成功,但是它们存在高内存占用、高计算量问题,这严重阻碍了其在真实场景的应用问题。

为解决上述问题,作者提出一种Multi-Attentive Feature Fusion Super Resolution Network(MAFFSRN),它由所提出的Feature Fusion Groups(FFGs)构成,每个FFG包含多个所提Multi-Attention Block(MAB),每个MAB采用多注意力机制精炼与提取特征。

最后,作者通过充分的实验证实了所提方法的SOTA性能,并获得AIM20 Efficient SR竞赛的内存占用赛道第一,FLOPs第三,参数量第四的成绩。下图给出了所提方法与其他SOTA超分方法在PSNR与FLOP方面的对比。

640-1.jpg

Comparison

该文主要贡献包含以下几点:

  • 提出一种超轻量型超分网络,它由BFF、MAB、CEA等模块构成;
  • 所提方法取得了AIM20超分竞赛内存占用第一、FLOP第三、参数量第四的成绩;
  • 与其他SOTA方法在多个尺度进行了充分的定量与定性对比分析。

Method

640-2.jpg

Framework

上图给出了所提方法的整体网络框架图,很明显它是VDSR类型的网络架构。MAFFSRN包含多个FFG模块,与多尺度上采样模块。MAFFSRN首先采用一个Conv提取特征,然后采用多个FFG进行特征精炼与增强,最后采用多尺度上采样模块进行超分得到残差图,最后与bicubic结果相加得到最终的超分结果。(注:作者认为该网络结构属于RDN系列,但从笔者角度来看应当属于VDSR系列)

对于给定输入低分辨率图像,浅层特征提取可以描述如下:

接下来,就是采用多个FFG对浅层特征进行精炼与曾倩过来,该过程可以描述为:

最后的多尺度重建过程可以描述如下:

上面对该文所提MAFFSRN进行概括性介绍,下面就要对其中的一些关键性模块进行更为充分的介绍与分析咯。

FFG

我们首先来介绍一个FFG这个模块,它有多个MAB模块(见下一小节内容)构成。下图给出了几种形式的MAB组合模式,HFF可以算作“一次性”融合模式,BFF可以视作“分组”融合模式,而该文所提用到的则是第三种“渐进式”融合模式,见下图c。

640-3.jpg

FFG

在BFF特征融合模式中,先对特征进行分组,相邻组特征通过concat方式进行融合得到组数减半的特征,顺次进行特征融合;而在所提M-BFF特征融合模式中,则是采用“渐进式”的特征融合,也就是说先融合两组,融合结果在于第三组融合,依次进行融合得到最终的融合特征。

受启发与ShuffleNet,在特征融合时作者引入了“通道置换”思想混合不同通道的信息,同时起到降低计算量目的。最后的特征输出则是采用自适应残差学习的方式,见MAB部分的示意图。注:请恕笔者知识面浅薄,未能搞懂这里的“通道置换”到底有什么作用。在ShuffleNet一文中,“通道置换”是为了进行组卷积时组间“信息交互”,而这里后接的是1x1卷积,好像不需要进行这个操作,就算进行了这个操作,在推理阶段它也可以和后接的1x1卷积合并,懵逼状态。

MAB

640-4.jpg

MAB

前面已经介绍了FFG,那么接下来就要介绍一下MAB模块了,见上图右(注:上图左即为FFG的更详细示意图)。

MAB着重强调了通道注意力机制的重要性,RFANet一文中同时引入了空域注意力机制与通道注意力机制(称之为ESA,感兴趣者可以查看超越RCAN,图像超分又一峰:RFANet),见下图。
640-5.jpg

ESA

该文作者在ESA的基础上进行了引入扩张卷积(不仅可以降低内存占用,同时可以提升感受野,进而提升模型性能)使其更高效,更进一步,作者将多个扩张卷积的输出结果通过Add方式融合以消除Gridding问题。与此同时,作者引入了另一种高效的注意力机制(cost-efficient attention, CEA)用于精炼输入特征,CEA有1x1卷积与depthwise卷积构成。

Experiments

“实验是检验真理的唯一标准”,所以为更好的说明所提方法的有效性,作者进行了充分的实验对比分析。

在模型配置方面,作者提供了两个模型:MAFFSRN与MAFFSRN-L。MAFFSRN包含4个FFG,每个FFG包含4个MAB;MAFFSRN-L则包含8个FFG,每个FFG包含4个MAB。在MAB中,1x1卷积的通道下降因子为4,stride卷积的stride=3,扩展卷积的因子分别为1和2,自适应参数初始化为0.5,网络中的通道数默认为32。

在训练数据方面,作者还采用DIV2K进行模型训练,验证集则为Set5、Set14、B100、Urban100等。

在训练超分方面,作者采用了AdamP优化器,初始学习率为,每200epoch折半,合计训练1000epoch;数据增强方法为标准方法(随机镜像、随机旋转),Batch=16,输入块大小为。

在度量准则方面,作者采用YCbCr空间Y通道的PSNR与SSIM;同时作者还对比了参数量、FLOPs等。

我们首先来看一下消融实验结果对比,下表给出了不同特征融合模式的性能对比。

640-6.jpg

image-20200902115732402

下表给出了“通道置换”添加前后的性能对比。

640-7.jpg

image-20200902115814066

下表给出了MAB中不同卷积的性能对比。

640-8.jpg

image-20200902115841622

下表给出了不同优化器训练模型的性能对比。

640.jpg

image-20200902115907012

接下来就是重点了,下表给出了所提方法与其他SOTA方法的性能对比与视觉效果对比。

640-1.jpg

image-20200902114639886

640-2.jpg

image-20200902114711985

下面给出了AIM20超分竞赛的结果对比,注:该竞赛要求超分的指标与ESRGAN(PSNR导向训练)在DIV2K相当的前提下尽可能降低计算量、参数量以及内存占用。内存占用采用torch.cuda.max_memory_allocated()进行测试,FLOPs则是在输入测试。所提方法在DIV2K验证集上的平均速度为0.104s(100张平均)。

640-3.jpg

image-20200902114749238

640-4.jpg

image-20200902114820612

全文到此结束,对该文感兴趣的同学建议去查看一下原文。



推荐阅读:

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏深度学习从入门到精通
推荐阅读
关注数
6197
内容数
191
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息