Happy · 2022年09月16日 · 北京市

SwinFIR | 超分领域的"ConvNeXt",值得一看

image.png

看上图,有没有觉得好熟悉?好像是ConvNeXt?对,也不对。它就是超分领域的那个"X":依托SwinIR而衍生出来的SwinFIR。很明显,上图就给出了本文的研究脉络:

  • 模块层面的设计,引入SFB模块,后面会进行介绍;
  • 损失函数的调整,从L1调整为Charbonnier(好像视频超分中用这个更多)
  • 数据增强的引入:打破"常识",ChannelShuffle与Mixup竟然可以涨点0.13dB
  • 更多数据、更长训练周期:已被多次验证可行性;
  • 针对Transformer的微观改进:SwinTransformer的块尺寸调大
  • 预训练技巧引入:已在IPT、EDT中得到验证;
  • 后处理涨点技巧:受启发于自集成,提出了特征集成涨点技巧(有些类似于EMA,但又不一样)

image.png

总而言之,通过上述不同维度的探索与尝试,所提SwinFIR取得了显著的性能提升。从笔者角度来看,值得称道的主要是以下两点:(1)  数据增广技巧的探索与分析;(2)自集成涨点技巧的提出

本文方案

image.png

上图给出了所提SwinFIR架构示意图,在SwinIR基础上将RSTB与body部分的Conv替换为SFB即可,这个没什么好介绍。这就只是对SFB进行一下介绍好了。

SFB引入了FFC模块,即快速傅里叶卷积。FFC可以用一句话来概括:为捕捉全局特征正而提出的一种新的卷积模块。它首先将空间特征采用傅里叶变换到频域,然后在频域做卷积处理,最后再通过傅里叶逆变换回去。关于FFC的架构可参考下图,源自《Fast Fourier Convolution》

image.png

# 实现伪代码
def FFC(x):
    y_r, y_i = FFT(x)
    y = Concatenate([y_r, y_i], dim=1)
    y = ReLU(Conv(y))
    y_r, y_i = Split(y, dim=1)
    z = iFFT(y_r, y_i)
    return z

image.png

此外,针对经典图像超分与轻量型图像超分,作者设计了两个版本的SFB模块,见上图。区别只是左侧的残差分支,这个没什么好介绍的,直接略过。

Data Augmentation

Radu Timofte等人于CVPR2016提出的"超分七把刀"表明:基于空域变换的旋转、镜像空域有效提升超分性能。相关方案已被广泛应用low-level任务中。尽管像素域的数据增广在high-level任务中得到了广泛应用并取得了显著成果,但是在low-level任务中却鲜少进行探索。

本文则对其他像素域数据增广方法(如RGB空间的通道置换、Mixup、Blend、CutMix、Cut-Mixup)的有效性进行了回顾。如前面图示所看到:除了CutMix与Cut-Mixup这种会破坏视觉连续性的方案外,其他方案均取得了性能上的提升

更多训练数据、调大Transformer模块的窗口尺寸、模型预训练已在IPT、EDT研究中得到了证实,所以本文作者就没有进行深入分析,故略过。

Feature Ensemble

一般来讲,模型训练完成后,只会保留在验证集上指标的那个,其他临时模型则会被删除。多模型击沉关于自集成两种有效的提升超分性能的方案,但两者往往会导致更长的推理耗时

  • 多模型集成:它将多个模型的处理结果进行组合;
  • 自集成:它对输入图像的不同变换进行处理,然后将多个结果进行平均。

本文提出一种不会影响训练或测试周期的新的集成策略:特征集成。该集成策略可以有效提升模型的性能并可以用于任意任务,包含high-level与low-level。

其中,n表示用于特征集成的模型数量,表示每个模型的加权值,默认。

实验部分

关于训练数据与模型配置相关信息可参考下表,基本上参考EDT一文进行的。此外,作者还在Stere ISR任务上进行了训练验证。

 Pre-TrainTrainAugPatchSizeblockstlchannelheadwin
ClassificalImageNet2012DF2Kchanel shuffle, mixup etc60x6066180612
LightweightImageNet2012DF2Kchanel shuffle, mixup etc60x604560612

关于训练超参数信息如下:

  • 优化器:Adam常规配置;
  • 学习率(预训练阶段):初始2e-4总结训练1M次迭代,分别在500k、800k、900k以及950k时折半;
  • 学习率(微调阶段):学习率设为1e-5。

Classical Image Super-Resolution

image.png

image.png

上表与图给出了常规图像超分指标与直觉效果对比,从中可以看到:

  • SwinFIR在X2、X3以及X4任务上均取得了最佳指标。值得一提的是,相比SwinIR,Urban100@X4与Manga109@X4的指标分别从27.45dB、32.03提升到了28.12dB、32.83dB,提升达0.77dB与0.80dB。
  • 从视觉效果可以看到:SwinFIR重建效果更为清晰。受益于FFC,该方案尤其擅长于重建周期性纹理。

image.png

上图从LAM角度对SwinIR、EDT以及SwinFIR进行了分析,可以看到:

  • 从DI角度来看,SwinFIR方案可以利用更多相关的像素进行重建;
  • 从Area-of-contribution角度来看,几乎全部的像素均参与了SR图像的重建,而SwinIR的感受野则比较有限。

Lightweight Image Super-Resolution

image.png

image.png

上图与表对轻量型超分模型性能进行对比,可以看到:

  • 所提方案取得了最佳的指标,值得一提是:同等参数前提下,SwinFIR比EDT和SwinIR高出0.15dB与0.58dB(Manga109@X4)。
  • 从视觉角度来看,SwinFIR重建结果更为锐利,包含更多的高频细节信息。

Stereo Image Super-Resolution

image.png

Ablation Study

image.png

上图对不同的数据增强的有效性进行了实验,从中可以看到:

  • 相比镜像与旋转,通道置换与Mixup可以将PSNR指标从32.78dB提升到32.93dB;
  • 但是,并不是所有增广均能涨点。尽管CutMix与Cutmixup能提升high-level任务性能,但会导致low-level任务性能下降。源自在于:这两种方案破坏了图像中的视觉连续性

image.png

已有研究表明:自集成可以提升超分性能指标,但会导致更长的推理耗时。受启发于自集成,本文提出了特征集成策略。相比自集成,新的策略不会导致任何额外训练与推理耗时。性能提升情况可以参考上表,还是比较稳定的涨点方式。

来源:AIWalker
作者:Happy

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
6194
内容数
191
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息