SwinFIR | 超分领域的"ConvNeXt"，值得一看 - 极术社区

看上图，有没有觉得好熟悉？好像是ConvNeXt？对，也不对。它就是超分领域的那个"X"：依托SwinIR而衍生出来的SwinFIR。很明显，上图就给出了本文的研究脉络：

模块层面的设计，引入SFB模块，后面会进行介绍；
损失函数的调整，从L1调整为Charbonnier(好像视频超分中用这个更多)
数据增强的引入：打破"常识"，ChannelShuffle与Mixup竟然可以涨点0.13dB
更多数据、更长训练周期：已被多次验证可行性；
针对Transformer的微观改进：SwinTransformer的块尺寸调大
预训练技巧引入：已在IPT、EDT中得到验证；
后处理涨点技巧：受启发于自集成，提出了特征集成涨点技巧(有些类似于EMA，但又不一样)

总而言之，通过上述不同维度的探索与尝试，所提SwinFIR取得了显著的性能提升。从笔者角度来看，值得称道的主要是以下两点：(1) 数据增广技巧的探索与分析；(2)自集成涨点技巧的提出。

本文方案

上图给出了所提SwinFIR架构示意图，在SwinIR基础上将RSTB与body部分的Conv替换为SFB即可，这个没什么好介绍。这就只是对SFB进行一下介绍好了。

SFB引入了FFC模块，即快速傅里叶卷积。FFC可以用一句话来概括：为捕捉全局特征正而提出的一种新的卷积模块。它首先将空间特征采用傅里叶变换到频域，然后在频域做卷积处理，最后再通过傅里叶逆变换回去。关于FFC的架构可参考下图，源自《Fast Fourier Convolution》

# 实现伪代码
def FFC(x):
    y_r, y_i = FFT(x)
    y = Concatenate([y_r, y_i], dim=1)
    y = ReLU(Conv(y))
    y_r, y_i = Split(y, dim=1)
    z = iFFT(y_r, y_i)
    return z

此外，针对经典图像超分与轻量型图像超分，作者设计了两个版本的SFB模块，见上图。区别只是左侧的残差分支，这个没什么好介绍的，直接略过。

Data Augmentation

Radu Timofte等人于CVPR2016提出的"超分七把刀"表明：基于空域变换的旋转、镜像空域有效提升超分性能。相关方案已被广泛应用low-level任务中。尽管像素域的数据增广在high-level任务中得到了广泛应用并取得了显著成果，但是在low-level任务中却鲜少进行探索。

本文则对其他像素域数据增广方法(如RGB空间的通道置换、Mixup、Blend、CutMix、Cut-Mixup)的有效性进行了回顾。如前面图示所看到：除了CutMix与Cut-Mixup这种会破坏视觉连续性的方案外，其他方案均取得了性能上的提升。

更多训练数据、调大Transformer模块的窗口尺寸、模型预训练已在IPT、EDT研究中得到了证实，所以本文作者就没有进行深入分析，故略过。

Feature Ensemble

一般来讲，模型训练完成后，只会保留在验证集上指标的那个，其他临时模型则会被删除。多模型击沉关于自集成两种有效的提升超分性能的方案，但两者往往会导致更长的推理耗时。

多模型集成：它将多个模型的处理结果进行组合；
自集成：它对输入图像的不同变换进行处理，然后将多个结果进行平均。

本文提出一种不会影响训练或测试周期的新的集成策略：特征集成。该集成策略可以有效提升模型的性能并可以用于任意任务，包含high-level与low-level。

其中，n表示用于特征集成的模型数量，表示每个模型的加权值，默认。

实验部分

关于训练数据与模型配置相关信息可参考下表，基本上参考EDT一文进行的。此外，作者还在Stere ISR任务上进行了训练验证。

	Pre-Train	Train	Aug	PatchSize	block	stl	channel	head	win
Classifical	ImageNet2012	DF2K	chanel shuffle, mixup etc	60x60	6	6	180	6	12
Lightweight	ImageNet2012	DF2K	chanel shuffle, mixup etc	60x60	4	5	60	6	12

关于训练超参数信息如下：

优化器：Adam常规配置；
学习率(预训练阶段)：初始2e-4总结训练1M次迭代，分别在500k、800k、900k以及950k时折半；
学习率(微调阶段)：学习率设为1e-5。

Classical Image Super-Resolution

上表与图给出了常规图像超分指标与直觉效果对比，从中可以看到：

SwinFIR在X2、X3以及X4任务上均取得了最佳指标。值得一提的是，相比SwinIR，Urban100@X4与Manga109@X4的指标分别从27.45dB、32.03提升到了28.12dB、32.83dB，提升达0.77dB与0.80dB。
从视觉效果可以看到：SwinFIR重建效果更为清晰。受益于FFC，该方案尤其擅长于重建周期性纹理。