【炼丹手册】升级版炼丹手法助力RCAN性能媲美SwinIR

在“炼丹”领域，手法对于“丹”的质量影响还是比较大的。在图像分类这个领域，亚马逊的研究员提供了一个比较详尽“炼丹手册”，见arXiv:1812.01187；在目标检测领域也有同样有不少“炼丹手册”，而且还不止一份，比如YOLOv4，再比如亚马逊的“炼丹手册”，见arXiv:1902.04103，比如YOLOX、PP-PicoDet等均对“炼丹手法”提供了不少经验；在长尾识别领域同样有这样一份“炼丹手册”，见BagLT。然而，在图像超分领域鲜少有相关的“炼丹手册”公之于众。偶然间，笔者于arXiv偶遇图像超分领域的炼丹手册(见RCAN-it)，不胜欣喜，故记录之。

1前情回顾

上图为RCAN的网络架构示意图，它同时用到了通道注意力、局部跳过连接、全局跳过连接等技术，RCAN在很长时期里都代表的图像超分的巅峰，直到现在，在图像超分的方法对比中RCAN仍是绝对的标杆。关于RCAN的详细介绍可参考：残差通道注意力网络RCAN。

2021年是Transformer在CV领域训练发展的一年，衍生出了各种各样的变种，也占领了各个CV子领域的高地。在图像超分领域，SwinIR代表了当前图像超分性能的巅峰，其结构示意图见上图。关于SwinIR的详细介绍可参考：Transformer在图像复原领域的降维打击！ETH提出SwinIR：各项任务全面领先。

正如已有研究所指出：“炼丹技巧”对于Transformer在CV领域的性能大幅提升起了非常重要的作用。当为常规ResNet搭配上优秀的“炼丹手法”后其性能同样可以大幅提升，可查阅Timm助力ResNet焕发“第二春”，无蒸馏且无额外数据，性能高达80.4%。

那么，当为RCAN搭配上优秀的“炼丹手法”后，其性能是否仍与SwinIR存在那么大的差距吗？如果缩小又能缩小到何种程度呢？此外，图像分类中的各种“手法”是为了过拟合问题而设计，图像超分也是同样的设计吗？

2炼丹手册

本文主要从两个角度进行探索，一个网络架构，一个是训练策略。在网络架构方面，为延续“炼丹手法”的初衷，仅对激活函数进行了轻度调整，将原始的ReLU替换为SiLU激活函数：

在训练策略方面，本文从以下几个角度进行了探索：

Large-batch Optimization：原始的RCAN采用Adam优化器进行训练，batch=16，学习率为0.0001，学习率衰减机制为Multi-step，大概花费7天时间(一个GPU)；本文对此进行了改进，改为多GPU训练，学习率按照线性缩放规则进行调整，优化器调整为Lamb，学习率衰减机制调整为Cosine Annealing，batch=256。相关实验结果对比见上表。

Longer Training：从上图可以观察到：RCAN的验证性能仍在上涨，即处于欠拟合阶段。因此，我们采用了更长的训练周期以缓解欠拟合问题。
Large-patch Finetuning：已有研究表明：更大的图像块有助于提升模型的性能。但更大的图像块会伴随更多的GPU占用，导致更长的训练时间。因此，我们设计了一种两阶段训练策略：首先采用标准块()进行训练，然后采用更大的块()进行微调。
Low-precision Training：已有研究表明：采用FP16进行图像分类模型训练可以保持、甚至轻微改善模型性能，同时大幅降低训练时间与GPU占用。但是，我们发现：FP16训练在图像超分中具有截然不同的行为表现。
Regularization Technique：除了训练策略外，我们还尝试了图像分类中广泛采用的正则化技术，比如Mixup、随机深度等。然而，由于图像RCAN存在欠拟合而非过拟合问题，故RCAN并未从正则技术中受益。
Warm Start：对于不同尺度的图像超分模型，我们采用x2预训练模型对x3和x4进行初始化，称之为warm start。由于tail部分并未共享，我们首先对tail部分进行微调直到收敛(时间小于1小时)，然后对整个模型进行微调以节省训练时间(仅需正常训练的50%耗时)。

3Experiments

上表给出了前述改进的性能影响对比，从中可以看到：

将ReLU替换为SiLU、更长的训练周期、更大块的微调均有助于模型的性能改善，平均性能改烧至少0.042dB；
更长训练周期、更大块微调带来的性能提升进一步支撑：像RCAN这种的深度超分方法仍存在欠拟合问题，而这些策略有助于缓解该问题；
FP16训练与正则技术往往会导致模型性能退化。比如，FP16训练导致PSNR指标下降达0.035dB，有时甚至会出现NaN问题。
总而言之，图像分类中的增益技巧在图像超分中可能会有不同的行为表现，说明了CV任务的独一性。因此，我们建议超分研究人员在要对这些正则技术持一些谨慎态度。

上表从多技术叠加角度进行了对比分析，可以看到：

SiLU+更长训练周期平均可以带来0.095dB指标提升；
更大图像块微调的影响相对小一些，但仍可以进一步取得性能提升，并将Manga109测试集的性能提升到了40.04dB。

上表给出了Warm Start对于超分性能的影响，从中可以看到：

当仅对tail部分微调时，x3和x4已经可以匹配原始RCAN的性能。这说明：warm-start一种有效的训练策略。
进一步进行整个模型微调可以进一步提升模型的性能，比如X3平均提升0.149dB，X4平均提升0.176dB；
与此同时，更大块的微调还可以进一步轻微提升模型性能。总而言之，相比从头训练，warm-start+微调一种非常合理的节省训练时间的手段。

上表给出了不同方案的性能对比，可以看到：对比近三年的各种改进方案，RCAN-it仍可取得相当、甚至更优的性能。注：本文并非旨在说明超分架构的改进不重要；恰恰方向，这些新架构的可以进一步推动该领域前进的步伐。

上图给出了不同方案的视觉效果对比，可以看到：RCAN-it可以重建更好的高频信息。

上表给出了所提方案与SwinIR的对比，从中可以看到：

在X2任务上，相比RCAN，SwinIR性能超越0.41dB@Urban100；
当引入优秀训练策略后，RCAN-it大幅减小了其与SwinIR之间的性能差距，甚至在Manga109测试集上超越了SwinIR。
尽管SwinIR具有非常优异的性能，但其推理速度非常慢。以Nvidia V100 GPU为基准平台，SwinIR的推理速度要比RCAN慢4.34倍，SwinIR-S的速度慢2.89倍同时性能显著降低。
相比SwinIR的推理速度，RCAN-it的额外1%推理耗时(SiLU导致)可以忽略不计。因此，从精度与速度角度来看，RCAN-it仍然是一个非常合适的选择。

除了上述实验外，作者还提供的一些额外实验，见上表，可以看到：

更长的训练周期可以进一步提升模型性能，又一次验证了本文的生命：超分模型性能受欠拟合约束，而非过拟合。
相比从头训练，warm-sart可以取得相当的性能，同时节省约50%的训练耗时。

首发：AIWalker
作者：Happy

1前情回顾

2炼丹手册

3Experiments

推荐阅读

目录