在“炼丹”领域,手法对于“丹”的质量影响还是比较大的。在图像分类这个领域,亚马逊的研究员提供了一个比较详尽“炼丹手册”,见arXiv:1812.01187;在目标检测领域也有同样有不少“炼丹手册”,而且还不止一份,比如YOLOv4,再比如亚马逊的“炼丹手册”,见arXiv:1902.04103,比如YOLOX、PP-PicoDet等均对“炼丹手法”提供了不少经验;在长尾识别领域同样有这样一份“炼丹手册”,见BagLT。然而,在图像超分领域鲜少有相关的“炼丹手册”公之于众。偶然间,笔者于arXiv偶遇图像超分领域的炼丹手册(见RCAN-it),不胜欣喜,故记录之。
1前情回顾
上图为RCAN的网络架构示意图,它同时用到了通道注意力、局部跳过连接、全局跳过连接等技术,RCAN在很长时期里都代表的图像超分的巅峰,直到现在,在图像超分的方法对比中RCAN仍是绝对的标杆。关于RCAN的详细介绍可参考:残差通道注意力网络RCAN。
2021年是Transformer在CV领域训练发展的一年,衍生出了各种各样的变种,也占领了各个CV子领域的高地。在图像超分领域,SwinIR代表了当前图像超分性能的巅峰,其结构示意图见上图。关于SwinIR的详细介绍可参考:Transformer在图像复原领域的降维打击!ETH提出SwinIR:各项任务全面领先。
正如已有研究所指出:“炼丹技巧”对于Transformer在CV领域的性能大幅提升起了非常重要的作用。当为常规ResNet搭配上优秀的“炼丹手法”后其性能同样可以大幅提升,可查阅Timm助力ResNet焕发“第二春”,无蒸馏且无额外数据,性能高达80.4%。
那么,当为RCAN搭配上优秀的“炼丹手法”后,其性能是否仍与SwinIR存在那么大的差距吗?如果缩小又能缩小到何种程度呢?此外,图像分类中的各种“手法”是为了过拟合问题而设计,图像超分也是同样的设计吗?
2炼丹手册
本文主要从两个角度进行探索,一个网络架构,一个是训练策略。在网络架构方面,为延续“炼丹手法”的初衷,仅对激活函数进行了轻度调整,将原始的ReLU替换为SiLU激活函数:
在训练策略方面,本文从以下几个角度进行了探索:
- Large-batch Optimization:原始的RCAN采用Adam优化器进行训练,batch=16,学习率为0.0001,学习率衰减机制为Multi-step,大概花费7天时间(一个GPU);本文对此进行了改进,改为多GPU训练,学习率按照线性缩放规则进行调整,优化器调整为Lamb,学习率衰减机制调整为Cosine Annealing,batch=256。相关实验结果对比见上表。
- Longer Training:从上图可以观察到:RCAN的验证性能仍在上涨,即处于欠拟合阶段。因此,我们采用了更长的训练周期以缓解欠拟合问题。
- Large-patch Finetuning:已有研究表明:更大的图像块有助于提升模型的性能。但更大的图像块会伴随更多的GPU占用,导致更长的训练时间。因此,我们设计了一种两阶段训练策略:首先采用标准块()进行训练,然后采用更大的块()进行微调。
- Low-precision Training:已有研究表明:采用FP16进行图像分类模型训练可以保持、甚至轻微改善模型性能,同时大幅降低训练时间与GPU占用。但是,我们发现:FP16训练在图像超分中具有截然不同的行为表现。
- Regularization Technique:除了训练策略外,我们还尝试了图像分类中广泛采用的正则化技术,比如Mixup、随机深度等。然而,由于图像RCAN存在欠拟合而非过拟合问题,故RCAN并未从正则技术中受益。
- Warm Start:对于不同尺度的图像超分模型,我们采用x2预训练模型对x3和x4进行初始化,称之为warm start。由于tail部分并未共享,我们首先对tail部分进行微调直到收敛(时间小于1小时),然后对整个模型进行微调以节省训练时间(仅需正常训练的50%耗时)。
3Experiments
上表给出了前述改进的性能影响对比,从中可以看到:
- 将ReLU替换为SiLU、更长的训练周期、更大块的微调均有助于模型的性能改善,平均性能改烧至少0.042dB;
- 更长训练周期、更大块微调带来的性能提升进一步支撑:像RCAN这种的深度超分方法仍存在欠拟合问题,而这些策略有助于缓解该问题;
- FP16训练与正则技术往往会导致模型性能退化。比如,FP16训练导致PSNR指标下降达0.035dB,有时甚至会出现NaN问题。
- 总而言之,图像分类中的增益技巧在图像超分中可能会有不同的行为表现,说明了CV任务的独一性。因此,我们建议超分研究人员在要对这些正则技术持一些谨慎态度。
上表从多技术叠加角度进行了对比分析,可以看到:
- SiLU+更长训练周期平均可以带来0.095dB指标提升;
- 更大图像块微调的影响相对小一些,但仍可以进一步取得性能提升,并将Manga109测试集的性能提升到了40.04dB。
上表给出了Warm Start对于超分性能的影响,从中可以看到:
- 当仅对tail部分微调时,x3和x4已经可以匹配原始RCAN的性能。这说明:warm-start一种有效的训练策略。
- 进一步进行整个模型微调可以进一步提升模型的性能,比如X3平均提升0.149dB,X4平均提升0.176dB;
- 与此同时,更大块的微调还可以进一步轻微提升模型性能。总而言之,相比从头训练,warm-start+微调一种非常合理的节省训练时间的手段。
上表给出了不同方案的性能对比,可以看到:对比近三年的各种改进方案,RCAN-it仍可取得相当、甚至更优的性能。注:本文并非旨在说明超分架构的改进不重要;恰恰方向,这些新架构的可以进一步推动该领域前进的步伐。
上图给出了不同方案的视觉效果对比,可以看到:RCAN-it可以重建更好的高频信息。
上表给出了所提方案与SwinIR的对比,从中可以看到:
- 在X2任务上,相比RCAN,SwinIR性能超越0.41dB@Urban100;
- 当引入优秀训练策略后,RCAN-it大幅减小了其与SwinIR之间的性能差距,甚至在Manga109测试集上超越了SwinIR。
- 尽管SwinIR具有非常优异的性能,但其推理速度非常慢。以Nvidia V100 GPU为基准平台,SwinIR的推理速度要比RCAN慢4.34倍,SwinIR-S的速度慢2.89倍同时性能显著降低。
- 相比SwinIR的推理速度,RCAN-it的额外1%推理耗时(SiLU导致)可以忽略不计。因此,从精度与速度角度来看,RCAN-it仍然是一个非常合适的选择。
除了上述实验外,作者还提供的一些额外实验,见上表,可以看到:
- 更长的训练周期可以进一步提升模型性能,又一次验证了本文的生命:超分模型性能受欠拟合约束,而非过拟合。
- 相比从头训练,warm-sart可以取得相当的性能,同时节省约50%的训练耗时。
首发:AIWalker
作者:Happy
推荐阅读
- 优于ConvNeXt,南开&清华开源基于大核注意力的VAN架构
- G-GhostNet | 适配GPU,华为诺亚提出G-Ghost方案升级GhostNet
- CrossSR | 新型Cross卷积大幅提升超分结构信息,已开源
- CrossSR | 高文团队提出Cross卷积,显著提升结构保持性能
本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。