1

Happy · 2021年12月01日

AdaDM: 让超分网络不仅可以用BN，性能还可以更优

arXiv: 2111.13905
code : https://github.com/njulj/AdaDM

Abstract

规范化技术(如BN)是CNN领域非常重要的技术，有助于加速训练、提升泛化精度。然而，在图像超分领域，规范化技术会降低特征的灵活性，故被EDSR之后各大超分方案剔除在外。

本文从定量与定性角度对该现象进行了分析并发现：残差特征的标准差经规范化后会大幅收缩，进而导致超分性能的退化。标准差能够反映像素值的变化量，当方差变小时，图像的边缘特征的辨别能力进一步降低。

为解决该问题，本文提出了一种AdaDM(Adaptive Deviation Modulator)，它可以自适应调整像素方差。为更好的泛化性，我们将BN与AdaDM嵌入到已有超分中。我们发现：AdaDM的自适应方差幅值调整策略使得边缘特征更具判别力，进而导致带BN与AdaDM的超分模型取得了更高的性能。

Motivation

基于上述分析，我们将训练三个有T1、T2以及T3构建的超分模型M1、M2以及M3。我们以EDSR作为基线并替换其残差模块，模型训练曲线见下图。从中可以看到：M2的性能比M1差很多，这与EDSR一文的分析相一致 ；而M3通过引入方差放大机制避免了该问题并进一步提升了模型性能。

Method

Adaptive Deviation Modulator

在这里，我们需要一种机制：对残差特征的像素方差进行复原且能适配不同网络架构。因此，我们提出了AdaDM促使网络在训练过程中学习方差放大因子。

AdaDM模块结构图见上图，其计算公式如下：

也就是说：上述调制机制是在对数空间进行的(作者认为这样做具有更好的稳定性)。

AdaDM with EDSR， RDN and NLSN

上图给出了AdaDM与不同超分架构核心模块的组合示意图，即在每个卷积前插入BN，在残差分支的尾部插入AdaDM。

Ablation Study

在正式给出最终效果之前，我们先进行一些消融实验分析。首先，我们先看一下BN位置的影响，对比了两种形式的残差模块，见上图与表。从中可以看到：

BN置于Conv之后的SRRB(即SRResNet)的性能要弱于EDSR，这与EDSR的分析相一致；
BN置于Conv之前的PreRB的性能与EDSR相当或更好，这与本文的分析相一致。

上表对比了AdaDM的影响，从中可以看到：

仅使用AdaDM会导致模型不收敛；
BN与AdaDM的组合可以提升模型性能，进一步验证了AdaDM的作用。

尽管AdaDM能够取得轻微的性能提升，但仍不确定：性能提升是源自方差放大还是额外添加的跳过连接 ？为进一步验证，我们对额外的跳过连接进行detach处理，即无梯度回传。

上表给出了两个模式的模型性能对比可以看到：

在Set5、B100与Urban100数据集上，两者性能相当；
在Set14数据集上，detached版本性能高0.1dB
在Manga109数据集上，detached版本性能低0.05dB；
基于此，我们可以得出结论：BN+AdaDM组合的性能提升源自方差放大机制。

Main Results

上表与图给出了所提方案与其他超分方案的性能与可视化效果对比，从中可以看到：改进版EDSR、RDN以及NLSN均取得了更优的性能 。

上表给出了DF2K训练的模型性能对比，CRAN与DFSA均为当前SOTA方案，从中可以看到：采用DF2K训练的方案甚至取得了比CRAN与DFSA更高的指标 。

首发：AIWalker
作者：happyaiwalker

推荐阅读

本文章著作权归作者所有，任何形式的转载都请注明出处。更多动态滤波，图像质量，超分辨相关请关注我的专栏深度学习从入门到精通。

1 阅读 2.9k

推荐阅读

人工智能：法国浪漫之都的人工智能时代入门人工智能游戏人工智能的未来浅谈生成式人工智能人工智能“入侵”芯片制造 2024年，人工智能芯片展望

AIWalker

关注数

6206

内容数

201

夯实深度学习知识基础, 涵盖动态滤波，超分辨，轻量级框架等

关注专栏专栏主页

目录

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息