真实用！ETH团以合成数据+Swin-Conv构建新型实用盲图像降噪

本文以图像降噪为聚焦，从网路架构设计&训练数据合成出发，对盲图像超分发起了挑战：

关于网络架构设计的动机在于：SwinIR与DRUNet采用两种不同的架构理念达成了非常优秀的性能，是否有可能对两者集成进一步提升PSNR性能呢？ - 关于训练数据合成的动机在于：尽管有不少方案在强调退化模型的重要性，但主要聚焦于传感器噪声移除，如何通过改进训练数据达成更优秀的盲去噪性能呢？

1、Method

从MAP(Maximum A Posteriori)角度出发，盲图像降噪可以描述为如下优化问题：
1650336143(1).png
也就是说，盲降噪的关键在于退化过程的建模与先验信息的设计。对于深度盲降噪而言，其建模能力依赖于网络架构、模型大小以及训练数据，即退化过程已通过训练数据进行了隐式定义。也就是说，网络架构与训练数据是改善深度盲降噪模型的两个关键因素。

Swin-Conv-UNet

上图给出了本文设计的SCUNet架构示意图，它同时集成了DRUNet与SwinIR的核心设计理念。具体来说，SCUNet将所设计的Swin-Conv模块嵌入到UNet骨干中，它包含4个尺度，每个尺度包含用于下/上采样的SConv/TConv(采用2x2的SConv与TConv进行下采样和上采样)以及所设计的SC模块，不同尺度的通道数为64、128、256、512。SCUNet与DRUNet的主要区别在于：它采用四个SC模块而非残差模块。

正如上面图示可见，SC模块由SwinT模块与残差模块、Split与Concat以及两个1x1卷积构成。具体来说，

1650336216(1).png
值得一提的是，受益于新颖模块设计理念，SC模块具有以下几个特性：

SC同时具有局部与非局部建模能力；
SC的局部与非局部建模能力可以通过多尺度UNet进一步增强；
1x1卷积可以有效的促进SwinT与RConv之间的信息融合；
Split与Concat可以起组卷积作用，同时降低计算复杂度和参数量。

Training Data Synthesis

不同于构建一个大尺度真实noisy/clean图像对数据集(难度极大且极具挑战性)，我们尝试合成noisy/clean图像对。主要思想在于：添加不同类型噪声并引入resizing，同时还使用了双退化策略与随机置换策略。

Gaussian Noise：我们采用3D广义零均值高斯噪声模型，它采用3x3协方差矩阵模拟RGB通道之间的噪声相关性。噪声强度方面，我们从{2/255,3/255,…,50/255}中均匀采样；在噪声类型方面，同时考虑了彩色噪声、灰度噪声以及所提广义形式三种，采样概率分别为0.4,0.4,0.2。
Speckle Noise：它一种乘性噪声，可以描述为高斯噪声与清晰图像的乘积。我们通过简单的修改上述高斯噪声合成策略并乘以清晰图像来生成该噪声。
JPEG Compression Noise：图像压缩有助于降低内存与带宽。在不同类型的压缩标准中，JPEG是最广泛采用的方案。对于该类噪声，我们从质量因子[20,95]中进行均匀采样添加。
Processed Camera Sensor Noise：RGB图像中的噪声主要由read与shot噪声经ISP处理产生。因此，经处理的传感器噪声会随read与shot噪声以及ISP模型而变化。我们通过对清晰图像处理采用reverseISP生成raw数据来添加该类噪声。需要注意的是：forwar-reserse tone mapping可能会导致色偏问题，我们通过对清晰图像实施reverse-forward tone mapping来解决。
Resizing：尽管resizing不会引入噪声，但它会影响噪声分布。我们采用广泛使用的bilinear与bicubic操作，采样因子从中[0.5,2]均匀选择。值得一提的是，我们同时在clean与noisy图像上实施resizing，这有图像超分(BSRGAN, Real-ESRGAN)中的退化处理并不相同。

事实上，真实场景图像可能进行了多次resize和JPEG处理，而且两者的处理顺序不定。受此启发，我们最终的退化序列采用了双退化策略与随机置换策略(见上图)。经此处理，退化空间得到了大大扩展，这有助于提升深度盲降噪模型的泛化性能。具体来说，我们添加了两次噪声添加与resizing操作；高斯噪声与JPEG压缩噪声的添加概率为1，resizing与其他类型噪声添加概率为0.5；在执行退化之前，我们先对退化序列进行随机置换。

上图给出了一些所提方案合成的noisy/clean图像对比，可以看到：该方案可以生成非常真实的噪声图像；由于clean图像也进行了resizing操作，所以clean图像块中可以看到一定程度模糊。相比BSRGAN与Real-ESRGAN中的退化方式，所提退化至少有以下三个不同：

应用不同：本文方案用于图像降噪，而另外两个用于图像超分；
该方案还对高质量图像执行resizing处理，另外两个不做该处理；
该方案采用了更多种类型的噪声。

2、Experiments

上表&图给出了灰度图像降噪方面的指标与效果对比，可以看到：

相比其他方案，在所有噪声强度下SCUNet均取得了大幅PSNR指标提升；
SCUNet分别超过DnCNN、IRCNN、FFDNet指标达0.6dB@Set12、0.3dB@BSD68、1.6dB@Urban100；相比DAGL、DRUNet以及SwinIR，SCUNet的指标提升相对小一些；
由于Urban100存在丰富的重复性结构，该数据集上的指标大幅提升说明SCUNet具有优异的非局部建模能力。
相比其他方案，SCUNet生成结果具有更佳的视觉效果。

上表&图给出了彩色噪声移除方面的对比，可以看到：

SCUNet再一次取得了整体最佳性能；
相比DnCNN、IRCNN、FFDNet、DSNet，SCUNet的指标提升达0.5dB@CBSD68、0.7dB@Kodak24、1.1dB@McMaster、1.6dB@Urban100；
相比其他方案，SCUNet重建结果具有更好地纹理与锐利度。

上表还从参数量、FLOPs以及推理耗时角度对DRUNet、SwinIR以及SCUNet进行了对比，可以看到：SCUNet具有最低的FLOPs、最佳的FLOPs、推理耗时以及参数量方面的均衡。需要注意的是，SCUNet的推理耗时可以通过高效实现进一步降低。

上面两图为真实场景图像降噪效果对比，从中可以看到：SCUNet与SCUNetG在噪声移除与细节保持方面取得了最佳结果。总而言之，所提训练数据合成方案适合用于实际应用场景的盲降噪模型训练。

来源：AIWalker
作者：Happy

1、Method

Swin-Conv-UNet

Training Data Synthesis

2、Experiments

推荐阅读

目录