NBNet|图像降噪新思路，旷视科技&快手科技联合提出子空间注意力模块用于图像降噪

首发：AIWalker
作者： HappyAIWalker

该文是旷视科技&快手&电子科技联合提出的一种图像降噪方案，该方案从一种新的角度(子空间投影)对图像降噪问题进行了分析并提出了一种新颖的子空间注意力模块。所提方案在多个公开数据集上取得SOTA指标与更好的视觉效果。

paper: https://arxiv.org/abs/2012.15028

Abstract

该文提出一种新颖的框架NBNet用于图像降噪，它从新的角度出发设计：通过图像自适应投影进行降噪。具体来说，NBNet通过训练这样的网络进行信号与噪声的分离：在特征空间学习一组重建基；然后，图像降噪可以通过将输入图像映射到特征空间并选择合适的重建基进行噪声重建。

该文的关键洞察在于：投影可以自然的保持输入信号的局部结构信息。这种特性尤其适合于low-light区域/弱纹理区域。为此，作者提出了一种新颖的子空间注意力模块(SubSpace Attention, SSA)显示的进行重建基生成、子空间投影。与此同时，作者进一步将SSA与NBNet(一种UNet改进)相结合进行端到端图像降噪。

作者在公开数据集(包含SIDD与DND)上对所提方案进行了评估，在PSNR与SSIM指标方面，NBNet以更少的计算量取得了SOTA性能，见下图。

该文的主要贡献包含以下几点：

从子空间投影角度出发对图像降噪问题进行了分析，设计了一种简单而有效的SSA(即插即用)模块用于学习子空间投影；
提出NBNet(UNet与SSA的组合)用于图像降噪；
NBNet在多个主流基准数据集上取得了SOTA性能(PSNR与SSIM指标)；
对基于投影的图像降噪问题进行了深入分析并指明这是一个很有价值的方向。

Method

上图给出了本文所提方案NBNet的网络架构示意图，很明显，它是UNet架构的一种扩展，而其关键核心在于SSA模块。所以这里主要针对SSA部分进行介绍。

Subspace Projection with Neural Network

正如前面图示，SSA模块包含两个关键步骤：

Basis Generation：用于根据图像特征生成子空间基向量；
Projection：用于将图像特征变换到信号子空间。

Basis Generation

Projection

NBNet Architecture and Loss Function

前面Fig3给出了本文所提出的NBNet的网络架构示意图，它基于经典Unet架构得到，它包含4个encoder和4个decoder，下采样操作通过stride=2的的卷积达成，上采样操作通过的反卷积达成，同时对应的encoder与decoder之间还存在跳过连接。encoder与decoder中的基础模块见Fig3(b)，作者在每个卷积之后采用了LeakyReLU激活函数。

所提SSA模块至于每个encoder-decoder之间的跳过连接中，由于low-level特征包含更多原始图像信息，故而将其视作，将high-level特征视作，并将两者送入到SSA模块。也就是说，将low-level特征投影到由high-level特征引导的信号子空间中，投影所得特征进一步与原始的high-level特征融合并送入下一个decoder。

相比常规UNet架构(直接对low-level和high-level特征进行融合)，NBNet的主要区别在于：low-level在融合之前先通过SSA模块进行投影处理。

最后一个decoder模块的输出经由卷积处理并作为全局残差与噪声输入相加得到最终的降噪结果。

该网络可以通过端到端的方式进行训练，作者采用了简单的损失函数：

Experiments

为验证所提方案的有效性，作者在合成数据与真实数据上将其与其他SOTA方案进行了对比。

训练超参数信息：网络采用kaiming初始化，优化器为Adam，初始学习率为，余弦退化方式衰减，合计训练700000次迭代。

训练数据信息：输入块大小为,batch=32,数据增广为随机旋转、随机裁剪、随机镜像。

Synthetic Gaussian Noise

合成数据信息：训练数据包含BSD(432)以及ImageNet(400源自验证集)以及WaterlooExploration(4744)；验证集包含Set5、LIVE1以及BSD68。在合成数据集上对比所提方法与SOTA方案的性能对比，结果见下表。

从上表可以看到：所提NBNet取得了比VDN更好的结果。尽管NBNet不依赖于噪声的先验分布，但它仍取得了最佳结果。这也就意味着：**所提投影方案可以有效的将噪声与信息进行分离**。

SIDD Benchmark

SIDD数据信息：它包含10个场景、不同亮度条件、5款智能机拍摄的30000噪声图像，SIDD数据集可以用于评价智能机camera的降噪性能。

上图&上表给出了所提方案与其他SOTA方案在SIDD数据上的性能对比，可以看到：所提方案NBNet取得了最佳指标，同时具有更好的视觉感知效果。相比MIRNet，NBNet仅需11.25%的计算复杂度和41.82%的参数量即可取得同等PSNR指标，而SSIM指标则提升了0.01。

DND Benchmark

DND数据信息：它50对真实噪声图像以及对应的GT图像。该数据同时提供了bbox用于提取图像块，合计得到了1000图像块。注：DND数据并未提供训练数据，故而作者采用了SIDD与Renoir的组合进行训练。

上图&上表给出了所提方案与其他SOTA方案在DND你上的性能对比。可以看到：所提方法通那样取得了最佳的PSNR指标。

更多消融实验分析与结果，建议各位同学查看原文。

- END -