标题&作者团队
Paper: https://arxiv.org/pdf/2105.13084.pdf
本文是深圳先进技术研究院董超团队在HDR领域的最新力作,取得了NTIRE2021 单帧HDR竞赛第二成绩,指标仅低0.07dB,但推理速度快116倍。针对HDR重建伴随的高光区域细节重建、低光区域噪声抑制以及正常曝光区域的量化损失、噪声抑制问题,HDRUNet提出了(1) 条件网络提供空域可变调制;(2) 加权网络提供正常曝光区域信息保留;(3)Tanh_L1
用平衡不同曝光区域的贡献影响。
Abstract
受限于传感器,现有消费级数码相机在真实场景中仅能捕获有限范围的亮度。此外,成像过程中还会引入噪声与量化误差。为获得具有优异视觉质量的高动态范围图像,现有方案往往采用多曝光图像合成方式。然而,相同场景的多曝光图像的获取难度极大,而且现有HDR重建方法往往忽略了噪声与量化损失。
为解决上述问题,我们提出了一种新的基于学习的方法:HDRUNet,它采用空域动态编解码网络学习端到端的映射,同时考虑的降噪与反量化。该网络包含一个UNet风格的基础网络以充分利用多尺度分层信息、一个条件网络用于执行模式相关的调制以及一个加权网络用于自适应选择保留信息。
此外,我们还提出了Tanh_L1
损失用于平衡过曝与正常曝光的影响。所提方法在量化性能与视觉质量方法取得了SOTA性能,所提HDRUNet取得了NTIRE2021单帧高动态范围竞赛第二名的好成绩。
Method
Observations
图像HDR重建往往会伴随降噪与反量化(dequantization),为说明该问题,我们对LDR-HDR图像对的梯度图进行可视化,见下图。
从上图可以看到,相比HDR图像,
- 由于动态范围压缩与量化,LDR图像高光区域的梯度几乎不可见;
- 在正常曝光区域,LDR与HDR图像的噪声梯度均清晰可见,这意味着两种类型图像中均存在噪声。尽管如此,由于噪声水平不同导致两种类型图像中的噪声模式存在显著差异。
此外,这些图像中的噪声并非均匀分布,即与常见高斯白噪声不同。因此,噪声模式差异不仅仅存在于高亮与暗部区域,同时还在于正常曝光区域。这就启发我们设计一种空域可变调制模块。
Network Structure
基于前述发现与分析,我们设计了一种带空域调制的UNet风格的网络用于单帧HDR重建,所设计网络结构见下图,它包含三个主要成分,接下来,我们将针对这三个成分进行更详细介绍。
Base Network BaseNet采用了UNet风格结构,它以8bit带噪LDR图像作为输入,重建16bit的HDR图像,所预测的HDR图像应当在过曝与欠曝区域包含更多的细节,同时具有更少的噪声。
Condition Network HDR重建的关键:对输入LDR图像的过曝与欠曝区域进行遗失细节重建。不同的区域具有不同的曝光核亮度,不同的凸显更具有不同的整体亮度和对比度信息。因此,很有必要采用位置相关、图像相关的方式进行图像处理。此外,还要求网络能够很好的处理非均匀分布噪声。然而,传统CNN具有空域不变形,即所有图像、所有位置均采用相同的滤波器权值处理。受启发于CSRNet、SFTGAN,我们提出了带SFT(Spatial Feature Transform)的条件网络用于提供空域可变调制。具体来说,条件网络以LDR图像作为输入,预测对应的额条件映射图并用于对BaseNet的中间特征进行调制。条件网络与SFT的机制见上面的Figure,公式定义如下:
通过利用该调制策略,所提方法可以达到位置相关、图像相关的调制处理。
Weighting Network HDR重建最大的挑战在于:过曝与欠曝区域的细节重建,而大部分的正常曝光内容对于学习阶段的贡献非常小。为此,我们提出了一种甲醛估计网络为需要保留的正常曝光区域预测一个软加权图W。于是,整个网络将主要主要聚焦于过曝区域细节重建:
Loss Function
Experiments
Experimental Setup
Dataset训练数据采用NTIRE2021 HDR竞赛的数据,它包含1494LDR/HDR对用于训练,60张LDR用于验证,201张LDR用于测试。注:LDR/HDR图像对在时间轴、曝光等级方面进行了对齐并进行伽马校正后保存。
Ablation Study
我们先来看一下不同配置的影响,包含训练块尺寸、损失函数以及调制策略。
Patch Size 实际上,训练块尺寸对于该任务影响非常大。由于HDR重建不仅仅是简单的局部处理,它还包含更重的全局与整体调制,不同的区域需要不同对待。此外,由于过曝区域严重的信息损失,我们认为这些区域的细节重建需要更大的感受野。上表给出了不同尺寸的影响,可以看到:随着块尺寸的提升,模型的量化性能逐步提升。考虑到性能与计算消耗,我们选择256x256作为建议块尺寸。
Loss Function 在前面的章节中,我们提出了用于带降噪与反量化的HDR重建的Tanh_L1
损失。为加速训练,我们固定块尺寸为。上表对比了不同损失的性能差异,从中可以看到:
- 相比L2损失,L1损失取得了更佳的量化性能,即更高的PSNR-L与PSNR-u指标;
- 通过引入
Tanh
操作,PSNR-u指标进一步提升,而PSNR-L出现了一定下降。具体来说,采用Tanh_L1
损失可以提升PSNR-u指标高达0.5dB。这是因为:当直接使用L1与L2损失时,高亮区域的损失具有更大的权重,因而具有更高的PSNR-L指标;正如前面所提到的PSNR-u更能反应视觉相似性,且该竞赛也以此作为主要参考指标,因此我们采用Tanh_L1
作为损失函数。
此外,损失函数对于视觉质量影响也很大,见上图。可以看到:L2与L1损失函数在正常曝光区域降噪性能交叉;相反,Tanh_L1
损失取得了最佳视觉质量。
Effectiveness of Key Modules接下来,我们将验证了所提模块的有效性,见上表。可以看到:
- 当仅仅采用BaseNet时,PSNR-L与PSNR-u指标分别为40.77dB与33.85dB;
- 当添加加权网络分之后,模型性能得到轻微提升,分别提升0.08与0.05dB;
- 当添加条件网络后,模型性能得到明显提升,分别提升0.27dB与0.06dB;
- 当使用全部模块后,模型指标得到了进一步提升,达到了41.13dB与33.94dB。
Exploration on Modulation Strategy CSRNet与SFTGAN等方法已经验证了特征调制的有效性,我们同样采用SFT提供空域可变调制。我们同时还比较了其他特征调制,结果见上表表。可以看到:
- 全局通道调制对于HDR重建影响非常小,甚至造成了性能下降;
- SFT的引入则极大提升了模型性能,指标分别提升到41.04与33.91dB。
Comparison with State-of-the-art Methods
上表对比了所提方法与其他方案的性能对比,可以看到:所提方案取得了最佳PSNR-u指标,同时具有超过平均值的PSNR-L指标。
上图对比了不同方案的视觉效果对比,可以看到:所提方法不仅重建了高亮区域的细节,而且大大降低了低亮区域的噪声。
Results of NTIRE2021 HDR Challenge
凭借所提方案,我们参加了NTIRE2021 HDR竞赛并取得了第二名的成绩,结果见上表。无需集成涨点,所提方法取得了与第一相当的PSNR-u指标(仅差0.07dB),但所提方法推理速度比第一方案快116倍。
来源:AIWalker
作者: Happy
推荐阅读
- PPLCNet:CPU端强悍担当,吊打现有主流轻量型网络,百度提出CPU端的最强轻量型架构
- QARepVGG | 让RepVGG再次伟大,美团提出量化友好方案QARepVGG,即将开源
- 刷新多个low-level任务指标,性能超SwinIR与Uformer等
- 超简Transformer风格ConvNet,比ConvNeXt还秀,媲美VAN
- 端侧高效骨干RepGhost | 重参数赋能GhostNet,达成端侧超高效骨干
本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。