论文解读 | 暗视觉网络：利用深度不一致先验的 RGB IR 融合低照度成像方法 - 极术社区

此篇论文已被 AAAI 2022 收录。

摘要

RGB-NIR 融合技术可用在极暗环境下增强可见光成像效果。然而现存的融合算法无法处理 RGB-NIR 图像之间的结构不一致问题，从而难以生成高质量的融合结果。本文中，我们对这个难题进行分析，并提出 Dark Vision Net (DVN)来处理结构不一致问题，通过巧妙的网络设计，DVN 将传统算法的核心思想融合进 CNN 框架之中，从而取得了很好的效果。

导论

对于近红外(Near Infrared，NIR)图像来说, 在人眼不可感知的 NIR 补光灯的帮助下，即使在极端暗光的情况，依然能够保持较高的信噪比。

RGB-NIR 融合技术，正是通过高信噪比的 NIR 图像来大幅提升 RGB 图像信噪比的技术，其能够在使用低成本模组的前提下，取得高成本暗光成像模组才能清晰成像。也正是因此，RGB-NIR 融合技术对很多暗光下的应用有重要意义。

然而，目前的市面上还很少出现利用 RGB-NIR 融合来改善暗光下成像质量的产品。究其原因，我们通过调研发现，目前 RGB-NIR 技术在实际使用中存在的最大技术难题就是极暗光下的 RGB 图像与 NIR 图像之间的结构不一致问题。在 RGB 图像强噪声的影响下，目前的融合算法所生成的融合结果中往往存在非常明显的非自然错误纹理(Artifact)，这反而降低了图像质量并严重影响下游任务的效果。

图1 结构不一致问题如何影响融合算法

图 1 中红框标记出现来的区域就是两种常见的 RGB-NIR 结构不一致区域：上方红框展示的是由于油墨涂料本身的物理特性，在 RGB 图像中十分明显的"CODE COMPLETE"在 NIR 图像中却几乎完全消失。下方红框展示的是由于 NIR 补光灯的影响，NIR 图像中往往出现了一些 RGB 图中不存在的"伪影"。从现存融合方法的结果可以看出，现存方法无法处理这种结构不一致问题，会产生明显的非自然错误纹理。下面，我们将现存的融合方法分成两类，分别分析它们无法处理结构不一致问题的原因：

（1）

以 ScaleMap \cite{yan2013cross}为代表的传统融合算法处理噪声干扰的能力有限，因此无用适用于极端暗光环境。对于 ScaleMap 算法来说，十分依赖从原图中提取图像的结构信息(梯度)。再根据专家先验知识来建模 RGB-NIR 图像的结构差异，从而指出哪些区域存在明显的结构不一致性，哪些区域则相反。然而，在极暗光环境下的强噪声使得直接从原图中提取清晰的梯度图变得十分困难。这就使专家先验知识无法能正确的反映出 RGB-NIR 图像之间的梯度不一致性，自然导致传统算法无法输出高质量的融合结果。

（2）

以 CUNet\cite{deng2020deep},DKN\cite{kim2021deformable}为代表的基于 CNN 的融合算法也依然无法解决结构不一致问题。虽然凭借CNN 强大表示能力，这类融合算法对于噪声相对不敏感。但是，缺乏了专家先验知识的引导，单纯基于数据驱动的训练方式很难使得 CNN 学习到 RGB-NIR图像之间结构不一致性，使得最终的融合结果在结构不一致的区域会产生明显的非自然错误纹理，非常影响图像的质量。

算法原理

综上所述，既然单独使用专家先验知识和 CNN 都不能处理结构不一致问题，那么为什么不能把它们结合起来使用呢？我们从这个思路出发，我们提出了一个全新的专家先验知识，并设计了一个巧妙的网络结构将这个先验知识引入到RGB-NIR 深度特征的融合过程中，从而兼顾了传统算法和 CNN 类方法的优点，很好地解决了 RGB-NIR 图像之间的梯度不一致问题。

2.1 深度结构

要引入专家先验知识，首先需要解决的技术难题就是如何从低信噪比的图像中提取出清晰的结构信息。我们通过实验发现，类似于 U-Net 的网络在降噪过程中学习到的深度特征本身就包含有丰富的结构信息，我们将这些包含了结构信息的深度特征简称为成为深度结构(Deep Structure)。

图2 深度结构和深度不一致

从图 2 中可以看出，深度结构中不仅包含了丰富的结构信息，还对噪声的干扰十分鲁棒。也正是如此，我们就可以在低信噪比的图片上提取它的深度结构，并在其上引入专家先验知识，对 RGB-NIR 图像之间的结构不一致性进行建模。

2.2 深度不一致先验

在深度结构的基础上，我们提出了一个简单却有效的先验知识——深度不一致性先验(DeepInconsistency Prior, 简称为DIP)，来建模 RGB-NIR 在结构之间不一致性：

1650595305(1).png

技术实现

基于上述的两大技术创新点深度结构和深度不一致先验，我们提出了一个新的RGB-NIR 融合算法 Dark Vision Network (DVN)。DVN 有效地解决了结构不一致性问题，并取得了目前最好的融合效果。

图3 Dark Vision Network 的流程框图。DSEM 指的是深度结构提取模块 (Deep StructureExtraction Module, DSEM)

如图 3 所示，DVN 的流程可以分为两个阶段：

(1)提取深度结构；
(2)深度不一致先验(DIP)引导下的多尺度 RGB-NIR 特征融合。

3.1 提取深度结构

因为从 RGB 图像中提取深度结构的过程与从 NIR 图像中提取的过程基本一致，我们在下文的描述中不作区分来做统一的表述。

为了从输入图像中提取出深度结构，我们设计了一个深度结构提取模块(Deep Structure Extraction Module，DSEM)，其详细网络结构如图 4(a)所示。

图4 重要模块的结构细节

DSEM 首先接受复原子网络输出的多尺度特征（i 代表尺度），通过监督学习的方式输出多尺度的深度结构。其训练所使用的损失函数如下所示：

1650595408(1).png

3.2 DIP 引导下的多尺度特征融合

1650595454(1).png

实验与讨论

图5 对比结果

图 5 展示了 DVN 的结果与其他对比方法之间的对比。其中 ScaleMap 是最具有代表性的传统 RGB-NIR 融合算法，DKN、CUNet 则是基于深度学习的融合算法，MPRNet 是单 RGB 降噪算法。可以很明显的看出，相比其他所有的对比算法，DVN 在不仅有效地对噪声进行了抑制，也良好地恢复了 RGB 图像中的细节细节。同时，DVN 的融合结果中也并不包含由于 RGB-NIR 之间结构不一致问题所导致的非自然错误纹理。

来源：旷视研究院
作者：R

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果
加入旷视：career@megvii.com

论文解读 | 暗视觉网络：利用深度不一致先验的 RGB IR 融合低照度成像方法

摘要

导论

（1）

（2）