夜间到日间翻译(Night2Day)旨在实现夜间场景的日间视觉。然而,在无配对条件下处理具有复杂降质的夜间图像仍然是一个重大的挑战。
之前的方法在同时恢复日间域信息并保留底层语义方面是不够的。在本文中,作者提出了一种 N2D3( 夜间到 Day via Degradation Disentanglement)方法,用于识别夜间图像中的不同降质模式。具体来说,作者的方法包括一个降质分离模块和一个降质感知对比学习模块。
首先,作者从基于 Kubelka-Munk 理论的光度模型中提取物理先验。然后,在这些物理先验的指导下,作者设计了一个分离模块,用于区分不同的照明降质区域。最后,作者引入了降质感知的对比学习策略,以在不同的降质区域内保持语义一致性。
作者的方法在两个公共数据集上进行了评估,证明了在视觉质量上取得了显著的改进,并具有相当大的潜力来帮助下游任务。
1 Introduction
夜间图像通常会出现严重的信息损失,这对人类的视觉识别和计算机视觉任务(包括检测、分割等)造成了重要挑战。相比之下,白天图像具有丰富的内容和复杂的细节。在夜间感知中实现类似白天的夜间视觉仍然是一个主要目标,催生了许多 pioneering 的工作。[26] 夜间到日间的图像转换(Night2Day)提供了一个全面的解决方案,以实现夜间类似白天的视觉。主要目标是将图像从夜间转换为白天,同时保持其底层语义结构。然而,实现这一目标具有挑战性。由于白天图像的真实情况不存在,作者必须在复杂的、降质的夜间图像中捕获其底层语义结构,这与其他图像转换任务相比带来了额外的挑战。
夜 2 日 AI 研究早期主要聚焦于通过应用图像翻译技术如循环一致学习和域不变学习来解决这些挑战[1,29]。这些方法引入了先进的生成对抗模型,但忽视了表示底层语义结构的核心挑战,这导致了翻译过程中出现额外的伪影。AUGAN 是首先认识到揭示底层结构重要性并引入不确定性以更好地保留原始结构的模型之一[16]。此外,一些方法利用白天具有附近 GPS 位置的图像来帮助粗粒度结构正则化[22]。尽管这些方法试图利用统计先验来揭示底层结构,但它们往往忽视了夜间发生的复杂衰减,并统一应用结构正则化,导致严重的伪影。更近期的方法采用辅助人工标注,如分割图和边界框,以保持语义一致性[15,19]。尽管这些方法具有潜力,但它们耗时且难以实现,尤其是对于超出人类认知的夜间场景。
以往的研究试图通过统计先验来捕捉潜在的语义结构。然而,这些方法往往产生次优结果,因为从这些先验中学习的域不变特征缺乏物理意义。这引发了一个问题:能否用物理先验提供更有效的方式让 Night2Day 提取潜在的语义结构?为了回答这个问题,作者首先从物理的角度定义夜间领域的域不变特征。具体来说,在等能量但分布不均匀的照明下,反射率对应着作者称为亮度良好的域不变区域。这些亮度良好的区域通常在夜间图像中表现出中等的照明强度,因为在正常条件下,它们不会产生强烈的反射。然而,一个关键的观察是,夜间图像中的颜色照明代表了一个域特定特征,但它与其他亮度良好的区域具有相似的强度 Level 。如果平等对待光和其他亮度良好的区域的影响,可能会对结果产生负面影响,如图 1 所示。
根据这些观察,作者提出 N2D3(N夜至D日通过D降相关性),它利用生成对抗网络(GANs)以降维的方式在降解 Aware 下弥合夜间和白天的域间,如图 3 所示。N2D3 包含两个关键模块:物理感知的降维解缠和降维感知的对比学习,两者都保留了夜间图像的语义结构。在夜间降维解缠中,针对夜间场景定制的光度模型被用于提取物理先验。随后,作者提出了一种解缠策略,以分离夜间图像中观察到的独特模式。由于夜间最重要的标准是光照强度,作者首先将夜间图像分为三个不重叠的区域:高光、中等光照和黑暗。此外,为了从亮度区域中解离出光照效应,作者在理论和实证上都证明了颜色不变性属性可以有效地隔离亮度区域的光照效应。
基于此,降解感知的对比学习被设计用来约束源图像和生成图像在不同区域之间的相似性。它包括解耦引导的采样和重新加权策略。采样策略挖掘有价值的 Anchor 点和困难负样本,而重新加权过程分配它们的权重。通过使用适当注意力优先考虑有价值的块,作者的方法增强了普通的对比学习。最终,作者的方法产生了高度忠实的结果,这些结果在视觉上令人愉悦,并有利于下游视觉任务,包括关键点匹配和语义分割。
作者的贡献如下:
- 作者提出了基于照明降质解耦模块的 N2D3 翻译方法,该方法能够实现夜间图像的降质感知修复。
- 作者提出了一个新颖的衰减感知对比学习模块,用于保留生成结果的语义结构。该模块的核心设计采用了解耦指导采样和重权策略,极大地提升了基础对比学习的效果。
- 在两个公开数据集上的实验结果强调了在夜间场景中考虑不同退化类型的意义。作者的方法在视觉效果和下游任务上都实现了最先进的性能。
2 Related Work
无配对图像到图像翻译 无配对图像到图像翻译解决了缺乏配对数据的挑战,提供了一种有效的自监督学习策略。为了克服传统循环一致性学习的效率限制,Park 等人首先将对比学习引入这个领域,实现了高效的单向学习[18]。在此工作之后,许多研究通过生成难以区分的负样本[20],重新加权正负样本对[27],以及选择关键样本[9]来改进对比学习。此外,其他约束,如密度[23]和路径长度[24],在无配对图像翻译中也被探索。然而,所有这些工作都忽视了夜间物理先验,导致 Night2Day 的结果不尽如人意。
夜间域翻译。针对不利的夜间条件,域翻译技术已经得到应用。Anoosheh 等人较早地做出了贡献,证明了 Night2Day[1]中循环一致学习的有效性。此后,许多工作将不同的模块集成到循环一致学习中,以增强结构建模能力。Zheng 等人引入了一种分叉形编码器,以提高视觉感知质量[29]。AUGAN 利用不确定性估计从夜间图像中挖掘有用的特征[16]。Fan 等人探索了频域关系知识,以简化 Night2Day 过程[4]。Xia 等人利用附近的 GPS 位置形成成对的夜间和白天图像,提供弱监督[22]。一些其他研究引入了人类标注以施加结构约束,但忽略了在夜间(存在多种退化)获取此类标注的实际困难[10, 15, 19]。为解决上述方法的问题,提出的 N2D3 探索了分块对比学习,并引入物理指导,以实现降维的 Night2Day。N2D3 无需人工标注,并提供了全面的结构建模,以提供忠实于原文的翻译结果。
3 Methods
在本节中,作者首先介绍了夜间环境中的物理先验,然后分别描述了降质解耦模块和降质感知对比学习模块。
Physical Priors for Nighttime Environment
夜间照明降质主要分为四种类型:黑暗、明亮的区域、高光区域和光效应。如图 2 所示,明亮的区域代表正常光下的扩散反射,而光效应则包括耀斑、发光和镜面反射等现象。从直观上讲,这些区域可以通过分析照明分布来区分。在这些降质类型中,黑暗和高光与照度直接相关,可以通过照度估计有效区分。
为了提取解耦光效应的物理先验信息,作者基于 Kubelka-Munk 理论开发了一种光度模型。该模型描述了从物体反射的光 E 的频谱如下:
以下为翻译后的结果:
其中 Ω 表示反射主导的明亮区域。随后,作者观察到对颜色饱和度较高的区域具有以下颜色不变响应,这适用于提取光照,正如 Corollary 1 所述。
1. 推论 1(补充材料中的证明)。:在局部均匀性和同质性的假设下,颜色照明光谱的完整且不可约不变量集如下:
Degradation Disentanglement Module
在本小节中,作者将阐明如何将提取光效应的不变量纳入计算中的解耦。如通常做法,在实际计算最终不变量 N 时,以下第二和第三阶分量,无论是水平还是垂直,都予以考虑:
λx 和 λλx 可以通过简化方程(4)中的 E(λ,x)来计算。λy 和 λλy 的计算方式相同。具体而言,
其中 E_{x}和 E_{λ}分别表示 x 和 λ 的偏导数。
Degradation-Aware Contrastive Learning
针对无配对的图像翻译,对比学习已经验证了其对于内容保存的有效性。其目标是最大化生成图像中相同空间位置的 Patch 与源图像之间的互信息,如下所示:
衰减感知采样。在这篇论文中,N2D3 在解缠结果的指导下选择 Anchor 点、正样本和负样本。首先,根据 3.2 节中获得的解缠 Mask ,作者计算不同退化类型的块数,用 Ks 表示,s∈[1,4]。然后,在每一退化区域内,从生成的白天图像 I_N→I_D 中的块中随机选择 Anchor 点 v。正样本 v+是从源夜间图像 I_N 中的 Anchor 点对应的位置中采样,负样本 v-是从 I_N 的其余位置中随机选择。对于每个 Anchor 点,都有一个对应的正样本和 Ks 个负样本。然后,将具有相同退化类型的样本集分配权重,并依次计算对比损失。
降级感知的权重调整。尽管对 Anchor 、正例和负例进行了仔细选择,但在同一降级下, Anchor -负对的重要性仍然有所不同。设计对比学习的已知原则之一是,具有高相似度的硬 Anchor -负对应分配更高的注意力。因此,加权对比学习可以表述为:
上述操作将对比度目标转换为图 3 所示的Block Diagonal Similarity Matrix。作为一种常见做法,作者的降维感知对比损失被应用于卷积神经网络特征提取器中的 S 层,其公式如下:
Other Regularizations
4 Experiments
Experimental Settings
论文中进行了两项实验,分别针对两个公共数据集:BDD100K [25] 和 Alderley [17]。Alderley 数据集包含在同一路线上两次拍摄的照片:一次在晴天,另一次在暴风雨的夜晚。由于雨天条件,该数据集中的夜间照片通常模糊不清,这使得 Night2Day 任务更具挑战性。
BDD100K 数据集是一个大规模的高分辨率自动驾驶数据集。它包含 10 万个视频片段,在各种条件下拍摄。对于每个视频,都会选择一个关键帧,并仔细地对其进行详细标注。作者根据标注对数据集进行了重组,结果得到了 27,971 张夜间图像用于训练,以及 3,929 张夜间图像用于评估。
评估指标。遵循惯例,作者使用 Frechet Inception Distance (FID) 分数[7]来评估生成的图像是否与目标分布一致。这有助于确定模型是否有效地将图像从夜间域转换到日间域。此外,作者还试图了解生成的日间图像在保持与原始输入的结构性一致性方面达到何种程度。为此,作者使用 SIFT 分数,mIoU 分数和 LPIPS 距离[28]。
下游视觉任务。作者执行两个下游任务。在 Alderley 数据集中,GPS 标注表明两张图像的地点,一张是夜间图像,另一张是白天图像,位置相同。作者计算生成的白天图像和相应白天图像之间的 SIFT 检测关键点数量,以衡量这两张图像是否代表相同的位置。BDD100K 数据集包括 329 张夜间图像和语义标注。作者使用在 Cityscapes 数据集上预训练的 Deeplabv3 作为语义分割模型[2],然后在没有任何附加训练的情况下对生成的白天图像进行推理,并计算 mIoU(平均交并比)。
Results on Alderley
作者首先在 Alderley 数据集[17]上应用了 Night2Day,这是一个在雨夜拍摄的夜间图像的挑战性集合。在图 5 中,作者展示了结果的视觉比较。CycleGAN [30]和 CUT [18]能够保留整个图像的一般结构信息,但通常会丢失许多细节。ToDayGAN [1],ForkGAN [29],Decent [23],Santa [24]在结果中往往会遗漏重要元素,如汽车。
在表 1 中,作者比较了翻译方法和增强方法,考虑了视觉效果和关键点匹配指标。作者的方法在 FID 得分上提高了 10.3,在 SIFT 得分上提高了 4.52,与之前的最新状态相比。这表明 N2D3 成功实现了逼真的白昼图像生成,强调了其在机器人定位应用中的潜力。定性比较结果可以在图 5 中找到。N2D3 在生成逼真的白昼图像的同时,有效地保留了结构,即使在如 Alderley 的雨夜等具有挑战性的场景中也是如此。
Results on BDD100K
作者在更大的数据集 BDD100K 上进行了实验,关注更一般的夜景。定性结果可以在图 4 中找到。CycleGAN、ToDayGAN 和 CUT 在光照良好的区域成功保持了结构。ForkGAN、Santa 和 Decent 在这样具有挑战性的场景中表现不佳。遗憾的是,它们在处理光效和保持全局结构方面表现较弱。通过专门针对光效进行定制设计,作者的方法成功地在所有区域保持了结构。
表格 1 中呈现了定量结果。随着数据集规模的增加,所有比较方法的表现都有所提升。值得注意的是,N2D3 在 FID 得分上取得了显著的 5.4 分提升,表明其处理夜间场景的能力更广泛。
作者还研究了 Night2Day 在提高夜间环境下游视觉任务潜力的可能性,使用 BDD100K 数据集。定量结果汇总在表 1 中。增强方法在分割结果上略有改进,而一些图像到图像转换方法对性能产生了负面影响。N2D3 在增强夜间语义分割方面表现出最佳性能,与直接在夜间图像上推理分割模型相比,mIoU 提高了 5.95。可视化结果如图 6 所示,突显了其对下游任务的优势和广泛应用的潜力。
Ablation Study
作者对四个组件进行了额外的消融研究,详细内容见表 2 和表 3。研究结果表明,虽然将分类进一步细分为四个簇可以略微提高性能,但基于作者物理模型的更精确的分割显著提高了性能并实现了最佳结果。挑战在于光效区域和明亮区域的强度相似,使用简单的 k-Means 难以区分。作者的物理先验,它提取的特性不仅包括强度,使得更好的细分,并为最终性能作出了显著贡献。
对降解感知对比学习的 Backbone 成分进行消融实验。降解感知对比学习模块的核心设计依赖于两个主要组件:(a)降解感知采样,以及(b)降解感知加权。如表 2 所示,当仅激活降解感知采样时,与 Baseline (未激活任何组件)相比,两个数据集上的 FID 均显著降低。值得注意的是,降解感知采样与降解感知加权相结合时,在 BDD100K 和 Alderley 上都实现了最低的 FID,表明降解感知采样与降解感知加权相结合的有效性。
消融研究:不同不变量类型对去噪分离原型产生的影响为了探索获取降噪分离原型的不同不变量,作者对不变量类型进行了消融研究。如表 3 所示,当 L 启用时,在 BDD100K 上,FID 从 55.5 降低到 49.1,在 Alderley 上从 64.7 降低到 62.9。这表明结合照明图有助于减小生成图像和源图像之间的感知差距。当 N 启用时,两个数据集上的 FID 都呈现出一致的改善,说明考虑物理先验不变量有助于更现实的图像生成。照明图和物理先验不变量的组合在两个数据集上实现了最低的 FID,展示了这些降噪类型在改进对比学习方面的互补性。
5 Conclusion
本文为 Night2Day 图像转换任务引入了一种新颖的解决方案,专注于将夜间图像转换为相应的日间图像,同时保持语义一致性。
为了实现这一目标,所提出的方法首先分离夜间图像中呈现的退化,这是作者方法的关键见解。为了做到这一点,作者贡献了一个退化分离模块和一个退化感知的对比学习模块。
作者的方法在性能上超越了现有的最先进技术,这展示了分离退化的见解的有效性和优越性。
参考文献
[0]. Night-to-Day Translation via Illumination Degradation Disentanglement.
END
作者:小书童
来源:集智书童
推荐阅读
- Triton Kernel 编译阶段
- CUDA-MODE 课程笔记 第17课 GPU 集合通信(NCCL)
- MWFormer:一种多天气Transformer,实现恶劣天气图像的高效修复 !
- 超越传统模型:Mask 生成 Transformer 在图像 Token 建模中的创新应用 !
欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式 AI 专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。