TPSeNCE开源，让CV图像变换到雨天/雪天/夜晚都不是大问题

雨生成算法有可能改进在雨天条件下的图像泛化能力和场景理解。然而，在实践中，它们会产生瑕疵和失真，并且由于缺乏适当的约束而难以控制生成的雨量。
在这篇文章中提出了一种非配对图像到图像翻译框架，用于生成现实的雨天图像。作者首先引入一个三角形概率相似性（TPS）约束来指导生成的图像朝向清晰和雨天图像在鉴别器流形上，从而在雨生成过程中最小化 artifacts 和失真。
与传统的对比学习方法不同，作者不加区分地将负面样本推离Anchor，作者提出一个语义噪声对比估计（SeNCE）策略，并根据清淅和雨天图像之间的语义相似性以及Anchor和负面样本之间的特征相似性重新评估负面样本的推动力。
实验结果表明，生成的雨天图像具有最小的 artifacts 和失真，这有助于雨天条件下的图像去雨和目标检测。此外，该方法可用于生成现实的雪天和夜景图像，突显了其更广泛的适用性。
代码：https://github.com/ShenZheng2000/TPSeNCE

1.简介

雨是一种常见的恶劣天气条件，可以显著影响图像和视频的质量。雨滴，特别是在大雨时，会遮挡场景的细节和纹理。雨滴在车窗上形成一层水滴，使目标看起来模糊和扭曲。湿滑的道路会产生目标的反射。雨雾会散射环境光线，降低远处目标的可见性。这些雨的视觉表现不仅损害了图像的感知质量，还对目标检测等场景理解算法构成挑战，这些算法通常是在晴朗天气条件下训练的。

改善雨中的目标检测的一种常见方法是将去雨（即去雨）作为预处理步骤应用。理想情况下，去雨算法应该在应用目标检测模型之前从图像中去除雨。然而，由于获得真实的配对清晰/雨天图像的困难，大多数最先进的去雨方法依赖于与合成的清晰/雨天图像进行监督训练。

不幸的是，由于合成和自然雨天图像之间存在很大的领域差距，这些方法在真实世界的雨天图像上通常无法很好地推广。尽管一些去雨方法使用了不成对的真实清晰/雨天图像进行无监督学习以提高泛化能力，但将监督和无监督分支的知识无缝整合以增强对真实数据的去雨性能是具有挑战性的。

另一种增强雨天条件下目标检测的方法是使用雨生成技术来创建用于训练目标检测器的合成雨天图像。然而，传统的基于模型的雨生成方法依赖于过于简化的假设和手工制定的先验知识，无法准确地建模多种类型的真实雨。相反，像UNIT这样的数据驱动深度学习方法已经证明了它们在不同天气条件下的图像转换能力。

然而，这些方法在生成雨时通常会产生伪影和失真，因为缺乏适当的约束。此外，控制生成的雨量是具有挑战性的，因为生成过多的雨会导致背景和特征丢失的重叠，而生成太少的雨会导致图像看起来不真实。不受欢迎的伪影、失真和难以控制的雨量可能会降低感知质量并阻碍检测算法。

在本文中，作者解决了雨生成方法的上述问题，并提出了一种用于雨生成的不成对图像到图像转换框架。作者对鉴别器的输出矩阵进行分析，发现清晰图像、生成的雨天图像和真实雨天图像之间存在一个三角形关系（见图3）。作者观察到，生成的雨天图像中的伪影和失真较少的图像更接近连接清晰和雨天图像的线段。

基于这一观察，作者提出了一种三角形概率相似性（TPS）损失，以引导生成的雨天图像朝着真实和清晰图像的方向，从而最小化伪影和失真。

然后，作者重新审视了CUT的对比学习策略，并发现通过调节对比学习的推力可以控制生成的雨量。为此，作者提出了一种语义噪声对比估计策略（SeNCE），根据负样本与Anchor之间的相似性以及清晰和雨天图像的语义分割图之间的平均像素准确度（如图5所示）重新调整负样本的推力。

作者在多个驾驶数据集上评估了所提出的方法，包括BDD100K、INIT和Boreas。对BDD100K的评估包括图像到图像的转换、图像去雨和目标检测，而对INIT和Boreas的评估重点仅在图像到图像的转换上。

总之，作者提出了一种用于生成逼真雨天图像的不成对图像到图像转换框架，具体技术贡献如下：

作者引入了三角形概率相似性（TPS）损失，以最小化雨的生成过程中的伪影和失真。
作者提出了一种语义噪声对比估计（SeNCE）策略，以调整对比学习力以优化生成的雨量。
作者的评估突出了逼真雨天图像生成对真实雨去除和雨天条件下的目标检测的好处。

除了雨，作者的方法可以用于生成逼真的雪天图像和夜晚图像，突显了其更广泛的适用性。

2. 提出的方法

在本节中，作者首先解释了三角形概率相似性（TPS）损失，并重新审视CUT和MoNCE的噪声对比估计（NCE）方案。

在扩展这些NCE方法后，作者推导出作者的语义噪声对比估计（SeNCE）策略。最后，作者展示了用于模型训练的损失函数。所提出的方法的工作流程概述如图2所示。

2.1. 三角形概率相似性（TPS）

在最小化伪影和失真的同时生成逼真的雨天图像是一项具有挑战性的任务。由于雨生成的不明确性和GAN训练的不稳定性，生成的雨天图像通常会受到伪影和失真的影响。

作者在图3中展示了T-SNE可视化，解释了作者提出的三角形概率相似性（TPS）损失的动机。设X为清晰图像，Y为雨天图像，Z为生成的雨天图像。TPS损失基于鉴别器D的输出表示。它约束D(Z)位于由D(X)和D(Y)张成的空间内，确保生成的雨天图像遵循与清晰图像和真实雨天图像相似的分布。

这个策略有效地减轻了不期望的伪影和失真，因为生成图像的信息仅来自清晰图像（提供背景）和真实雨天图像（提供雨水）。

计算基于与和的质心相连的直线之间的距离的TPS可能会引导朝着或的延长线，导致生成的图像中出现过多或过少的雨（如图1所示）。

此外，可能离和太远，导致生成的图像中出现不属于或的伪影和失真。

2.2. 重新审视NCEs

PatchNCE

Patch Noise Contrastive Estimation（PatchNCE）旨在最大化输入和输出Patch之间的相互信息，如下所示：

其中N是Patch的数量，和是编码的Patch特征，τ是温度超参数。

MoNCE

PatchNCE的问题在于它不加选择地推动所有负Patch从Anchor点出发，导致在具有混合易和难的负Patch的任务中性能不佳。通过以下方式解决此问题：调整负Patch的推动力，根据它们与Anchor点的相似性。

其中Q是一个超参数，表示一种加权策略。MoNCE提出了一种硬加权策略和一种简单加权策略，用于处理不成对和成对的图像到图像转换。和如下所示。

2.3. 语义噪声对比估计（SeNCE）

虽然MoNCE在一些基准图像到图像转换数据集上改进了PatchNCE，但其性能受到了两个问题的影响。

首先，MoNCE在成对和不成对设置中采用了不同的加权策略，但没有强有力的理由支持这一做法。实际上，在不成对的情况下，图像可能会看起来是成对的，例如从不同角度拍摄的同一座房子或不同汽车的相同停车场。在这种情况下，应更倾向于而不是。总之，这些加权策略之间的平滑过渡更理想。

其次，MoNCE仅使用随机Patch的图像级信息来进行加权。然而，在雨生成中，许多目标域像素受到滴水、条纹、湿度和雾的影响。这些像素无法提供精确的对比学习指导。因此，超越图像级细节并在最少的雨干扰下寻求更深入的理解至关重要。

从图5中可以看出，像mPA和mIoU这样的语义级指标更准确地捕捉了不成对的清晰和雨天图像之间的相似性，而不像PSNR和SSIM这样的图像级指标依赖于完美对齐的无损像素。即使是不对齐的图像或被雨水破坏的像素，作者也可以使用对分割图的全面理解来区分它们的差异。

尽管偶尔会遇到mPA非常低的情况（例如，清晰和雨天图像3的mPA为0.162），但这种情况很少，对训练几乎没有影响。因此，作者仍然将它们包括在作者的训练数据集中。以下是作者的语义噪声对比估计（SeNCE）的公式。

代表了基于语义的对比学习力，由mPA派生。它在MoNCE的易加权和硬加权之间进行调整。高mPA表示清晰和雨天图像在语义上相似，结果倾向于。相反，低mPA表示图像不相似，更倾向于硬加权。

2.4. NCE的分析

使用符号，作者通过图6的帮助分析了三种NCE：

对于雨量不足（），与不对齐，根据Eq. 6和Eq. 7，权重很大。根据Eq. 5，这导致的绝对值较低，允许GAN损失主导并驱使图像朝向所期望的状态（）。
对于过多的雨（），与非常相似，权重较小。这增加了的幅度，使SeNCE能够击败GAN损失，引导图像回到。

实质上，SeNCE根据与的可比性调整NCE损失，从而改进生成的雨。与缺乏权重调整的PatchNCE和不考虑语义相似性的MoNCE不同，SeNCE确保更逼真的结果。

2.5. 最终目标

所提出方法的训练目标是：

与CUT类似，作者将λ和λ都设置为1。由于TPS是一个辅助损失，作者将λ设置为0.1。

3. 实验

3.1. 消融研究

TPS和SeNCE：

作者对TPS和SeNCE模块进行了消融研究。如图7所示，包含TPS（M3）通过减轻伪影和失真来增强雨生成。

此外，使用SeNCE（M5）优化了对比和表面积，导致更逼真的道路反射。表2中的定量分析进一步证明了TPS和SeNCE在改进雨生成方面的有效性。

TPS与PTL的比较：

作者检验了将TPS替换为相关模块Point To Line Distance（PTL）的影响。如图7所示，包含PTL（M2）导致雨生成的降级，背景中存在大量伪影和失真。相反，采用TPS可以实现高质量的雨生成。此外，表2验证了PTL得分较差，而提出的TPS获得了显着更好的得分。

SeNCE与其他NCEs的比较：

作者研究了所提出的SeNCE与其他NCE方法（包括PatchNCE和MoNCE）的有效性。图7显示，与MoNCE（M4）和PatchNCE（M1）相比，SeNCE（M5）导致高质量的湿润表面和道路反射。这在表2中得到了验证，SeNCE通常获得比MoNCE或PatchNCE更好的得分。

SeNCE中的语义度量选择：

作者证明了相对广泛使用的mIoU，选择使用mPA的理由。如图7所示，具有mPA的TPSeNCE（M7）在生成逼真的表面水和道路反射方面胜过具有mIoU的TPSeNCE（M6）。表2也证实，mPA的得分明显优于mIoU。

3.2. 实验结果

雨生成：

表3显示了在BDD100K和INIT上的雨生成的定量比较，作者的方法在所有指标上均获得了最佳得分，除了BDD100K上的FID。一个可能的原因是FID对局部变化不敏感，例如包含伪影和失真的小区域。

图8展示了定性比较，显示作者的方法生成了最逼真的雨天图像，实现了雨滴、湿润表面和道路反射之间的完美平衡。此外，作者的方法有效地保留了清晰图像的内容，而没有引入明显的伪影或失真。

去雨：

表4提供了在BDD上的去雨性能的定量比较，表明作者的方法在所有去雨指标上都取得了最高得分。

同时，图9提供了定性比较，突出显示作者的方法在去雨滴和雾气的同时保留特征细节、恢复色彩平衡和抑制噪声、模糊和伪影方面胜过其他模型。

检测：

表5提供了在不同雨生成方法的图像上对Yolov3进行微调的定量比较。由于BDD100K中的大多数雨天图像都是在轻雨和良好照明条件下拍摄的，不能区分不同模型的性能，因此选取了最具挑战性的100张图像，这些图像处于大雨或照明不足的条件下，用于计算平均精度（mAP）。作者提出的方法在所有IoU阈值和目标尺寸下都获得了最高的mAP得分。

此外，如图10所示，作者的方法在检测大雨下的目标方面表现出色，跨多个目标类别（如汽车、交通灯和停车标志）具有最少的误报和漏报。

3.3. 扩展到多雪和夜晚

除了雨生成，作者的方法还适用于Clear2Snowy和Day2Night翻译。作者在图11中展示了雪的生成的定性比较。作者的方法有效地产生了具有逼真对比度、照明、反射和纹理的真实雪天道路表面。

另一方面，CUT和QS-Attn生成了不足的雪，而MoNCE的雪由于表面反射和对比度变化有限而缺乏逼真感。

此外，在表6中，作者的方法在day2night和clear2snowy翻译方面获得了最高的分数。

3.4. 限制和未来工作

作者的方法是在主要由轻微雨天图像和弱光源组成的基准数据集上训练的。因此，它不能有效地处理极重的雨天图像。解决重度雨天问题对于改善目标检测至关重要，因为它带来了显著的挑战，如遮挡、反射、运动模糊、低对比度和噪声。

在未来，作者打算收集一个包含强光源的大规模重雨天图像数据集，使用基于物理的模型进行训练，并探索联合预处理和微调。

4. 参考

[1]. TPSeNCE: Towards Artifact-Free Realistic Rain Generation for Deraining and Object Detection in Rain.

作者：AI视界引擎
来源：AI视界引擎

推荐阅读

本文章著作权归作者所有，任何形式的转载都请注明出处。更多动态滤波，图像质量，超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。