Happy · 2021年04月25日

实时4K“image-to-image translation”,提出拉普拉斯金字塔变换网络

首发:AIWalker
作者:HappyAIWalker
image.png

标题&作者团队

paper: https://www4.comp.polyu.edu.h...

code: https://github.com/csjliang/LPTN

本文是港理工&达摩院张磊团队在image-to-image translation方面继3DLUT之后的又一力作。本文创造性的将拉普拉斯金字塔与深度学习进行了结合,对于拉普拉斯金字塔的分离、重建特性与image-to-image translation之间的共通之处进行了分析,进而提出了本文的LPTN。所提LPTN可以在一个常规GPU上对4K分辨率图像进行实时变换,同时取得与其他方案相当甚至更优的性能。

Abstract

现有image-to-image translation(I2IT)往往要求使用低分辨率图像,这是因为高分辨率图像会导致过大的内存占用与更长的推理耗时。

本文旨在通过拉普拉斯金字塔分解、重建加速高分辨率图像I2IT。具体来说,我们揭示了:属性变换(比如亮度、色彩)与低频成分更相关,而内容细节可以自适应在高频成分上调节。因此,我们提出了Laplacian Pyramid Translation Network(LPTN)同时进行这两个任务:我们设计了一个轻量网络在低分辨率上对低频成分进行变换,然后再词用渐进式掩码策略调整高频部分。所提模型可以避免高分辨率特征图导致的重度计算量问题,同时可以忠实的保持图像细节。

不同任务上的实验结果表明:所提方法可以在一个常规GPU上实时处理4K图像并取得同现有方案相当的性能。

Introduction

image.png

laplacian

上图相同场景不同时间拍摄的图像及其对应的低频、高频信息对比图,可以看到:这两个图像的高频区域MSE差异要远远小于低频区域的MSE差异。类似的现象可以从直方图与视觉效果方面得到证明。也就说:高频子图像具有更细分辨率,而不同级别的子图像显示出了像素级相关性,并表现出相似的纹理。这种属性引出一种用于调整内容细节的高效掩码策略。

基于上述发现,我们提出了一种快速且高效的方法LPTN。具体来说,我们次啊用级联残差模块构建了轻量网络用于处理低频成分,对其进行域相关属性变换;为了对低频分量的处理进行拟合,并忠实地进行图像重建,我们自适应地提炼高频成分以避免高分辨率特征导致地重度计算达到提升效率地目的。因此,我们构建了另外地小网络计算掩码并对其逐步上采样。该方案可以通过对抗训练策略采用无监督方式进行训练。

本文所提方法有这样几个优势:

  • 首个可以实时进行4K分辨率图像变换地方案;
  • 在轻量化+快速推理地前提下,所提方法仍可以取得与现有方案相当甚至更好地性能;
  • 定量与定性实验结果表明:所提方法取得了SOTA性能。

Method

image.png

lptn

image.png

Translation on Low-Frequency Component

LP的本质属性包含纹理于视觉属性的分离、可逆重建能力,这两个属性非常切合I2IT任务。对于广义纹理调整I2IT任务来说,域相关属性通过深度网络在隐空间及逆行表征。相反,对于逼真I2IT来说,我们发现:域相关熟悉感主要为亮度、色彩,它们可以通过固定核以一种高效方式提取。以前面图示为例,白天-黑夜变换的域相关属性主要体现在低频成分,而高频成分具有强相关性。因此,我们可以在对低分辨率的低频成分进行域相关属性变换,这将极大的降低广义I2I方法的计算复杂度。

以Figure2为例,给定,我们首先采用卷积扩展通道维度;然后采用5个残差模块提取特征;其次我们将特征的通道数降到c以得到变换结果。这个输出最终将添加到原始输入并后接Tanh激活函数。

传统的I2IT算法同样采用级联残差模块在低维空间进行变换。本文所提方法有这样几个优势:

  • 在推理耗时与内存占用方面,LP的高低频分解更为高效且无需学习;而传统的方法采用自编码方式这导致了大量的计算量,限制了其在高分辨率图像的应用。
  • 在解耦与重建效率方面,LP的频带分离更为简单有效;而基于学习的自编码方式则需要在模型大小与重建性能方面进行均衡。

Refinement of High-Frequency Components

image.png

Learning criteria

image.png

Experiments

image.png
image.png
image.png

题外语

事实上,拉普拉斯金字塔在low-level中的应用并非本文首次所提出。张磊团队(本文作者团队)在ICCV2019年的RealSR一文中首次将拉普拉斯金字塔用于图像超分,其LPKPN结构如下图所示。

image.png
尽管LPTN与LPKPN都采用了拉普拉斯金字塔,两者有这样几点区别:

  • 应用领域方面,LPTN属于风格迁移范畴,而LPKPN则属于图像超分范畴;
  • 在思想方面,LPTN中的采用卷积进行高低频特征进行变换、提炼;而LPKPN则是对高低频特征进行增强;
  • 在结构方面,LPTN的计算量更多聚焦于低分辨率部分,同时引入了掩码思想;而LPKPN则聚焦于高分辨率特征部分,且没有掩码思想。
  • 在op方面,LPTN采用了IN层;而LPKPM采用动态滤波器思想;
  • 在计算效率方面,LPTN可能处理高分辨率图像且推理速度非常快,而LPKPN受限于结构无法处理高分辨率图像。

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏深度学习从入门到精通
推荐阅读
关注数
6194
内容数
191
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息