Happy · 2022年04月18日

CVPR2022 无需人脸GAN先验,字节团队提出细节可控的人脸超分方案GCFSR

f5e09ac1266c1055fd044222f8a1fa77.jpg

https://arxiv.org/pdf/2203.07...

人脸超分通常依赖人脸先验信息进行细节复原并保持身份信息。受益于GAN先验信息辅助,近来人脸超分取得了长足发展:或者采用复杂的模块对GAN先验进行调制,或者采用复杂训练策略对生成器进行微调。

本文提出一种生成细节可控的人脸超分方案GCFSR,它无需额外的人脸先验信息即可进行高质量人脸超分。GCFSR架构为编码器-生成器模式,同时针对多因子超分任务设计了风格调制与特征调制两个模块:风格调制模块用于生成人脸细节;特征调制模块根据输入的条件上采样因子对源自编码与生成器编码特征进行动态融合。

对于小尺寸上采样因子,所提方案仅需对抗损失即可取得令人惊讶的结果;再添加L1与感知损失后,GCFSR在大尺寸上采样因子(比如16、32)方面超越了其他SOTA方案。在测试阶段,我们可以通过连续改变输入条件上采样因子对生成强度进行调制以获得不同的生成效果。除此之外,GCFSR在复杂退化场景中也有稳定出色的表现。

23bf7bfac0a288bae0da646b49513a78.jpg

1、出发点

b6646d5deb547b76b6302d94cac82bce.jpg

上表对近期三个SOTA图像复原方案从不同维度进行了对比,可以看到:

  • GLEAN依赖额外的模块进行超分,它采用RRDBNet提取特征,然后采用额外的解码器与GAN先验组合生成最终的结果;
  • GFPGAN采用了额外的UNet用于退化移除,然后对所得特征进行变换并用于对GAN先验进行调制;
  • GPEN则直接将编码器特征与GAN先验concat融合。

总而言之,GAN先验要么设计复杂的模块对其进行修改,后者对其进行微调适配。这就意味着:利用GAN先验进行图像复原并非一个微不足道的任务。那么,我们能否设计一个不依赖预训练GAN先验的生成模型呢

2、GCFSR

4f5859b3f8db399a8b8fc64fa49a54c1.jpg

上图为GCFSR整体架构示意图,它包含一个编码器与一个生成器,编码器以LR人脸图像作为输入,提取人脸结构信息,同时估计隐特征(它将作为生成器的输入);生成器以编码器估计的隐特征、多级结构特征作为输入,通过一系列风格调制卷积进行处理后生成最终包含丰富人脸细节的人脸图像。

为处理不同上采样因子的超分任务,我们在编码器与生成器提取的多尺度特征之间添加跳过连接。特征调制模块会根据输入条件上采样因子来控制编码特征和生成特征的强度。GCFSR的编码器和生成器相互协作并生成具有高真实性的人脸图像,还可以提供灵活的用户调节机制。值得一提的是,所提方案可以从头开始端到端训练,无需进行GAN先验的预训练。

Encoder Network

1650248931(1).png

Generator Network

生成器以编码器的输出作为输入,通过风格调制模块与特征调制模块处理后生成包含丰富纹理细节的人脸图像。

Style Modulation风格调制卷积是由StyleGAN2所提出,它采用隐向量对卷积核沿输入通道维度进行调制。为近似保持输入与输出之间的方差,卷积核参数在进行卷积之前先进行归一化(更多信息建议查看StyleGAN2一文),我们将整个模块表示为1650250235(1).png。生成器以的特征图c作为输入起始点,然后通过上采样与1650250235(1).png处理得到最终的输出。

针对超分任务,我们进行了如下几个改进:

  • 首先,我们并未从常数特征图重生成特征。相反,我们直接采用编码特征,即1650250256(1).png
  • 然后,所提特征调试模块将对多级编码特征与生成特征进行处理得到融合结果1650250290(1).png
  • 因此,生成器可以同时从编码特征与生成特征受益,而无需从头开始生成。
    1650250337(1).png

1650250353(1).png

Training Details

1650250381(1).png

GCFSR仅需对抗损失即可很好进行训练,我们采用非饱和逻辑损失:

8369e877f1ec147cdfe3f6001db84db7.jpg

如后续实验所表明,仅采用对抗损失训练的GCFSR已在x4和x8超分任务上超过了其他盲人脸复原方案。

为进一步提升超分性能,我们采用了常规组合损失,即L1、感知损失以及对抗损失,定义如下:
1650250413(1).png
1f00d07e0501ac4e123587dbddd87239.jpg

尽管GCFSR是从头开始训练,但其收敛速度更快(见上图),同时在所有GAN先验方案中取得了最佳的性能。

3、Experiments

468c3968d6300fbb13a15f007238b6b3.jpg
88da09c6ec85d56b086f3dc5918bf7e8.jpg

上表与图给出了不同方案的量化指标与重建效果对比,从中可以看到:

  • GCFSR取得了最佳PSNR与LPIPSR指标,PULSE与mGANprior则具有比GAN先验方案更差的性能。
  • GCFSR具有最佳的重建质量,更好的保持的身份信息。

2a6a4e02fab671904981ac777a18dc82.jpg

上图给出了不同尺度调制下的效果对比,可以看到:通过连续的调整上采样因子,我们可以找到一个效果重建效果非常好的结果。值得一提的是,该调制过程可以生成平滑的过度且不会导致伪影问题。

a08b9fd33a3e140f51c1cb96100c7fd0.jpg

除此之外,我们固定GCFSR的输入条件上采样因子s(比如:s=1),采用GFPGAN的退化方式,训练了一个盲人脸复原模型。实验结果表明,GCFSR的盲复原版本也能在量化指标上取得sota效果

全文到此结束,更多消融实验与分析请移步原文。

本文的研究成果同时也在字节跳动智能创作音视频团队的“臻视综合画质解决方案”中有落地,支持老照片修复、老电影修复等AI画质修复场景,更多效果可以访问:火山引擎-高清人像修复体验(https://www.volcengine.com/pr...)。
来源:AIWalker
作者:Happy&JingwenHe

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker
推荐阅读
关注数
6199
内容数
192
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息