Happy · 2023年12月28日

BFRffusion | 面向真实世界的盲人脸复原,中山大学提出全新盲人脸复原基准数据集

image.png

https://arxiv.org/abs/2312.15736
https://github.com/chenxx89/BFRffusion

人脸盲复原是计算机视觉领域的一个重要课题,由于其广泛的应用而受到人们的广泛关注。在这项工作中,我们深入研究了利用预训练的稳定扩散进行盲脸恢复的潜力,

  • 提出了一种BFRffusion算法,该算法能够有效地从低质量的人脸图像中提取特征,并利用预训练的Stable Diffusion算法的生成先验知识,恢复出真实可信的人脸细节
  • 建立了一个具有平衡的种族、性别和年龄等属性的隐私保护人脸数据集PFHQ。该数据集可以作为训练盲人脸恢复方法的可行替代方案,有效地解决通常与真实的人脸数据集相关的隐私和偏见问题。

通过大量的实验,我们证明了我们的BFR融合算法在人工和真实的人脸恢复测试数据集上都取得了最好的性能,我们的PFHQ数据集是训练人脸恢复网络的一个有效资源.

image.png

本文方案

image.png

如上图所示,所提出的BFR算法包括四个模块:浅层退化去除模块多级特征提取模块可训练的时间感知提示模块预训练的去噪U-Net模块。具体来说,给定退化的人脸图像,我们对齐进行如下处理:

  • 首先,由几个卷积,激活函数和ResBlock组成的浅退化去除模块将输入图像x编码为潜在表示 并从中提取特征F1
  • 然后,多级特征提取模块对特征F1进行处理以提取适合于稳定扩散的不同分辨率的多尺度特征。多级特征提取模块由几个专门设计的Transformer块组成。可训练的时间感知提示模块由一个可训练参数、一个交叉注意块和多个多层感知器层(MLP)构成,生成Prompt,指导不同时间步长的恢复过程。
  • 最后,我们将多级特征提取模块的输出特征Fn添加到预训练的去噪U-Net模块中,通过交叉注意层映射来自可训练时间感知提示模块的提示,以提供语义指导。通过逐渐去噪从随机高斯噪声中获得清晰的潜像,并且可以使用预训练的VAE的解码器将其解码为清晰的图像。

本文数据集

image.png

本文实验

image.png
image.png

小结

我们提出了具有精心设计的架构的BFRffusion,它利用封装在预训练的Stable Diffusion中的惊人的生成先验来进行盲脸恢复。我们的BFRffusion能够有效地恢复真实和忠实的面部细节,并在合成和真实世界的公共测试数据集上实现最先进的性能。

我们建立了一个隐私保护的配对人脸数据集,称为PFHQ,具有平衡的种族,性别和年龄。大量的实验表明,我们的PFHQ数据集可以作为一个替代真实的人脸数据集训练盲人脸恢复方法。

在未来,我们计划解决以下盲脸修复方面的挑战。首先,考虑到基于扩散的盲人脸恢复模型的计算资源消耗高,有必要设计一种低成本的训练和推理策略。其次,我们计划探索合成数据集的潜力,设计更实用的合成方法用于盲人脸恢复。

作者:AIWalker
来源:AIWalker

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
6199
内容数
192
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息