https://arxiv.org/abs/2312.15736
https://github.com/chenxx89/BFRffusion
人脸盲复原是计算机视觉领域的一个重要课题,由于其广泛的应用而受到人们的广泛关注。在这项工作中,我们深入研究了利用预训练的稳定扩散进行盲脸恢复的潜力,
- 提出了一种BFRffusion算法,该算法能够有效地从低质量的人脸图像中提取特征,并利用预训练的Stable Diffusion算法的生成先验知识,恢复出真实可信的人脸细节。
- 建立了一个具有平衡的种族、性别和年龄等属性的隐私保护人脸数据集PFHQ。该数据集可以作为训练盲人脸恢复方法的可行替代方案,有效地解决通常与真实的人脸数据集相关的隐私和偏见问题。
通过大量的实验,我们证明了我们的BFR融合算法在人工和真实的人脸恢复测试数据集上都取得了最好的性能,我们的PFHQ数据集是训练人脸恢复网络的一个有效资源.
本文方案
如上图所示,所提出的BFR算法包括四个模块:浅层退化去除模块、多级特征提取模块、可训练的时间感知提示模块和预训练的去噪U-Net模块。具体来说,给定退化的人脸图像,我们对齐进行如下处理:
- 首先,由几个卷积,激活函数和ResBlock组成的浅退化去除模块将输入图像x编码为潜在表示 并从中提取特征F1。
- 然后,多级特征提取模块对特征F1进行处理以提取适合于稳定扩散的不同分辨率的多尺度特征。多级特征提取模块由几个专门设计的Transformer块组成。可训练的时间感知提示模块由一个可训练参数、一个交叉注意块和多个多层感知器层(MLP)构成,生成Prompt,指导不同时间步长的恢复过程。
- 最后,我们将多级特征提取模块的输出特征Fn添加到预训练的去噪U-Net模块中,通过交叉注意层映射来自可训练时间感知提示模块的提示,以提供语义指导。通过逐渐去噪从随机高斯噪声中获得清晰的潜像,并且可以使用预训练的VAE的解码器将其解码为清晰的图像。
本文数据集
本文实验
小结
我们提出了具有精心设计的架构的BFRffusion,它利用封装在预训练的Stable Diffusion中的惊人的生成先验来进行盲脸恢复。我们的BFRffusion能够有效地恢复真实和忠实的面部细节,并在合成和真实世界的公共测试数据集上实现最先进的性能。
我们建立了一个隐私保护的配对人脸数据集,称为PFHQ,具有平衡的种族,性别和年龄。大量的实验表明,我们的PFHQ数据集可以作为一个替代真实的人脸数据集训练盲人脸恢复方法。
在未来,我们计划解决以下盲脸修复方面的挑战。首先,考虑到基于扩散的盲人脸恢复模型的计算资源消耗高,有必要设计一种低成本的训练和推理策略。其次,我们计划探索合成数据集的潜力,设计更实用的合成方法用于盲人脸恢复。
作者:AIWalker
来源:AIWalker
推荐阅读
- 通用检测大模型 | 华科白翔团队提出以对象为中心的基础模型GLEE
- 端侧显著性检测新高度,OPPO提出面向真实场景的PSUNet
- 38.7fps!EdgeSAM = RepViT + SAM,移动端超强变种,已开源!
- FAIR十年之路:以开放研究促进人工智能前沿SOTA
- 将卷积与自注意力进行高效集成,上交与华为海思提出了Xvolution
本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。