退化模型在盲图像超分中起着非常重要的作用,经典的退化模型近聚焦于模糊导致其在现实场景的应用能力有限。BSRGAN与Real-ESRGAN的实用性退化模型为盲图像超分的退化模型研究掀开了新的篇章,极大程度提升了图像超分在现实场景的应用。
BSRGAN:ETH开源业内首个广义盲图像超分退化模型,性能效果绝佳
Real-ESRGAN: ESRGAN插上高阶退化空间的翅膀走向更广义的空间
但是,BSRGAN与Real-ESRGAN中的退化模型主要聚焦于复杂退化实例,而忽视了现实场景中常见的边界实例(如噪声+模糊的组合),可理解为退化基的非全组合。
为解决该问题,香港理工大学、深圳先进技术研究院以及上海AI Lab的研究员提出了一种带门控的统一退化模型,它可以通过随机门控生成更广泛的退化实例。
出发点
尽管盲图像超分已得到广泛的研究,但仍有三个关键问题并未得到很好的探究:
- 广义退化模型的设计覆盖了大部分/全部退化实例。现实场景的退化过程具有高度随机性,而现有的退化模型近考虑有限的退化实例。经典的退化模型仅考虑了模糊退化,实用型退化模型则仅聚焦于复杂退化实例。
- 强基线模型可以很好的处理大部分退化实例。优于缺乏统一的退化模型,现有方案难以在不同退化实例下均表现优秀。一个可以处理不同退化实例的强基线方案就变的亟需。
- 关于盲超分方案性能上限的研究。由于缺乏盲超分上限的定量研究,导致难以评价盲超分方案对特定退化实例具有足够好的表现。
带门控机制的实用退化模型
本文提出了一种带门控的统一实用退化(unified Gated Practical Degradation GD)模型 :它通过门限机制生成不同的退化组合以尽可能覆盖现实场景中的退化实例。在引出本文退化模型之前,我们先看一下经典退化模型与实用型退化模型。
经典退化模型可以表示为如下形式:
实用型退化模型(如BSRGAN、Real-ESRGAN)可以表示成如下形式:
由于实用型退化模型近考虑了复杂退化实例(即退化过程中使用了几乎所有的退化基),而忽视了现实场景中常见的边界实例(即退化基的非全组合)。受此启发,本文通过引入门限机制提出了统一退化模型(可参考上图),表示如下:
可以看到:当所有门控g=1时,该退化模型等价于实用型退化模型;当所有门控g=0时,它则退化为传统非盲超分。也就是说,该退化模型是一个包含非盲退化、经典盲退化与使用退化的统一退化模型。
至于代码实现,这个就非常简单了,可基于Real-ESRGAN的code进行"魔改",下面提供了一个参考。
############## add blur ###################
# self.opt['gate_blur_prob'] = 0.5
if np.random.uniform() < self.opt['gate_blur_prob']:
out = filter2D(self.gt, self.kernel1)
else:
out = self.gt
盲超分性能上限分析
参考FAIG一文,我们训练一个BSRNet-FAIG与五个特定退化下的模型(即性能上限),结果见上表,可以看到:相比性能上限,该BSRNet-FAIG的PSNR指标下降约0.3dB。这种程度的性能下降在盲超分中是可以接受的,这促使我们进一步探究盲超分的学习能力。
上图给出了不同退化下超分的性能对比,从中可以看到:
- BSRNet-PD在边界实例上出现了严重性能下降(如bic、b2.0、n20、b2.0n20),而在b2.0j60与n20j60下的性能下降较小;在复杂退化实例b2.0n20j60方面,BSRNet-PD与性能上线的差异仅为0.09dB。这是因为PD主要聚焦于blur、noise以及JPEG的组合退化。
- BSRNet-GD在边界实例b2.0与b2.0n20方面可以取得0.82dB与0.63dB的性能提升,在其他边界实例上的性能也非常接近性能上限。但是,BSRNet-GD在b2.0b20j60退化实例上的性能比BSRNet-PD下降了0.15dB。
- 从视觉效果角度来看,在b2.0与n20退化实例方面,BSRNet-GD可以生成更多纹理;在b2.0n20j60退化实例方面的性能牺牲可以接受(差异极小,几乎无法区分)。
- 总而言之,相比PD模型,所提GD模型以复杂退化实例的轻微性能下降达成所有边界退化实例上的大幅性能提升,且相比性能上限性能下降较小。
Experiments
从上表&图给出了PSNR导向训练机制下的性能对比,从中可以看到:
- RRDBNet仅比SRResNet-FAIG指标高0.03dB;非盲超分方案RCAN取得了比RRDBNet更佳的性能;SwinIR取得了进一步的性能提升;
- 所提基线方案RRDBNet-GD与SwinIR-GD取得了大幅性能提升(0.3-0.6dB),同时具有更好的视觉重建效果。
从上表&图给出了GAN导向训练机制下的性能对比,从中可以看到:
- SRGAN倾向于牺牲PSNR性能而生成感知纹理,而BSRGAN与SwinIRGAN则可以取得更高的重建性能与纹理细节;
- 当搭配上GD模型后,BSRGAN与SwinIRGAN的性能得到进一步的提升。
- 从RealSRSet的重建效果来看,BSRGAN-GD取得了5.11@NIQE优于BSRGAN的6.06。
来源:AIWalker
作者:AIWalker
推荐阅读
- 恺明团队新作:MAE"入局"视频表达学习
- NTIRE2022-ESR 冠军方案RLFN解析
- HAT | 探究SwinIR优于RCAN的背后机理,挖掘预训练策略潜能!
- RepSR让BN重回SR怀抱,加速训练效率,同时消除伪影问题
本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。