近日,New Trends in Image Restoration and Enhancement (以下简称:NTIRE) 比赛结果揭晓,旷视研究院在11支参赛队伍中脱颖而出,荣获了 NTIRE 2022 Burst Super-Resolution Challenge-真实世界数据赛道比赛第一!
1 赛题介绍
在真实世界中,手机输出的高分辨率图像通常是由瞬间拍摄的多帧图像经过算法处理后得到。相对于单帧图像超分,多帧图像可以提供不同时刻场景的低分辨率亚像素信息,也就是说多帧超分方法可以从手机拍摄的多帧图像中获得不同额外的图像信息从而提升最终的超分效果以及丰富纹理。而本次赛题的目标即是从多张手机拍摄的低分辨率低质量的 RAW 图恢复出具有丰富纹理的高清图像。
在真实世界场景中,低分辨率图像是通过智能手机拍摄得到,其表现为成像质量低、噪声大、且多帧图像无对齐。此外,由于低分辨率图和高分辨图是由不同的设备捕获而来(如智能手机和单反相机),两者往往无法完美对齐并具有不同的亮度和颜色表现,使得模型训练比较困难。如下图:
图1. Burst Super-Resolution. 左侧为多帧输入,右边是 ground truth,中间是超分结果。
2 旷视算法介绍
针对赛题的目标,目前大多数方法是通过对齐、融合、重建等方式进行图像超分,如 EBSR [1]、DBSR[2] 和 MFIR [3]等。但这些方法只单独使用了光流(Flow)或可变形卷积(DCN)来对对齐图像,对低质量的 RAW 图不够鲁棒,且基于 CNN 的算法无法有效获取远距离关系进行信息聚合,因此效果往往不尽人意。
根据之前算法的不足,我们提出了三点改进:
1)高效的多帧RAW数据处理 Pipeline。
2)基于金字塔的光流引导的可变性卷积模块。
3)基于SwinTransformer [4]的特征提取和图像重建网络结构。
我们为 RAW 域下的多帧模式图像超分问题提供了一个新的基线模型“BSRT: Improving Burst Super-Resolution with Swin Transformer and Flow-Guided Deformable Alignment”。
图2. BSRT 与其他方法性能对比。
首先我们提出了一种有效的多帧 RAW 数据处理 Pipeline,具体是先在4通道小图上提取特征,再利用 PixelShuffle 上采样后在特征上进行多帧对齐并融合,随后利用 Transformer 对高清图像进行重建还原。我们还设计了一种基于金字塔的光流引导的可变性卷积模块(Pyramid Flow-Guided Deformable Alignment, Pyramid FG-DCN)对多帧信息进行多尺度对齐并融合。该模块可以应对多帧 RAW 图间的较大的位移,相比去年的冠军模型取得了更高的性能。此外,在图像特征提取以及融合后的重建部分,我们使用了基于 SwinTransformer 的网络结构。Transformer 可以捕获特征的长远信息从而提高超分的纹理效果,同时我们还发现使用 Transformer 提取的特征对后面的对齐模块更加友好。整体 Pipeline 如下图:
图3. BSRT 框架结构。
图4. 改进的 RAW 图多帧 Pipeline。
图5. Pyramid FG-DCN。
3 实验结果
相比于之前的 EBSR、DBSR、MFIR 等多帧图像超分模型,BSRT 在 RAW 域多帧超分任务上性能更好,也更加稳定。我们选择先在合成数据集上训练,再在真实数据上进行 finetune,BSRT 在合成数据和真实数据的多帧超分任务上都达到了 SOTA 效果。
具体的内容可以参考论文:
BSRT: Improving Burst Super-Resolution with Swin Transformer and Flow-Guided Deformable Alignment
来源:旷视研究院
作者:旷视研究院
专栏文章推荐
- 技术的真相 | 机器学习在仓库控制中的探索:以某场景的排序问题为例
- MegPeak——让你更懂你的处理器
- ARM 算子性能优化上手指南
- 旷视研究院荣获 CVPR 2022 NTIRE 双目图像超分辨率比赛第一!
欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
加入旷视:career@megvii.com