首发:AIWalker
作者:HappyAIWalker
大家好,我是Happy。
今天要介绍的是MobileAI2021视频超分竞赛的方案,从今天要介绍的方案来看,基本以图像方案为主,即图像超分直接在视频中逐帧处理。当然,冠军方案采用了递归方案,而且是最近流行起来的双向递归。
Challenge
为开发一种高效且使用的端侧任务相关的解决方案,我们需要考虑以下几点:
- 一个用于训练与评估的大尺度、高质量数据集;
- 一种无约束检测推理耗时与模型debug的有效方法;
- 能够定期在目标平台(移动端)设备上测试所开发模型的运行时间。
该挑战赛解决了以上几点问题:真实训练数据、工具以及运行时评价方法。
Dataset
在该竞赛中,我们采用了REDS数据进行模型训练,延续之前的惯例,240个视频序列用于训练,30个视频序列用于验证,30个视频序列用于测试。每个视频序列长度为100,图像分辨率为,采用bicubic
对图像进行4倍下采样。
Local Runtime Evaluation
当针对移动设计进行AI方案研发时,模型的测试与debug非常重要。因此,我们提供了AI Benchmark
平台(见下图),它可以直接加载Tensorflow Lite模型并在任意安卓设备上以所支持的加速选项运行。最新版工具包含Androoid NNAPI、TFLite GPU,Hexagon NN, Samsung Eden, MediaTek Neuron delegates,因此支持所有手机平台,可以让用于选择特定的硬件加速器进行测试。
一个Tensorflow Lite模型的加载与运行包含以下几个步骤(可参考上图):
- 从官网下载
AI Benchmark
并进行标准测试; - 完成标准测试后,进入
PRO
模式并选择Custom Model
; - 重命名导出TFLite模型为
model.tflite
并将其放在Download
文件夹下 - 选择模式(INT8, FP16, FP32)以及期望的加速选项并运行模型。
Runtime Evaluation on the Target Platform
在该挑战赛中,我们采用OPPO Find X2
作为目标耗时评估平台,它的硬件平台为高通骁龙865,理论上的FP16算力高达2.4TFLOPs。采用AI Benchmark软件测评不同算法的耗时,它支持安卓,可以通过NNAPI进行神经网络推理。此外,参赛者还可以额外得到关于平添支持的op列表用于进行模型优化以充分份利用手机性能。
Scoring System
所有解决方案通过以下方式进行评估:
- PSNR
- SSIM
- Runtime
最终的得分通过以下公式计算得到:
在竞赛阶段,所有参赛者均无法拿到测试集,仅需提交最终的TensorFlow Lite模型,这种方式可以避免模型过拟合,确保结果可复现性、推理耗时一致性。注:由于是视频超分,所以测试时,10帧一起作为输入。
Challenge Results
在竞赛过程中,总计有125个注册队伍,只有4个队伍进入了最后的阶段。结果见下表,从PSNR、SSIM以及CPU、GPU耗时等方面进行了对比。
从上表可以看到:所有提交的方案均具有非常高的效率。前三个模型能均能以超50fps速度在骁龙865平台上进行4倍超分(输出720p)。Noah_terminalVision
有潜力取得最高帧率,尽管由于存在split操作导致期与TFLite-GPU不兼容而仅仅测试了CPU模式。Diggers
团队的方案取得了本次竞赛的冠军,取得了最佳的保真度,同时具有非常好的推理效率。此外,它也是此次竞赛唯一的递归方案,而其他方案则是单帧方案。下图给出了不同方案的视觉效果对比。
Challenge Methods
接下来,我们将对竞赛最终阶段提交的方案进行简单介绍。
Diggers
上图为Diggers
团队提出的双向递归方案,它受启发于RRN与IMDN而得到。对于每个输入帧,首先采用两个特征提取模块为前向与反向隐单元生成特征。在前向过程中,前一阵与当前帧的特征进行组合并送入另一个特征提取模块生成当前帧的前向过程的最后特征。反向操作与前向操作类似。最后所得前向与反向特征送入SEL模块,然后爱用一个IMDB、两个卷积以及resize层进行最后的上采样。
ZTE VIP
上图给出了ZET VIP
团队的方案,这是一种非常简单的类似EDSR的架构,网络的中间核心模块采用了残差模块,上采样模块则采用了depth-to-space
层。注:残差模块数、通道数等通过NAS搜索得到。最终的模型包含5个残差模块,通道数为8。
Rainbow
上图为Rainbow
团队的方案,轻量版IMDN网络结构,图像超分领域的研究者不了解该结构可以换个方向了,不再赘述。
Noah\_TerminalVision
上图为Noah_TerminalVision
团队的方案TinyVSRNet,它包含三个残差模块,通道数为16,采用depth-to-space
进行上采样。为提升模型的性能,在训练阶段,他们还采用了ACNet的非对称卷积,模型性能提升约0.05dB。
推荐阅读
本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏深度学习从入门到精通。