图像超分中的那些知识蒸馏

首发：AIWalker
作者:HappyAIWalker

本文对三篇知识蒸馏在图像超分中的应用进行了简单的总结，主要包含：

SRKD

上图给出了SRKD的蒸馏示意图，它采用了最基本的知识蒸馏思想对老师网络与学生网络的不同阶段特征进行蒸馏。考虑到老师网络与学生网络的通道数可能是不相同的，SRKD则是对中间特征的统计信息进行监督。该文考虑了如下四种统计信息：

下图给出了所提蒸馏方案在不同倍率、不同测试集上的性能对比。总而言之，SRKD确实可以取得比直接训练更好的性能。

为了说明所提特征关系思想的有效性，作者对比了不同形式的特征关联机制，见下表对比。

最后则给出了所提方法在RCAN与SAN两种优秀超分中的蒸馏效果对比。从下表可以看到：对于RCAN来说，蒸馏所提模型基本上可以提升0.05-0.15不等的性能，看来很不错哟。

上图给出了PISR的蒸馏示意图。相比SRKD与FAKD，PISR的创新点则更多，要不然也不至于能中ECCV了，对吧。

总体来说，PISR参考了广义蒸馏的思想，同时采用HR作为输入，通过Encoder模拟退化过程，并令Decoder与学生网络具有相同的结构。这种处理机制使得老师网络与学生网络在生成的特征结构信息方面具有了更好的“均等”性，而这个“均等性”是其他蒸馏方法很少去考虑的。

在损失函数方面，PISR参考了VID蒸馏方案中的“变分信息蒸馏”思想：最大化老师网络与学生网络之间的互信息。这里的蒸馏损失定义如下：

下表对比了所提方案中不同模块的重要性说明，总而言之：各个模块都很重要。

然后给出了FSRCNN的蒸馏性能对比，该文主要也是针对FSRCNN这种轻量型网络进行蒸馏，这是难能可贵的。当然也可以对其他网络进行蒸馏，比如VDSR、IDN、CARN等。

本文对图像超分领域中的知识蒸馏进行了简单总结，从目前的初步调研来看：图像超分中的知识蒸馏仍处于“莽荒”阶段，深入性稍显不足，如何将其他领域的知识蒸馏技术迁移到图像超分领域并进行针对性的“魔改”可能会是一个不错的点。

ACCV 2018. Image Super-Resolution using Knowledge Distillation.
ICIP 2020. FAKD: Feature-Affinity based Knowledge Distillation for Efficient Image Super Resolution.
ECCV 2020. Learning with Privileged Information for Efficient Image Super Resolution.
CVPR 2019. Variational Information Distillation for Knowledge Transfer.

- END -