Happy · 2021年01月22日

图像超分中的那些知识蒸馏

首发:AIWalker
作者:HappyAIWalker

本文对三篇知识蒸馏在图像超分中的应用进行了简单的总结,主要包含:

  • SRKD:它将最基本的知识蒸馏直接应用到图像超分中,整体思想分类网络中的蒸馏方式基本一致,整体来看属于应用形式;
  • FAKD:它在常规知识蒸馏的基础上引入了特征关联机制,进一步提升被蒸馏所得学生网络的性能,相比直接应用有了一定程度的提升;
  • PISR:它则是利用了广义蒸馏的思想进行超分网络的蒸馏,通过充分利用训练过程中HR信息的可获取性进一步提升学生网络的性能。
  • 注:在公众号后台回复:KDSR,即可获得上述论文下载链接。

SRKD

image.png

上图给出了SRKD的蒸馏示意图,它采用了最基本的知识蒸馏思想对老师网络与学生网络的不同阶段特征进行蒸馏。考虑到老师网络与学生网络的通道数可能是不相同的,SRKD则是对中间特征的统计信息进行监督。该文考虑了如下四种统计信息:

image.png

下图给出了所提蒸馏方案在不同倍率、不同测试集上的性能对比。总而言之,SRKD确实可以取得比直接训练更好的性能。

image.png

FAKD

image.png
image.png
为了说明所提特征关系思想的有效性,作者对比了不同形式的特征关联机制,见下表对比。

image.png

最后则给出了所提方法在RCAN与SAN两种优秀超分中的蒸馏效果对比。从下表可以看到:对于RCAN来说,蒸馏所提模型基本上可以提升0.05-0.15不等的性能,看来很不错哟。
image.png

PISR

image.png

上图给出了PISR的蒸馏示意图。相比SRKD与FAKD,PISR的创新点则更多,要不然也不至于能中ECCV了,对吧。

总体来说,PISR参考了广义蒸馏的思想,同时采用HR作为输入,通过Encoder模拟退化过程,并令Decoder与学生网络具有相同的结构。这种处理机制使得老师网络与学生网络在生成的特征结构信息方面具有了更好的“均等”性,而这个“均等性”是其他蒸馏方法很少去考虑的。

在损失函数方面,PISR参考了VID蒸馏方案中的“变分信息蒸馏”思想:最大化老师网络与学生网络之间的互信息。这里的蒸馏损失定义如下:

image.png

下表对比了所提方案中不同模块的重要性说明,总而言之:各个模块都很重要。

image.png

然后给出了FSRCNN的蒸馏性能对比,该文主要也是针对FSRCNN这种轻量型网络进行蒸馏,这是难能可贵的。当然也可以对其他网络进行蒸馏,比如VDSR、IDN、CARN等。

image.png
image.png

小结

本文对图像超分领域中的知识蒸馏进行了简单总结,从目前的初步调研来看:图像超分中的知识蒸馏仍处于“莽荒”阶段,深入性稍显不足,如何将其他领域的知识蒸馏技术迁移到图像超分领域并进行针对性的“魔改”可能会是一个不错的点。

参考

  1. ACCV 2018. Image Super-Resolution using Knowledge Distillation.
  2. ICIP 2020. FAKD: Feature-Affinity based Knowledge Distillation for Efficient Image Super Resolution.
  3. ECCV 2020. Learning with Privileged Information for Efficient Image Super Resolution.
  4. CVPR 2019. Variational Information Distillation for Knowledge Transfer.

- END -

推荐阅读

本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏深度学习从入门到精通
推荐阅读
关注数
6197
内容数
191
夯实深度学习知识基础, 涵盖动态滤波,超分辨,轻量级框架等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息