ronghuaiyang · 2021年01月21日

2020 IEEE ACCESS :使用Conv-LSTM的深度学习多尺度模糊检测

首发:AI公园公众号
作者:ronghuaiyang

导读

使用VGG+Conv-LSTM,超越BTBCRL,DeFusionNet和DHDE。

image.png

本文综述了中国民航大学的离焦模糊检测方法,该方法采用Conv-LSTM, MsFEN+MsBEN。文章摘要:

  • 从同一个图像中提取不同大小的多尺度卷积特征
  • 使用Conv-LSTMs将融合后的特征从上到下逐层融合,生成多尺度的模糊估计。

概要

  1. 多尺度特征抽取子网络 (MsFEN)
  2. 多尺度模糊检测子网络(MsBEN)
  3. 实验结果

1. 多尺度特征抽取子网络 (MsFEN)

image.png

  • 用VGG16作为基础的特征提取器
  • 去掉最后的pooling和两个全连接
  • 用ImageNet的预训练权重进行初始化
  • 剩下的5个卷积block用来抽取多尺度卷积特征,如上图,下面的表格显示了网络的细节

image.png

image.png

通过拼接卷积特征,我们可以得到更加鲁棒的特征来克服模糊尺度的不确定性。

2. 多尺度模糊检测子网络(MsBEN)

2.1. MsBEN中使用Conv-LSTM

image.png

我们可以看到模糊图是逐渐细化的。

2.2. Conv-LSTM

image.png
Conv-LSTM的细节. (a)Conv-LSTM的过程. (b)Conv-LSTM的内部计算

  • Conv-LSTM从传统的全连接LSTM设计而来,用来提取空间相关性特征。
  • 这个层使用卷积操作来代替点乘来编码空间信息。
  • 和LSTM类似,Conv-LSTM有3个门,分别叫做输入门it,输出门ot,遗忘门ft,用来控制信息流。
  • Cell状态_Ct_和隐藏状态_Ht_通过_it_, ot 以及 _ft_的值来更新。
  • _Xt_为Conv-LSTM的每个时间步的输入。
  • 如果_it_被激活,输入被累加到_Ct_中。
  • 如果_ft_被激活,那么过去的状态_Ct_-1会被丢掉。
  • _Ct_到_Ht_的信息的传播是由输出门_ot_来控制的。
  • 时间步_t_的更新过程:

image.png

  • 其中 * 是卷积,这里,最大的时间步为3。
  • 在最后的时间步上,在隐藏状态中卷积层使用1×1×1的卷积核,得到预测的模糊图。

2.3. 多层损失

  • 每个尺度的模糊图都是有监督的。
  • 使用交叉熵损失。
  • 精确度 _LP_,召回率 _LR_,F值_LFβ_,以及MAE损失_LMAE_都是损失函数的一部分:

image.png

  • 其中_α_1, _α_2, _α_3, 和_α_4 都设置为0.1。

3. 实验结果

3.1. 生成的模糊数据

image.png

  • 使用了来自Berkeley segmentation dataset (BSDS)、uncompressed color image dataset (UCID)和PASCAL 2008 dataset的2000张图像。
  • 高斯模糊核大小7×7,_σ_ = 2,模糊应用于顶部,底部,左,右半边图像区域各5次。
  • 这样,每幅图像可以生成20幅模糊图像。
总共生成了40000张模糊图像用于预训练。
  • 预训练之后,在真实数据上进行微调。

3.2. 定性分析

image.png

不同的模糊检测器上的可视化比较

  • 场景1包含了很大的同质化区域。
  • SS和DeFusionNet在第一个和第三个图像上对于大的同质化区域效果不好。
  • DHDE无法在所有的图像中抑制模糊的背景中的值。
  • HiFST对边缘有模糊。
  • 我们提出的方法对于同质化区域的结果很准。
  • 场景2包含了聚类化的背景。
  • 所有参与比较的模糊检测器都将亮点当成了尖锐的区域(非模糊区域),但是我们提出的方法正确的检测出了非模糊区域。
  • 在第二张图像上,进行比较的方法对于玩具娃娃的身体检测的不好,而我们提出的方法可以检测出完整的区域。
  • 场景3的前景和背景很相似。
  • BTBCRL无法从模糊的背景中检测出真实的清晰的区域。
  • HiFST将模糊的背景认为是清晰的。
  • SS 和 DHDE错误的把模糊的背景分类成清晰的区域。
  • 我们提出的方法能够得到正确的结果。

3.3. 定量分析

image.png
不同的模糊检测器的F0.3, F1和MAE得分的定量对比

  • CUHK1的第一部分和DeFusionNet是一样的。
  • CUHK2的第二部分由BTBCRL提出。
  • 提出的方法在DUT和CUHK2数据集上到了最高的F-measure值和最低的MAE值。
  • 在CUHK1上,提出的方法排第二位,DeFusionNet排第一位。

image.png

PR曲线,精确度,召回率和F-measure的对比

  • 精确度,召回率和F-meature值都是最高的,由于结果解决二值化的模糊图,所以对于精确度和召回率对于阈值不是很明显。

3.4. 运行时间

image.png

使用320x320的尺寸,一张图像上的运行时间的对比

  • 提出的方法比DeFusionNet略慢。
  • 提出的方法处理一张图像0.06s,比其他的方法都快。

3.5. 消融实验

image.png
不同的VGG上的表现

  • 使用更深的网络可以提升表现,但是计算量也更多。
  • VGG16和VGG19的效果差不多,但是时间会更快。
  • VGG16用于我们的基础特征提取器。

image.png

不同的图像尺度的组合的效果

  • 只使用2个尺度作为输入, 比如Net-S²,在DUT数据集上无法提升效果。
  • 但是,Net-S³,使用3个尺度要比Net-S¹和Net-S²更好。

image.png

Conv-LSTM的细节,Single-Conv和Multi-Conv

  • 第一种变体是将Conv-LSTM替换为一个卷积层,叫做Single-Conv。
  • 第二种变体是将Conv-LSTM替换为多个卷积层,叫做Multi-Conv。

image.png
Conv-LSTM的效果,Single-Conv和Multi-Conv

  • 我们发现,使用Conv-LSTM层的所有评价标准都优于使用卷积层的。

—END—

英文原文:https://medium.com/swlh/revie...

推荐阅读

关注图像处理,自然语言处理,机器学习等人工智能领域,请点击关注AI公园专栏
欢迎关注微信公众号
AI公园 公众号二维码.jfif
推荐阅读
关注数
8244
内容数
210
关注图像处理,NLP,机器学习等人工智能领域
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息