ronghuaiyang · 2021年03月17日

NetVLAD:使用CNN结构用弱监督学习来进行地点识别

首发:AI公园公众号
作者:YoonWooJeong
编译:ronghuaiyang

导读

弱监督学习来做图像检索的一个例子。

本文在图像检索任务中得到了广泛应用,为地点识别任务提供了一种关键的解决方案。

image.png
图像检索结果

卷积神经网络(CNN)一直是计算机视觉领域的核心。随着计算资源的迅猛发展,人们越来越关注在减少计算复杂度的同时提高模型的性能。因此,在image retrieval中,使用CNN architecture进行特征提取。然而,使用CNN架构仍然存在性能低下的问题。

图像检索是一项任务,重点是寻找数据库中最相似的图像。关键词similar似乎很主观,因为没有严格的相似度定义。此外,我们不能使用朴素的图像数组来计算相似度。为了解决这个问题,我们定义了一个特征提取函数f和距离函数d。这个方案称为度量学习。关于度量学习的更多细节在下面解释。

视觉位置识别问题重点是利用数据库中的信息对查询图像进行正确定位。一个候选解决方案是使用图像检索。对于给定的查询,将其位置近似为最相似的图像位置。这种近似方法称为实例检索任务

在本文中,我们将介绍NetVLAD:用于弱监督位置识别的CNN架构。本文发表于2016年,为视觉地点识别任务介绍了一个很棒的CNN结构层。

NetVLAD之前

在提取图像的局部特征方面进行了多次试验。不幸的是,原来的CNN结构并不适合视觉位置识别任务。此外,许多“现成的”技术限制了构建端到端方式。本文的主要贡献如下:

  1. 创建一个可以端到端训练的CNN架构,用于视觉地点识别。
  2. 收集足够训练CNN的数据。
  3. 使用CNN架构进行特征提取并评估其性能。

度量学习

image.png

演示材料中的幻灯片

度量学习的主要思想是学习距离函数和特征提取函数。为了方便起见,我们通常使用线性函数并了解它们的参数。由于图像都是简单的整数数组,对于朴素图像来说,获取它们之间的距离是一个挑战。因此,我们使用特征提取函数来提取局部描述符。它使用带有NetVLAD的CNN作为特征提取函数,使用欧氏距离作为距离函数。之所以选择欧几里得距离,是因为它在实验中效果很好。

VLAD (Vector of Locally Aggregated Descriptor)

image.png
看来我们只需要学习c\_k。但是,在下面的文章中,我们发现解耦{c}、{w}和{b}的依赖可以提高性能。这意味着学习{c}, {w}, {b}比只学习{c}获得更好的成绩。

image.png

标注数据

不幸的是,在2016年还没有groundtruth数据集。因此,他们利用弱监督来解决问题。

弱监督是指由于缺乏手工标注的数据而使用有噪声的标签进行监督。

它使用了谷歌街景时光机,只提供它的图像和位置。然后对每个查询图像,将其他数据库图像分类为Potential PositiveDefinitive NegativePotential Positive是距离查询图像10m以内的图像。Definitive Negative是指距离查询图像25m以上的图像。这样我们就可以直观地理解下面的方程。

image.png

当最相似的图像有较小的距离时,损失函数变大,而definitive negative的负图像与查询结果不相似。这个损失函数称为三元组损失函数。

评估方案和实验细节

本实验使用的是基于谷歌街景时光机的Pittsburgh(Pittsburgh 250k, Pittsburgh 30k)和Tokyo24/7。它使用了召回率来进行评估,计算正确识别的查询的百分比。当top-N检索到的数据库图像在25m以内时,认为是正确的地址。超参数K为64。

结果

image.png

  1. 基于VGG16的VLAD明显优于由“现成”技术组成的Root-SIFT + VLAD + whitening。
  2. NetVLAD可以用丰富而紧凑的图像表示用于地点识别。
  3. NetVLAD在视觉位置识别任务中的表现优于max-pooling。
  4. 无论选择哪个网络骨干网(AlexNet, VGG16, Places205),它都优于其他最先进的技术。

image.png

上图是另一个实验的结果。实验验证了当我们改变最低的训练层时,我们可以获得更好的性能。然而,当我们学习所有的层时,它会导致过拟合,从而性能下降。

总结

NetVLAD提供了一个强大的池化机制,具有可学习的参数,可以很容易地插入到任何其他CNN架构中。由于NetVLAD中的所有函数都是可微的,因此在网络中使用时,它可以提供端到端方式。由于它的便捷性,它仍然是视觉位置识别任务中一个受欢迎的方法。

—END—

英文原文:https://towardsdatascience.co...

推荐阅读

关注图像处理,自然语言处理,机器学习等人工智能领域,请点击关注AI公园专栏
欢迎关注微信公众号
AI公园 公众号二维码.jfif
推荐阅读
关注数
8257
内容数
210
关注图像处理,NLP,机器学习等人工智能领域
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息