首发：AI公园公众号
作者：YoonWooJeong
编译：ronghuaiyang

导读

弱监督学习来做图像检索的一个例子。

本文在图像检索任务中得到了广泛应用，为地点识别任务提供了一种关键的解决方案。

图像检索结果

卷积神经网络(CNN)一直是计算机视觉领域的核心。随着计算资源的迅猛发展，人们越来越关注在减少计算复杂度的同时提高模型的性能。因此，在image retrieval中，使用CNN architecture进行特征提取。然而，使用CNN架构仍然存在性能低下的问题。

图像检索是一项任务，重点是寻找数据库中最相似的图像。关键词similar似乎很主观，因为没有严格的相似度定义。此外，我们不能使用朴素的图像数组来计算相似度。为了解决这个问题，我们定义了一个特征提取函数f和距离函数d。这个方案称为度量学习。关于度量学习的更多细节在下面解释。

视觉位置识别问题重点是利用数据库中的信息对查询图像进行正确定位。一个候选解决方案是使用图像检索。对于给定的查询，将其位置近似为最相似的图像位置。这种近似方法称为实例检索任务。

在本文中，我们将介绍NetVLAD:用于弱监督位置识别的CNN架构。本文发表于2016年，为视觉地点识别任务介绍了一个很棒的CNN结构层。

NetVLAD之前

在提取图像的局部特征方面进行了多次试验。不幸的是，原来的CNN结构并不适合视觉位置识别任务。此外，许多“现成的”技术限制了构建端到端方式。本文的主要贡献如下：

创建一个可以端到端训练的CNN架构，用于视觉地点识别。
收集足够训练CNN的数据。
使用CNN架构进行特征提取并评估其性能。

度量学习

演示材料中的幻灯片

度量学习的主要思想是学习距离函数和特征提取函数。为了方便起见，我们通常使用线性函数并了解它们的参数。由于图像都是简单的整数数组，对于朴素图像来说，获取它们之间的距离是一个挑战。因此，我们使用特征提取函数来提取局部描述符。它使用带有NetVLAD的CNN作为特征提取函数，使用欧氏距离作为距离函数。之所以选择欧几里得距离，是因为它在实验中效果很好。

VLAD (Vector of Locally Aggregated Descriptor)

看来我们只需要学习c\_k。但是，在下面的文章中，我们发现解耦{c}、{w}和{b}的依赖可以提高性能。这意味着学习{c}， {w}， {b}比只学习{c}获得更好的成绩。

标注数据

不幸的是，在2016年还没有groundtruth数据集。因此，他们利用弱监督来解决问题。

弱监督是指由于缺乏手工标注的数据而使用有噪声的标签进行监督。

它使用了谷歌街景时光机，只提供它的图像和位置。然后对每个查询图像，将其他数据库图像分类为Potential Positive和Definitive Negative。Potential Positive是距离查询图像10m以内的图像。Definitive Negative是指距离查询图像25m以上的图像。这样我们就可以直观地理解下面的方程。