两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于当地时间 10 月 27 至 11 月 2 日在韩国首尔举办。旷视研究院本次大会接收论文主题涵盖通用物体检测及数据集、文字检测与识别、半监督学习、分割算法、视频分析、影像处理、行人/车辆再识别、AutoML、度量学习、强化学习、元学习等众多领域。在此之前,旷视研究院将每周介绍一篇 ICCV 2019 接收论文,助力计算机视觉技术的交流与落地。
本文是第 9 篇,旷视研究院提出具备视角感知力的车辆重识别网络 VANet,它可以克服因被拍摄车辆的视角变化过于巨大所造成的性能严重的削弱问题。
=========================================================================================================================================================================================================================================================================================================================================================
论文名称:Vehicle Re-identification with Viewpoint-aware Metric Learning
论文地址:https://arxiv.org/abs/1910.04104
目录
==========
- 导语
- 简介
- 方法
- 度量学习baseline
- 具备视觉感知力的度量学习方法
- 网络架构
- 实验
- 讨论
- 结论
- 参考文献
- 往期解读
导语
===============
车辆重识别(Vehicle re-ID)任务旨在匹配城市管理场景中不同监控视角之下的车辆,其对公共安全和智慧交通而言意义重大。目前,车辆重识别任务面临的主要挑战是视角变化问题。
图 1:Vehicle re-ID 多视角图示
如图 1 所示,不同的两辆车从相似视角观察,视觉信息可能非常相似(图 1(a));而同一辆车,从不同视角看,视觉信息却差异较大(图 1(b))。
出于方便考虑,本文使用 S-view 表示相似视角 (similar-viewpoint),D-view 表示不同视角 (different-viewpoint)。在物体识别领域,视角变化问题在一些任务中(如行人重识别和人脸识别)已经多有研究。尽管深度度量学习已经在获取视角变化特征方面取得了一定成功,但是车辆的视角变化非常极端(往往能达到180度),极端视角变化的问题依然充满挑战。
本文用一个深度度量学习的 baseline 做了实验,D-view pos(具有不同视角的同类样本对) 和 S-view neg(具有相似视角的不同类样本对) 的距离分布如图 1(c)所示。经过统计,相较于 S-view neg,D-view pos 的距离往往要更大,这严重降低了重识别的检索精度。
简介
===============
旷视研究院通过学习具备视角感知力(viewpoint-aware)的度量来回应这一挑战,这一想法受到人类识别车辆的认知行为的启发:当人对比两张车辆图像时,如果视角相似,则只观察细节性的视觉外观;如果视角不同,则需要联想和记忆,而不是直接对比视觉外观。换言之,人类会根据不同的视角关系对车辆图像采取不同的识别策略。
本文将该生物机制引入深度度量学习,提出 Viewpoint-Aware Network (VANet) 方法,它有两个分别针对不同视角关系的度量学习分支,从而建立了两个特征空间,分别学习 S-view 和 D-view 关系下的度量。
具体而言,本文在训练期间使用两类度量约束,即空间内约束(within-space constraint)和跨空间约束(cross-space constraint),空间内约束使得在每一个特征空间自身内,正样本对的距离小于负样本对(即 S-view pos vs S-view neg,D-view pos vs D-view neg);跨空间约束则是使得当正、负样本对分别在不同特征空间中的情况下,正样本对间的距离也总是比负样本对距离更小(即 D-view pos vs S-view neg,S-view pos vs D-view neg)。实验证明,上述两类约束是 VANet 判别能力的重要保障,显著提升了车辆重识别的精度,在该网络下各个样本对的距离分布如图 1(d)所示,可以看出正样本对的距离分布和负样本对的距离分布区分开来。
方法
===============
为了学习到对于相似视角关系与不同视角关系各自的深度度量,旷视研究院团队设计了一个具有两个分支的网络,它们将输入图像映射到两个特征空间。进一步,系统会在每个特征空间内部分别计算样本对特征的欧氏距离。我们首先通过对比常用的基于 triplet loss 损失函数的度量学习 baseline 来说明我们的度量学习方法。
度量学习 baseline
研究人员使用常用的 trplet loss 构建了度量学习 baseline。D 为特征之间的欧氏距离,P = (x\_i, x\_j)为样本对,D(P)计算了样本对的欧氏距离;进一步,P^+\- 分别代表正样本对、负样本对,于是 triplet loss 损失函数定义如下:
它虽然能够缩小同类型样本距离,扩大非同类样本距离,但如图 1(c)可见,由于观察视角可能会存在很大的变化,所以 baseline 无法在 D-view pos 和 S-view neg 同时存在的情况下准确区分出 D-view 正样本对。
具备视角感知力的度量学习方法
图 1(c)证明了常用的度量学习方法(即单独一种计算相似度的度量)无法在 D-view pos 和 S-view neg 同时存在的情况下准确区分出 D-view pos 。因此旷视研究院团队转换思路,提出一种具备视角感知力的度量学习方法,该方法可以根据样本对视角为 S-view 和 D-view 的两种关系,分别学习两个独立的深度度量。为此,研究人员使用两个特征映射函数 f\_s、f\_d,将输入图像映射到两个不同的特征空间中,命名为 S-view 和 D-view 特征空间。然后,计算在两空间中每一对样本的距离。
研究人员发现对于学习具备视角感知力的度量来说,有两种约束十分重要,即空间内约束(within-space constraint)和跨空间约束(cross-space constraint)。空间内约束力图保证在两个空间各自内 D(P^+)总是小于D(P^-);而跨空间约束则力图保证当两个样本对分别在不同空间中时,D(P^+)也总是小于D(P^-)。
网络架构
结合了两种度量学习的 VANet 网络架构如图 3 所示。
图 3:VANet 架构
首先,VANet 网络需要识别输入图像对之间的视角关系(即是相似视角还是不同视角)。为此,网络首先使用了一个视角分类器来预测每张图像的的绝对视角(如:前、后、侧),从而判断图像对的视角关系是“相似”还是“不同”。如果两幅图的视角被认为是相同或类似,那么就将其归入相似视角(S-view)样本对范围内,不同视角同理。
随后,VANet 将图像输入一系列名为共享卷积(shared conv)的卷积层,输出的特征会附接到两个卷积网络分支。这两个网络分支结构相同,但不分享任何参数。每个分支都能被认为是一个独立提取特征的函数,分别对应之前提到的 f\_s、f\_d 两个函数,将图像分别映射到两个特征空间,即 S-view 特征空间(对应到图 3 上分支)和 D-view 特征空间(对应到图 3 下分支)。
对每张图而言,VANet 都会在两个不同的特征空间输出一个特征。在训练期间,给定一个由 N 张输入图像组成的 mini-batch,VANet 会同时生成其在 S-view 和 D-view 特征空间的两个距离矩阵。每个距离矩阵都由 N * N 个距离值组成。对于一个本来是 D-view 关系的样本对而言,VANet 仍然会在 S-view 特征空间计算其距离,即 D\_s(P\_d);对 S-view 同理。
接下来,在两个特征空间中,依据一开始视角关系分类器的结果,那些属于该视角关系的距离就会被绿色(红色)标注出来,通过 triplet 损失函数来学习该空间下的度量。如在 S-view 特征空间内(图 3 上分支),只有相似视角的样本对距离(绿色)贡献到损失函数中,不同视角的样本对距离(灰色)则不考虑。在两个特征空间中分别施加空间内约束后,VANet 会将这些对应的距离值(绿色、红色)整合为另一个距离矩阵。在这个矩阵中,绿色(红色)分别对应 S-view(D-view)距离矩阵里的距离值。据此整合后的距离矩阵,VANet 会根据所有红色和绿色距离值通过 triplet 损失函数施加跨空间约束。
在测试期间,给定一张查询图像,VANet 会用库中图像来对其进行特定视角关系下的对比。具体来说,即如果查询图像与库中图像被认为来自 S-view,那么就在 S-view 特征空间中计算其之间的距离 D\_s(P\_s),D-view 同理。
实验
===============
研究人员在两个公开的车辆重识别基准数据集(VehicleID、Veri-776)上进行了车辆重识别实验。
在 VehicleI 上的性能见表 4;在 Veri-776 上的性能见表 5,可以发现 VANet 的性能显著优于当下同类领先模型,并相对于 baseline 方法有较大提升。
表 4:在 VehicleID上的对比,“+”代表在模型训练过程中利用了外部数据的方法
表 5:在 Veri-776 上的对比
结论
===============
本文提出一个车辆重识别网络 VANet,它能够学习具有视觉感知力的深度度量。VANet 将车辆重识别分为两个场景,即相似视角(S-view,简单场景)和不同视角(D-view,困难场景)。相应的,VANet 分别学习了两种深度度量——S-view 度量和 D-view 度量。通过执行空间内约束与跨空间约束,VANet 可以改进重识别精度,并可以在相似视角图像干扰下检索不同视角的图像。实验结果证明 VANet 显著提高了车辆重识别精度,与已有方法对比实现了当前最佳性能。
参考文献
=================
- M Saquib Sarfraz, Arne Schumann, Andreas Eberle, and Rainer Stiefelhagen. A pose-sensitive embedding for person re-identification with expanded cross neighborhood reranking.
- In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018.
- Yan Bai, Yihang Lou, Feng Gao, Shiqi Wang, Yuwei Wu, and Ling-Yu Duan. Group-sensitive triplet embedding for vehicle reidentification. IEEE Transactions on Multimedia, 2018.
- Haiyun Guo, Chaoyang Zhao, Zhiwei Liu, Jinqiao Wang, and Hanqing Lu. Learning coarse-to-fine structured feature embedding for vehicle re-identification. In Thirty-Second AAAI Conference on Artificial Intelligence, 2018.
- Jinxian Liu, Bingbing Ni, Yichao Yan, Peng Zhou, Shuo Cheng, and Jianguo Hu. Pose transferrable person reidentification. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018.
专栏文章推荐
欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果
加入旷视:career@megvii.com