旷视研究院 · 2020年05月25日

CVPR 2020 | 旷视研究院提出SQE:多场景MOT参数自优化度量指标

640.gif

IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布,旷视研究院 16 篇论文被收录(其中含 6篇 Oral 论文),研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像,对抗样本攻击等众多领域,取得多项领先的技术研究成果,这与已开放/开源的旷视AI生产力平台Brain++密不可分。

本文是旷视CVPR2020论文系列解读第12篇,首次研究了在没有ground truth的情况下如何自优化跟踪算法的参数,并提出一种新颖的自我质量评估指标SQE,它反映了假设轨迹的内部特征,可以不依赖于ground truth测量跟踪性能。MOT16数据集上的实验证明本文方法与现有指标存在正相关关系,并可有效指导参数自优化,以提升跟踪性能。这一结论和方法对于实际中的多目标跟踪研究具有指导意义。

image.png

目录

  • 导语
  • 简介
  • 自动评估追踪器性能
  • 设计准则
  • 特征距离分布
  • 实践验证
  • 指标
  • 实验
  • 结论
  • 参考文献
  • 往期解读 

导语

==========

多目标追踪任务(Multi-Object Tracking,MOT)旨在追踪一段视频序列中那些人们感兴趣的物体,它是自动驾驶、视频分析等落地应用的支撑技术,因为这些场景要求系统有能力同时追踪多个车辆或行人。

近年来,基于检测的追踪技术成为了MOT的主要实现方式,它可以检测每一帧中的物体,提取有区分力的特征,量化目标间的相似性,并在最后进行数据关联,把被检测物体分配到最可能的轨迹上。

该技术需要手动设置多个重要参数。为找到最优参数,需要有一个评估追踪性能的机制。但是现有指标,比如基于追踪框的指标MOTA、MOTP等,和基于轨迹精度的指标IDF1等,皆依赖ground truth的标签信息,造成优化过程受限于训练数据集。

实际场景中,训练集上优化的参数可能是次优的,通常难以得到ground truth以进一步优化;如果一个算法可以不根据ground truth评测MOT性能,优化MOT参数,提升追踪器的精度和鲁棒性,无疑是价值非凡。

简介

为此,旷视研究院设计了可自动评估追踪器性能的新指标——SQE,它可综合考量轨迹假设的数量和长度,以及非常有助于评估跟踪轨迹的一致性的特征距离信息。

image.png

如图1所示,类内距离是指同一轨迹上两个检测框之间的特征距离,类内距离分布由轨迹上所有检测框对的类内距离构成;类似地,类间距离是指不同轨迹上两个检测框之间的的特征距离。从直觉上看,如果一个轨迹包含不同目标,其距离分布会比较分散,存在多个波峰。

SQE有助于参数自调优,以适应不同场景。众所周知,一个追踪算法胜任多种视频场景十分困难,但是,通过调节现有算法参数提升追踪性能,有望成为一种更简便且可行的方法。据知,本文的MOT研究具有独创性,尚未有类似的前人工作。

自动评估追踪器性能

=================

SQE的设计准则符合一个理想的追踪器应有的特性。理论与实际结果均表明,一个高质量的轨迹会在特征距离分布上呈现出单个波峰的模式。

设计准则


一个理想的MOT追踪器,应满足以下标准:

1)从每个物体进入追踪画面到离开,追踪器可以实现连续追踪;

2)每个物体的追踪应当一致,即由始至终每个目标应有且仅有一个追踪ID;

3)追踪器应尽可能精确定位每个物体的位置。

对于SQE设计而言,1)表明,追踪器应尽可能完整地追踪全部目标,因此轨迹假设的数量和长度需适当;2)表明,好的追踪器要求同一条轨迹假设上的REID特征尽可能相似,不同轨迹假设上的REID特征则尽可能不同。这可由轨迹的类内与类间距离来描述。本文用两个特征f和g的欧氏距离进行度量,写为:

image.png

由上可知,SQE指标需要综合轨迹的数量、长度和特征距离信息进行评估。另外,考虑到目标识别质量与特征距离绝对值之间的关系建立比较困难,分析特征距离分布成了一个更合理的方案。 

特征距离分布


对物体表示而言,低质量的输入会导致不确定的估计,从而计算出的REID特征会在理想值周围波动。为此,本文把特征分布建模为一个多元高斯分布:

image.png

z是一个N维的特征向量,每个维度均遵循一个独立的高斯分布,其中均值表示REID特征的理想值,方差表示波动的不确定性。进一步,本文把一对特征(Z\_i,Z\_j)的欧氏距离写为:

image.png

根据独立高斯随机变量的性质,则有:

image.png

如果(Z\_i,Z\_j)来自相同目标,则 image.png标准化后的特征距离服从自由度为N的卡分布:

image.png
如果(Z\_i,Z\_j)来自不同目标,则有:

image.png

因此,理想轨迹假设的类内与类间距离会呈现单波峰模式。

进一步,本文考察了ID发生切换的低质量轨迹。比如,在一条轨迹中追踪到不同目标A和B,或者,在两条轨迹中追踪到同一目标。为方便分析,假设每个目标和特征维度的方差相同,则特征对(Z\_{A\_i}, Z\_{B\_j})间的距离服从一个非中心卡分布。

同时,每个目标各自特征对的距离服从中心卡分布,则最终的特征距离分布实际上是中心卡分布与非中心卡分布之和,导致出现两个波峰。由此推断,ID不一致的低质量轨迹将会在类内与类间距离分布上呈现多个波峰。

实践验证


在MOT16数据集上,本文实际验证了上述分析。如图3所示,高质量轨迹ID 0可以一致地追踪同一个行人,且与ID 1不存在目标重叠,这两种轨迹的类内与类间特征距离分布呈现单个波峰;相反,低质量轨迹ID 9发生了ID切换,ID 3和ID 220对应了同一行人,这两种欠佳的轨迹在类内与类间特征距离分布上呈现多个波峰。

image.png

对于上述高斯分布基本假设的有效性,以及考虑实际可能出现的反例现象,本文通过多个实验分析发现,最终的特征距离会受到部分不理想因素的干扰,无法服从理论上的卡分布,但是不同质量的轨迹依然保持明显的单个或多个波峰的模式,且错误识别的帧数越多,出现的两个波峰越明显,波峰间隔也更大。

指标


基于上述标准和对距离分布的分析,本文提出了SQE指标,写为:

image.png

该评估过程如算法1所示,主要分为4个步骤:

  1. 把轨迹短、标准差大的轨迹标为虚警,记作f\_p进行累加;
  2. 对于其他轨迹,使用一个两类高斯混合模型拟合类内距离,并根据均值差判断是否属于低质量轨迹。如果均值差超过特定阈值,则认为该轨迹包含不止一个目标,记作差别错误dif进行累加;
  3. 类似地处理任意两条非虚警轨迹的类间距离。如果均值差较大,则认为匹配了相同的目标,记作相似错误sim进行累加;
  4. 同时也考虑其他内部特征,比如轨迹假设的数量与平均长度。

image.png

算法1:SQE指标的算法流程

实验

==========

为展示SQE指标在评估追踪性能上的优越性,本文在MOT16-02数据集训练视频上,将其与现有监督式指标做了对比。如图4所示,随着REID阈值增加,SQE和IDF1的变化类似,均先增加,然后下降,在REID阈值为0.8时最高,这时IDP、IDR、MOTA均相对较高。

这说明SQE可与IDF1呈现理想的正相关关系,而IDF1一般来说又是衡量轨迹精度的最佳指标。

image.png

进一步,本文分析了MOT16-09的结果,与MOT16-02相比,该场景人流密度低,更简单,轨迹数量最少,拍摄角度也更低,结果如图5所示。可见,本文方法能泛化至不同的视角和场景。

image.png

表1总结了分别根据IDF1和SQE所确定的最优REID阈值,并记录了在这些参数下的评估分数。可见,SQE可以近似量化追踪性能。具体而言,85%的最优参数差异不超过0.25,85%的参数对应的IDF1差异不会超过3。
image.png

另外,在其它通用追踪算法上(比如:Deep SORT)的测试结果表明,本文方法具有很好的鲁棒性和泛化性;同样,在其它参数(merge阈值)上的实验也证明本文方法在参数上的泛化能力。

最后,为验证SQE有助于参数自优化,提升追踪性能,在MOT16测试集和KITTI数据集上进行了实验,同样证实了本文方法的实际意义。

结论

==========

SQE指标可在不依靠ground truth的情况下实现参数自优化。考虑到通过设计算法实现多场景下的MOT任务十分困难,从而提出让参数自动适应不同场景的新思路。

观察到不同质量的轨迹在特征距离分布上会有不同的形式(单个或多个波峰),旷视研究院使用一个两类高斯混合模型来估计识别的误差。

MOT16数据集实验结果证明,SQE既可有效关联现有指标,也可自动优化参数,实现更佳的追踪性能;SQE还为MOT研究提供了一个兼具研究和应用价值的全新方向。

参考文献

  • Anton Andriyenko, Konrad Schindler, and Stefan Roth. Discrete-continuous optimization for multi-target tracking. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1926–1933. IEEE, 2012.
  • KeniBernardinandRainerStiefelhagen.Evaluatingmultiple object tracking performance: the clear mot metrics. Journal on Image and Video Processing, 2008:1, 2008. 
  • Weitao Feng, Zhihao Hu, Wei Wu, Junjie Yan, and Wanli Ouyang. Multi-object tracking with multiple cues and switcher-aware classification. arXiv preprint arXiv:1901.06129, 2019. 
  • ErgysRistani,FrancescoSolera,RogerZou,RitaCucchiara, and Carlo Tomasi. Performance measures and a data set for multi-target,multi-cameratracking.InEuropeanConference on Computer Vision, pages 17–35. Springer, 2016. 
  • Samuel Schulter, Paul Vernaza, Wongun Choi, and Manmohan Chandraker. Deep network flow for multi-object tracking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6951–6960, 2017.
  • Nicolai Wojke, Alex Bewley, and Dietrich Paulus. Simple online and realtime tracking with a deep association metric. In2017IEEEInternationalConferenceonImageProcessing (ICIP), pages 3645–3649. IEEE, 2017. 
  • Young-Chul Yoon, Du Yong Kim, Kwangjin Yoon, Youngmin Song, and Moongu Jeon. Online multiple pedestrian tracking using deep temporal appearance matching association. arXiv preprint arXiv:1907.00831, 2019. 
  •  Jimuyang Zhang, Sanping Zhou, Jinjun Wang, and Dong Huang. Frame-wise motion and appearance for real-time multiple object tracking. arXiv preprint arXiv:1905.02292, 2019. 



专栏文章推荐


欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果
加入旷视:career@megvii.com
推荐阅读
关注数
7696
内容数
164
专注旷视研究院学术论文解读推送,涵盖计算机视觉,文字识别等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息