CVPR 2020 | 旷视研究院提出SQE：多场景MOT参数自优化度量指标 - 极术社区

IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布，旷视研究院 16 篇论文被收录（其中含 6篇 Oral 论文），研究领域涵盖物体检测与行人再识别（尤其是遮挡场景），人脸识别，文字检测与识别，实时视频感知与推理，小样本学习，迁移学习，3D感知，GAN与图像生成，计算机图形学，语义分割，细粒度图像，对抗样本攻击等众多领域，取得多项领先的技术研究成果，这与已开放/开源的旷视AI生产力平台Brain++密不可分。

本文是旷视CVPR2020论文系列解读第12篇，首次研究了在没有ground truth的情况下如何自优化跟踪算法的参数，并提出一种新颖的自我质量评估指标SQE，它反映了假设轨迹的内部特征，可以不依赖于ground truth测量跟踪性能。MOT16数据集上的实验证明本文方法与现有指标存在正相关关系，并可有效指导参数自优化，以提升跟踪性能。这一结论和方法对于实际中的多目标跟踪研究具有指导意义。

论文名称：SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking
论文链接：https://arxiv.org/abs/2004.07...

导语
简介
自动评估追踪器性能
设计准则
特征距离分布
实践验证
指标
实验
结论
参考文献
往期解读

导语

==========

多目标追踪任务（Multi-Object Tracking，MOT）旨在追踪一段视频序列中那些人们感兴趣的物体，它是自动驾驶、视频分析等落地应用的支撑技术，因为这些场景要求系统有能力同时追踪多个车辆或行人。

近年来，基于检测的追踪技术成为了MOT的主要实现方式，它可以检测每一帧中的物体，提取有区分力的特征，量化目标间的相似性，并在最后进行数据关联，把被检测物体分配到最可能的轨迹上。

该技术需要手动设置多个重要参数。为找到最优参数，需要有一个评估追踪性能的机制。但是现有指标，比如基于追踪框的指标MOTA、MOTP等，和基于轨迹精度的指标IDF1等，皆依赖ground truth的标签信息，造成优化过程受限于训练数据集。

实际场景中，训练集上优化的参数可能是次优的，通常难以得到ground truth以进一步优化；如果一个算法可以不根据ground truth评测MOT性能，优化MOT参数，提升追踪器的精度和鲁棒性，无疑是价值非凡。

简介

为此，旷视研究院设计了可自动评估追踪器性能的新指标——SQE，它可综合考量轨迹假设的数量和长度，以及非常有助于评估跟踪轨迹的一致性的特征距离信息。

如图1所示，类内距离是指同一轨迹上两个检测框之间的特征距离，类内距离分布由轨迹上所有检测框对的类内距离构成；类似地，类间距离是指不同轨迹上两个检测框之间的的特征距离。从直觉上看，如果一个轨迹包含不同目标，其距离分布会比较分散，存在多个波峰。

SQE有助于参数自调优，以适应不同场景。众所周知，一个追踪算法胜任多种视频场景十分困难，但是，通过调节现有算法参数提升追踪性能，有望成为一种更简便且可行的方法。据知，本文的MOT研究具有独创性，尚未有类似的前人工作。

自动评估追踪器性能

=================

SQE的设计准则符合一个理想的追踪器应有的特性。理论与实际结果均表明，一个高质量的轨迹会在特征距离分布上呈现出单个波峰的模式。

设计准则

一个理想的MOT追踪器，应满足以下标准：

1）从每个物体进入追踪画面到离开，追踪器可以实现连续追踪；

2）每个物体的追踪应当一致，即由始至终每个目标应有且仅有一个追踪ID；

3）追踪器应尽可能精确定位每个物体的位置。

对于SQE设计而言，1）表明，追踪器应尽可能完整地追踪全部目标，因此轨迹假设的数量和长度需适当；2）表明，好的追踪器要求同一条轨迹假设上的REID特征尽可能相似，不同轨迹假设上的REID特征则尽可能不同。这可由轨迹的类内与类间距离来描述。本文用两个特征f和g的欧氏距离进行度量，写为：

由上可知，SQE指标需要综合轨迹的数量、长度和特征距离信息进行评估。另外，考虑到目标识别质量与特征距离绝对值之间的关系建立比较困难，分析特征距离分布成了一个更合理的方案。

特征距离分布

对物体表示而言，低质量的输入会导致不确定的估计，从而计算出的REID特征会在理想值周围波动。为此，本文把特征分布建模为一个多元高斯分布：

z是一个N维的特征向量，每个维度均遵循一个独立的高斯分布，其中均值表示REID特征的理想值，方差表示波动的不确定性。进一步，本文把一对特征（Z\_i，Z\_j）的欧氏距离写为：

根据独立高斯随机变量的性质，则有：

如果（Z\_i，Z\_j）来自相同目标，则标准化后的特征距离服从自由度为N的卡分布：

如果（Z\_i，Z\_j）来自不同目标，则有：

因此，理想轨迹假设的类内与类间距离会呈现单波峰模式。

进一步，本文考察了ID发生切换的低质量轨迹。比如，在一条轨迹中追踪到不同目标A和B，或者，在两条轨迹中追踪到同一目标。为方便分析，假设每个目标和特征维度的方差相同，则特征对（Z\_{A\_i}, Z\_{B\_j}）间的距离服从一个非中心卡分布。

同时，每个目标各自特征对的距离服从中心卡分布，则最终的特征距离分布实际上是中心卡分布与非中心卡分布之和，导致出现两个波峰。由此推断，ID不一致的低质量轨迹将会在类内与类间距离分布上呈现多个波峰。

实践验证

在MOT16数据集上，本文实际验证了上述分析。如图3所示，高质量轨迹ID 0可以一致地追踪同一个行人，且与ID 1不存在目标重叠，这两种轨迹的类内与类间特征距离分布呈现单个波峰；相反，低质量轨迹ID 9发生了ID切换，ID 3和ID 220对应了同一行人，这两种欠佳的轨迹在类内与类间特征距离分布上呈现多个波峰。

对于上述高斯分布基本假设的有效性，以及考虑实际可能出现的反例现象，本文通过多个实验分析发现，最终的特征距离会受到部分不理想因素的干扰，无法服从理论上的卡分布，但是不同质量的轨迹依然保持明显的单个或多个波峰的模式，且错误识别的帧数越多，出现的两个波峰越明显，波峰间隔也更大。

指标

基于上述标准和对距离分布的分析，本文提出了SQE指标，写为：

该评估过程如算法1所示，主要分为4个步骤：

把轨迹短、标准差大的轨迹标为虚警，记作f\_p进行累加；
对于其他轨迹，使用一个两类高斯混合模型拟合类内距离，并根据均值差判断是否属于低质量轨迹。如果均值差超过特定阈值，则认为该轨迹包含不止一个目标，记作差别错误dif进行累加；
类似地处理任意两条非虚警轨迹的类间距离。如果均值差较大，则认为匹配了相同的目标，记作相似错误sim进行累加；
同时也考虑其他内部特征，比如轨迹假设的数量与平均长度。

算法1：SQE指标的算法流程

实验

==========

为展示SQE指标在评估追踪性能上的优越性，本文在MOT16-02数据集训练视频上，将其与现有监督式指标做了对比。如图4所示，随着REID阈值增加，SQE和IDF1的变化类似，均先增加，然后下降，在REID阈值为0.8时最高，这时IDP、IDR、MOTA均相对较高。

这说明SQE可与IDF1呈现理想的正相关关系，而IDF1一般来说又是衡量轨迹精度的最佳指标。

进一步，本文分析了MOT16-09的结果，与MOT16-02相比，该场景人流密度低，更简单，轨迹数量最少，拍摄角度也更低，结果如图5所示。可见，本文方法能泛化至不同的视角和场景。

表1总结了分别根据IDF1和SQE所确定的最优REID阈值，并记录了在这些参数下的评估分数。可见，SQE可以近似量化追踪性能。具体而言，85%的最优参数差异不超过0.25，85%的参数对应的IDF1差异不会超过3。

另外，在其它通用追踪算法上(比如：Deep SORT)的测试结果表明，本文方法具有很好的鲁棒性和泛化性；同样，在其它参数（merge阈值）上的实验也证明本文方法在参数上的泛化能力。

最后，为验证SQE有助于参数自优化，提升追踪性能，在MOT16测试集和KITTI数据集上进行了实验，同样证实了本文方法的实际意义。

结论

==========

SQE指标可在不依靠ground truth的情况下实现参数自优化。考虑到通过设计算法实现多场景下的MOT任务十分困难，从而提出让参数自动适应不同场景的新思路。

观察到不同质量的轨迹在特征距离分布上会有不同的形式（单个或多个波峰），旷视研究院使用一个两类高斯混合模型来估计识别的误差。

MOT16数据集实验结果证明，SQE既可有效关联现有指标，也可自动优化参数，实现更佳的追踪性能；SQE还为MOT研究提供了一个兼具研究和应用价值的全新方向。

参考文献

Anton Andriyenko, Konrad Schindler, and Stefan Roth. Discrete-continuous optimization for multi-target tracking. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1926–1933. IEEE, 2012.
KeniBernardinandRainerStiefelhagen.Evaluatingmultiple object tracking performance: the clear mot metrics. Journal on Image and Video Processing, 2008:1, 2008.
Weitao Feng, Zhihao Hu, Wei Wu, Junjie Yan, and Wanli Ouyang. Multi-object tracking with multiple cues and switcher-aware classiﬁcation. arXiv preprint arXiv:1901.06129, 2019.
ErgysRistani,FrancescoSolera,RogerZou,RitaCucchiara, and Carlo Tomasi. Performance measures and a data set for multi-target,multi-cameratracking.InEuropeanConference on Computer Vision, pages 17–35. Springer, 2016.
Samuel Schulter, Paul Vernaza, Wongun Choi, and Manmohan Chandraker. Deep network ﬂow for multi-object tracking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6951–6960, 2017.
Nicolai Wojke, Alex Bewley, and Dietrich Paulus. Simple online and realtime tracking with a deep association metric. In2017IEEEInternationalConferenceonImageProcessing (ICIP), pages 3645–3649. IEEE, 2017.
Young-Chul Yoon, Du Yong Kim, Kwangjin Yoon, Youngmin Song, and Moongu Jeon. Online multiple pedestrian tracking using deep temporal appearance matching association. arXiv preprint arXiv:1907.00831, 2019.
Jimuyang Zhang, Sanping Zhou, Jinjun Wang, and Dong Huang. Frame-wise motion and appearance for real-time multiple object tracking. arXiv preprint arXiv:1905.02292, 2019.

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果
加入旷视：career@megvii.com

CVPR 2020 | 旷视研究院提出SQE：多场景MOT参数自优化度量指标

推荐阅读

目录