IEEE国际计算机视觉与模式识别会议 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 大会官方论文结果公布,旷视研究院 16 篇论文被收录(其中含 6篇 Oral 论文),研究领域涵盖物体检测与行人再识别(尤其是遮挡场景),人脸识别,文字检测与识别,实时视频感知与推理,小样本学习,迁移学习,3D感知,GAN与图像生成,计算机图形学,语义分割,细粒度图像,对抗样本攻击等众多领域,取得多项领先的技术研究成果,这与已开放/开源的旷视AI生产力平台Brain++密不可分。
本文是旷视CVPR2020论文系列解读第12篇,首次研究了在没有ground truth的情况下如何自优化跟踪算法的参数,并提出一种新颖的自我质量评估指标SQE,它反映了假设轨迹的内部特征,可以不依赖于ground truth测量跟踪性能。MOT16数据集上的实验证明本文方法与现有指标存在正相关关系,并可有效指导参数自优化,以提升跟踪性能。这一结论和方法对于实际中的多目标跟踪研究具有指导意义。
- 论文名称:SQE: a Self Quality Evaluation Metric for Parameters Optimization in Multi-Object Tracking
- 论文链接:https://arxiv.org/abs/2004.07...
目录
- 导语
- 简介
- 自动评估追踪器性能
- 设计准则
- 特征距离分布
- 实践验证
- 指标
- 实验
- 结论
- 参考文献
- 往期解读
导语
==========
多目标追踪任务(Multi-Object Tracking,MOT)旨在追踪一段视频序列中那些人们感兴趣的物体,它是自动驾驶、视频分析等落地应用的支撑技术,因为这些场景要求系统有能力同时追踪多个车辆或行人。
近年来,基于检测的追踪技术成为了MOT的主要实现方式,它可以检测每一帧中的物体,提取有区分力的特征,量化目标间的相似性,并在最后进行数据关联,把被检测物体分配到最可能的轨迹上。
该技术需要手动设置多个重要参数。为找到最优参数,需要有一个评估追踪性能的机制。但是现有指标,比如基于追踪框的指标MOTA、MOTP等,和基于轨迹精度的指标IDF1等,皆依赖ground truth的标签信息,造成优化过程受限于训练数据集。
实际场景中,训练集上优化的参数可能是次优的,通常难以得到ground truth以进一步优化;如果一个算法可以不根据ground truth评测MOT性能,优化MOT参数,提升追踪器的精度和鲁棒性,无疑是价值非凡。
简介
为此,旷视研究院设计了可自动评估追踪器性能的新指标——SQE,它可综合考量轨迹假设的数量和长度,以及非常有助于评估跟踪轨迹的一致性的特征距离信息。
如图1所示,类内距离是指同一轨迹上两个检测框之间的特征距离,类内距离分布由轨迹上所有检测框对的类内距离构成;类似地,类间距离是指不同轨迹上两个检测框之间的的特征距离。从直觉上看,如果一个轨迹包含不同目标,其距离分布会比较分散,存在多个波峰。
SQE有助于参数自调优,以适应不同场景。众所周知,一个追踪算法胜任多种视频场景十分困难,但是,通过调节现有算法参数提升追踪性能,有望成为一种更简便且可行的方法。据知,本文的MOT研究具有独创性,尚未有类似的前人工作。
自动评估追踪器性能
=================
SQE的设计准则符合一个理想的追踪器应有的特性。理论与实际结果均表明,一个高质量的轨迹会在特征距离分布上呈现出单个波峰的模式。
设计准则
一个理想的MOT追踪器,应满足以下标准:
1)从每个物体进入追踪画面到离开,追踪器可以实现连续追踪;
2)每个物体的追踪应当一致,即由始至终每个目标应有且仅有一个追踪ID;
3)追踪器应尽可能精确定位每个物体的位置。
对于SQE设计而言,1)表明,追踪器应尽可能完整地追踪全部目标,因此轨迹假设的数量和长度需适当;2)表明,好的追踪器要求同一条轨迹假设上的REID特征尽可能相似,不同轨迹假设上的REID特征则尽可能不同。这可由轨迹的类内与类间距离来描述。本文用两个特征f和g的欧氏距离进行度量,写为:
由上可知,SQE指标需要综合轨迹的数量、长度和特征距离信息进行评估。另外,考虑到目标识别质量与特征距离绝对值之间的关系建立比较困难,分析特征距离分布成了一个更合理的方案。
特征距离分布
对物体表示而言,低质量的输入会导致不确定的估计,从而计算出的REID特征会在理想值周围波动。为此,本文把特征分布建模为一个多元高斯分布:
z是一个N维的特征向量,每个维度均遵循一个独立的高斯分布,其中均值表示REID特征的理想值,方差表示波动的不确定性。进一步,本文把一对特征(Z\_i,Z\_j)的欧氏距离写为:
根据独立高斯随机变量的性质,则有:
如果(Z\_i,Z\_j)来自相同目标,则 标准化后的特征距离服从自由度为N的卡分布:
如果(Z\_i,Z\_j)来自不同目标,则有:
因此,理想轨迹假设的类内与类间距离会呈现单波峰模式。
进一步,本文考察了ID发生切换的低质量轨迹。比如,在一条轨迹中追踪到不同目标A和B,或者,在两条轨迹中追踪到同一目标。为方便分析,假设每个目标和特征维度的方差相同,则特征对(Z\_{A\_i}, Z\_{B\_j})间的距离服从一个非中心卡分布。
同时,每个目标各自特征对的距离服从中心卡分布,则最终的特征距离分布实际上是中心卡分布与非中心卡分布之和,导致出现两个波峰。由此推断,ID不一致的低质量轨迹将会在类内与类间距离分布上呈现多个波峰。
实践验证
在MOT16数据集上,本文实际验证了上述分析。如图3所示,高质量轨迹ID 0可以一致地追踪同一个行人,且与ID 1不存在目标重叠,这两种轨迹的类内与类间特征距离分布呈现单个波峰;相反,低质量轨迹ID 9发生了ID切换,ID 3和ID 220对应了同一行人,这两种欠佳的轨迹在类内与类间特征距离分布上呈现多个波峰。
对于上述高斯分布基本假设的有效性,以及考虑实际可能出现的反例现象,本文通过多个实验分析发现,最终的特征距离会受到部分不理想因素的干扰,无法服从理论上的卡分布,但是不同质量的轨迹依然保持明显的单个或多个波峰的模式,且错误识别的帧数越多,出现的两个波峰越明显,波峰间隔也更大。
指标
基于上述标准和对距离分布的分析,本文提出了SQE指标,写为:
该评估过程如算法1所示,主要分为4个步骤:
- 把轨迹短、标准差大的轨迹标为虚警,记作f\_p进行累加;
- 对于其他轨迹,使用一个两类高斯混合模型拟合类内距离,并根据均值差判断是否属于低质量轨迹。如果均值差超过特定阈值,则认为该轨迹包含不止一个目标,记作差别错误dif进行累加;
- 类似地处理任意两条非虚警轨迹的类间距离。如果均值差较大,则认为匹配了相同的目标,记作相似错误sim进行累加;
- 同时也考虑其他内部特征,比如轨迹假设的数量与平均长度。
算法1:SQE指标的算法流程
实验
==========
为展示SQE指标在评估追踪性能上的优越性,本文在MOT16-02数据集训练视频上,将其与现有监督式指标做了对比。如图4所示,随着REID阈值增加,SQE和IDF1的变化类似,均先增加,然后下降,在REID阈值为0.8时最高,这时IDP、IDR、MOTA均相对较高。
这说明SQE可与IDF1呈现理想的正相关关系,而IDF1一般来说又是衡量轨迹精度的最佳指标。
进一步,本文分析了MOT16-09的结果,与MOT16-02相比,该场景人流密度低,更简单,轨迹数量最少,拍摄角度也更低,结果如图5所示。可见,本文方法能泛化至不同的视角和场景。
表1总结了分别根据IDF1和SQE所确定的最优REID阈值,并记录了在这些参数下的评估分数。可见,SQE可以近似量化追踪性能。具体而言,85%的最优参数差异不超过0.25,85%的参数对应的IDF1差异不会超过3。
另外,在其它通用追踪算法上(比如:Deep SORT)的测试结果表明,本文方法具有很好的鲁棒性和泛化性;同样,在其它参数(merge阈值)上的实验也证明本文方法在参数上的泛化能力。
最后,为验证SQE有助于参数自优化,提升追踪性能,在MOT16测试集和KITTI数据集上进行了实验,同样证实了本文方法的实际意义。
结论
==========
SQE指标可在不依靠ground truth的情况下实现参数自优化。考虑到通过设计算法实现多场景下的MOT任务十分困难,从而提出让参数自动适应不同场景的新思路。
观察到不同质量的轨迹在特征距离分布上会有不同的形式(单个或多个波峰),旷视研究院使用一个两类高斯混合模型来估计识别的误差。
MOT16数据集实验结果证明,SQE既可有效关联现有指标,也可自动优化参数,实现更佳的追踪性能;SQE还为MOT研究提供了一个兼具研究和应用价值的全新方向。
参考文献
- Anton Andriyenko, Konrad Schindler, and Stefan Roth. Discrete-continuous optimization for multi-target tracking. In 2012 IEEE Conference on Computer Vision and Pattern Recognition, pages 1926–1933. IEEE, 2012.
- KeniBernardinandRainerStiefelhagen.Evaluatingmultiple object tracking performance: the clear mot metrics. Journal on Image and Video Processing, 2008:1, 2008.
- Weitao Feng, Zhihao Hu, Wei Wu, Junjie Yan, and Wanli Ouyang. Multi-object tracking with multiple cues and switcher-aware classification. arXiv preprint arXiv:1901.06129, 2019.
- ErgysRistani,FrancescoSolera,RogerZou,RitaCucchiara, and Carlo Tomasi. Performance measures and a data set for multi-target,multi-cameratracking.InEuropeanConference on Computer Vision, pages 17–35. Springer, 2016.
- Samuel Schulter, Paul Vernaza, Wongun Choi, and Manmohan Chandraker. Deep network flow for multi-object tracking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6951–6960, 2017.
- Nicolai Wojke, Alex Bewley, and Dietrich Paulus. Simple online and realtime tracking with a deep association metric. In2017IEEEInternationalConferenceonImageProcessing (ICIP), pages 3645–3649. IEEE, 2017.
- Young-Chul Yoon, Du Yong Kim, Kwangjin Yoon, Youngmin Song, and Moongu Jeon. Online multiple pedestrian tracking using deep temporal appearance matching association. arXiv preprint arXiv:1907.00831, 2019.
- Jimuyang Zhang, Sanping Zhou, Jinjun Wang, and Dong Huang. Frame-wise motion and appearance for real-time multiple object tracking. arXiv preprint arXiv:1905.02292, 2019.
专栏文章推荐
- CVPR 2020 Oral | 旷视研究院提出注意力归一化AN,优化图像生成任务性能
- 深度解析MegEngine亚线性显存优化技术
- CVPR 2020 | 旷视研究院提出数据不确定性算法 DUL,优化人脸识别性能
- CVPR 2020 | 旷视研究院提出UnrealText,从3D虚拟世界合成逼真的文字图像
欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果
加入旷视:career@megvii.com