小凡 · 2020年06月28日

CVPR 2020 oral 首次提出VPSnet用于分割界新问题-视频全景分割

首发:3D视觉工坊微信公众号
作者:Tom Hardy

论文题目:Video Panoptic Segmentation
论文下载:http://openaccess.thecvf.com/content\_CVPR\_2020/papers/Kim\_Video\_Panoptic\_Segmentation\_CVPR\_2020\_paper.pdf
代码下载:https://github.com/mcahny/vps

简介:

全景分割包含了以往的语义分割和实例分割任务,从而成为视觉识别任务的新标准。在本文中,我们提出并探索了一种新的视频扩展任务,称为视频全景分割。该任务要求生成全景分割以及跨视频帧的实例类别ID。提出了一种新的视频全景分割网络(VPSNet),它可以联合预测视频帧中的对象类、边界框、掩码、实例id跟踪和语义分割。本文将图像领域的全景分割扩展到视频领域。与图像全景分割不同,这个新问题的目标是同时预测对象类别、边界框、掩模、实例ID和语义分割,同时为视频中的每个像素分配唯一的类别。下图展示了针对这个问题的GT注释的示例视频序列。视频全景分割,这项新任务为自动驾驶、增强现实和视频编辑等需要视频分割全局视角的应用提供了依据。

640.png

本文的主要贡献如下:

1. 根据以往的工作来看,这是第一次正式定义和探索视频全景分割。

2. 通过重新改造VIPER数据集和基于Cityscapes创建新的视频全景标签来构建第一个VPS数据集,而且两个数据集是互补的。

3. 提出了一种新的VPSNet,它在Cityscapes和VIPER上达到了最先进的图像全景质量(PQ),并与我们的新数据集上的几个基准进行了比较。

4. 提出了一个视频全景质量(VPQ)度量预测和GT全景分割掩模的时空一致性。通过VPQ评估验证了该方法的有效性。

定义问题:

视频全景割的目标是精确定位整个视频的所有语义和实例边界,并为这些分割的视频管分配正确的标签。

评价指标:

在数据集层面,收集所有预测视频的切片级IoU、|TP|、|FP|和|FN|值。然后,根据每个类计算数据级别的VPQ度量,并在所有类中求平均值:

640-1.png

语义或实例标签预测的任何跨帧的不一致性将导致很低的管IoU(一个视频序列中的),并可能从TP集中失去匹配,如图下所示。
640-2.png

不同的k值可以使现有的图像PQ评估平滑地过渡到视频,从而推动图像到视频的进一步技术发展,使这一前沿领域实现质的飞跃。

DatasetCollection

RevisitingVIPER dataset

Cityscapes-VPS

640-3.png

新数据集cityscpes-vps不仅是视频全景分割的第一个基准,而且也是其他视觉任务如视频实例分割和视频语义分割的有效基准; 在上表中展示了一些重新定义VIPER和新Cityscapes-vps的统计数据,以及相关数据集。

方法:

VPSNet在两个级别使用视频上下文: 像素级和目标级。第一种是利用相邻的框架特征作为下游的多任务分支,第二种是针对跟踪的模跨框架实例关联。特征融合和目标跟踪模块并不是孤立的新模块,而是首次将两者联合用于视频全景分割的任务。将它们分别称为融合和跟踪模块。整个模型架构如下图所示。

640-4.png

Baseline

选择UPSNet,采用Mask R-CNN和变形卷积为实例和语义分割分支,将这两个分支结合起来即为全景分割。

像素级融合:

其主要思想是利用视频上下文信息,通过时域有限元法来改进帧特征融合。

目标级跟踪:

MaskTrack是为静态图像设计的,只利用外观特征,在训练期间不使用任何视频特征。为了解决这个问题,我们结合了跟踪分支和时间融合模块。因此,从站内跟踪的角度来看,我们的VPSNet在像素级和对象级上同步它。像素级模块对实例的局部特征进行对齐,在参考帧和目标帧之间进行传输,而对象级模块则侧重于通过对时间变化的感兴趣区域特征的相似性函数来区分目标实例和其他参考对象。

实验结果:

640-5.png

以现有的全景质量(PQ)、识别质量(RQ)和分割质量(SQ)来评估该方法。结果见上表,为在两个数据集上的表现,结果显示优于现有的方法。

视频全光分割结果VIPER 和Cityscapes-VPS,如下图所示。所有的模型是VPSNet的变种。每个单元格包含VPQ / VPQ Th / VPQ St分数。

640-6.png

VPSNet对VIPER和cityscpes - vps的分割结果如下:

640-7.png

结论:

本文提出了一种基于两类相关数据集的视频全景分段传输任务。第一种是将合成的VIPER数据集转换成我们的VPS格式,它可以提供最大数量和高质量的全景注释。第二步是创建一个新的视频全景分割基准——Cityscape-vps,它扩展了图像级Cityscapes数据集。将时间特征融合模块和目标跟踪分支与单帧全景分割网络相结合,提出了一种新的算法VPSNet。最后,提出一种视频全景质量评估方法,为这项任务的早期探索提供依据。

本文仅做学术分享,如有侵权,请联系删文。

推荐阅读


重点介绍:1、3D视觉算法;2、vslam算法;3、图像处理;4、深度学习;5、自动驾驶;6、技术干货。 博主及合伙人分别来国内自知名大厂、海康研究院,深研3D视觉、深度学习、图像处理、自动驾驶、目标检测、VSLAM算法等领域。
欢迎关注微信公众号
3D与Slam 二维码 极术.jpg
推荐阅读
关注数
1100
内容数
100
专注于3D视觉,Vslam,图像处理等,欢迎关注
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息