A Generalist Framework for Panoptic Segmentation of Images and Videos

标题：A Generalist Framework for Panoptic Segmentation of Images and Videos

作者：Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet

原文链接：https://arxiv.org/pdf/2210.06366.pdf

2. 引言

首先回顾一下全景分割的设定。全景分割（PS，Panoptic Segmentation）的task format不同于经典的语义分割，它要求每个像素点都必须被分配给一个语义标签（stuff、things中的各个语义）和一个实例id。具有相同标签和id的像素点属于同一目标；对于stuff标签，不需要实例id。与实例分割相比，目标的分割必须是非重叠的（non-overlapping），因此对那些每个目标单独标注一个区域是不同的。虽然语义标签的类类别是先验固定的，但分配给图像中对象的实例 ID 可以在不影响识别的实例的情况下进行排列。因此，经过训练以预测实例 ID 的神经网络应该能够学习一对多映射，从单个图像到多个实例 ID 分配。一对多映射的学习具有挑战性，传统方法通常利用涉及对象检测、分割、合并多个预测的多个阶段的管道这有效地将一对多映射转换为基于识别匹配的一对一映射。这篇论文的作者将全景分割任务制定为条件离散数据生成问题，如下图所示。本文是大名鼎鼎的Hinton参与的工作，非常有意思，又是基于diffusion model模式的生成模型来完成全景分割，将mask其视为一组离散标记，以输入图像为条件，预测得到完整的分割信息。

全景分割的生成式建模非常具有挑战性，因为全景掩码是离散的，或者说是有类别的，并且模型可能非常大。例如，要生成 512×1024 的全景掩码，模型必须生成超过 1M 的离散标记（语义标签和实例标签）。这对于自回归模型来说计算开销是比较大的，因为 token 本质上是顺序的，很难随着输入数据的规模变化而变化。扩散模型更擅长处理高维数据，但它们最常应用于连续域而不是离散域。通过用模拟位表示离散数据，本文作者表明可以直接在大型全景分割上完成diffusion的训练，而不需要在latent space进行学习。这样就使得模型这对于自回归模型来说是昂贵的，因为它们本质上是顺序的，随着数据输入的大小缩放不佳。diffusion model很擅长处理高维数据，但它们最常应用于连续而非离散域。通过用模拟位表示离散数据，论文表明可以直接在大型全景掩模上训练扩散模型，而无需学习中间潜在空间。接下来，我们来介绍本文提出的基于扩散的全景分割模型，描述其对图像和视频数据集的广泛实验。在这样做的过程中，论文证明了所提出的方法在类似设置中与最先进的方法相比具有竞争力，证明了一种新的、通用的全景分割方法。

3. 方法

扩散模型采样是迭代的，因此在推理过程中必须多次运行网络的前向传递。因此，如上图，论文的结构主要分为两个部分：1）图像编码器；2）mask的解码器。前者将原始像素数据映射到高级表示向量，然后掩模解码器迭代地读出全景掩模。

而对于decoder，也是比较直接的。首先明确解码器在模型中起到的作用主要是基于图像特征，迭代地细化全景掩码。具体来说，研究者使用的掩码解码器是 Trans-UNet。该网络将来自编码器的图像特征图和噪声掩码（随机初始化或迭代地来自编码过程）的连接作为输入，并输出对掩码的精确预测。解码器与用于图像生成和图像到图像转换的标准 U-Net 架构之间的一个区别是，在上采样之前，本文使用的 U-Net 顶部使用了带有交叉注意力层的 transformer 解码器层来合并编码的图像特征。