爱笑的小姐姐 · 2023年01月31日

Google Brain提出基于Diffusion的新全景分割算法

A Generalist Framework for Panoptic Segmentation of Images and Videos

标题:A Generalist Framework for Panoptic Segmentation of Images and Videos

作者:Ting Chen, Lala Li, Saurabh Saxena, Geoffrey Hinton, David J. Fleet

原文链接:https://arxiv.org/pdf/2210.06366.pdf

2. 引言

首先回顾一下全景分割的设定。全景分割(PS,Panoptic Segmentation)的task format不同于经典的语义分割,它要求每个像素点都必须被分配给一个语义标签(stuff、things中的各个语义)和一个实例id。具有相同标签和id的像素点属于同一目标;对于stuff标签,不需要实例id。与实例分割相比,目标的分割必须是非重叠的(non-overlapping),因此对那些每个目标单独标注一个区域是不同的。虽然语义标签的类类别是先验固定的,但分配给图像中对象的实例 ID 可以在不影响识别的实例的情况下进行排列。因此,经过训练以预测实例 ID 的神经网络应该能够学习一对多映射,从单个图像到多个实例 ID 分配。一对多映射的学习具有挑战性,传统方法通常利用涉及对象检测、分割、合并多个预测的多个阶段的管道这有效地将一对多映射转换为基于识别匹配的一对一映射。这篇论文的作者将全景分割任务制定为条件离散数据生成问题,如下图所示。本文是大名鼎鼎的Hinton参与的工作,非常有意思,又是基于diffusion model模式的生成模型来完成全景分割,将mask其视为一组离散标记,以输入图像为条件,预测得到完整的分割信息。

image.png

全景分割的生成式建模非常具有挑战性,因为全景掩码是离散的,或者说是有类别的,并且模型可能非常大。例如,要生成 512×1024 的全景掩码,模型必须生成超过 1M 的离散标记(语义标签和实例标签)。这对于自回归模型来说计算开销是比较大的,因为 token 本质上是顺序的,很难随着输入数据的规模变化而变化。扩散模型更擅长处理高维数据,但它们最常应用于连续域而不是离散域。通过用模拟位表示离散数据,本文作者表明可以直接在大型全景分割上完成diffusion的训练,而不需要在latent space进行学习。这样就使得模型 这对于自回归模型来说是昂贵的,因为它们本质上是顺序的,随着数据输入的大小缩放不佳。diffusion model很擅长处理高维数据,但它们最常应用于连续而非离散域。通过用模拟位表示离散数据,论文表明可以直接在大型全景掩模上训练扩散模型,而无需学习中间潜在空间。接下来,我们来介绍本文提出的基于扩散的全景分割模型,描述其对图像和视频数据集的广泛实验。在这样做的过程中,论文证明了所提出的方法在类似设置中与最先进的方法相比具有竞争力,证明了一种新的、通用的全景分割方法。

3. 方法

image.png

扩散模型采样是迭代的,因此在推理过程中必须多次运行网络的前向传递。因此,如上图,论文的结构主要分为两个部分:1)图像编码器;2)mask的解码器。前者将原始像素数据映射到高级表示向量,然后掩模解码器迭代地读出全景掩模。

image.png

而对于decoder,也是比较直接的。首先明确解码器在模型中起到的作用主要是基于图像特征,迭代地细化全景掩码。具体来说,研究者使用的掩码解码器是 Trans-UNet。该网络将来自编码器的图像特征图和噪声掩码(随机初始化或迭代地来自编码过程)的连接作为输入,并输出对掩码的精确预测。解码器与用于图像生成和图像到图像转换的标准 U-Net 架构之间的一个区别是,在上采样之前,本文使用的 U-Net 顶部使用了带有交叉注意力层的 transformer 解码器层来合并编码的图像特征。

image.png

算法的block如上所示,可以看到还是非常清晰的,主要的步骤就是编码解码,然后diffusion。

image.png
image.png

4. 实验

来看实验结果:

image.png

在 MS-COCO 数据集上,Pix2Seq-D 在基于 ResNet-50 的主干上的泛化质量(PQ)与最先进的方法相比有一定的竞争力。与最近的其他通用模型如 UViM 相比,本文的模型表现明显更好,同时效率更高。

image.png
而在无监督数据集DAVIS上,也有更优的表现。

image.png

论文还提供了一个比较有趣的可视化,可以发现减少输入比例因子导致更小的信噪比(在相同的时间步长),从而为更困难的情况赋予更高的权重。

5. 结论

本文基于离散全景蒙版的条件生成模型,提出了一种用于图像和视频全景分割的新型通用框架。通过利用强大的Bit Diffusion 模型,我们能够对大量离散token建模,这对于现有的通用模型来说是困难的。

作者:Garfield
文章来源:GiantPandaCV

推荐阅读

更多嵌入式AI干货请关注嵌入式AI专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
18808
内容数
1351
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息