CVPR 2023 | X-Decoder: 下一代通用编解码视觉架构设计范式 - 极术社区

Title: X-Decoder: Generalized Decoding for Pixel, Image and Language
Paper: https://arxiv.org/pdf/2212.11270.pdf
Code: https://github.com/microsoft/X-Decoder/tree/main
Demo: https://huggingface.co/spaces/xdecoder/Demo

导读

燃炸！一图胜千言。X-Decoder 经过预训练以后，仅使用同一套参数便可以处理各种图像分割和视觉-语言任务，并且能够处理更复杂的组合任务，例如引用字幕和图像编辑。

简单来说，本文主要贡献在于提出一种名为X-Decoder的模型，它具有广义解码能力，能够同时处理像素级分割和语言标记任务，并在多个视觉-语言等多模态任务上展现出强大的性能。该模型通过学习共享的视觉-语义理解空间，无需伪标签即可实现任务之间的交互和迁移学习。它在分割和视觉-语言任务中取得了最新的结果，并且在零样本学习和微调设置下表现出很高的灵活性。

NOTE: Here, ‘X’ denotes versatile, and also represents ‘piXel’.

挑战

1. 不同粒度级别上的视觉理解问题

视觉领域长期以来一直存在着不同粒度级别上的理解问题，涵盖了从图像级任务（例如图像分类、图像-文本检索、图像字幕和视觉问答）到区域级定位任务（例如目标检测和短语定位）再到像素级分组任务（例如图像实例/语义/全景分割）的各种任务。

2. 对像素级理解的重要性和挑战

从像素级别理解图像可以说是最重要且最具挑战性的问题之一，原因如下：（1）像素级注释成本高昂，与其他类型的注释相比无疑更加稀缺；（2）以开放词汇方式对每个像素进行分组和识别的研究较少；（3）更重要的是，在两个明显不同粒度级别上的数据中学习并获得相互的好处是非常复杂的。

3. 现有工作的局限性

现有的一些工作尝试从不同方面弥合像素级理解的差距，但仍存在一些局限性。例如，目前流行的大一统架构，如One-Former等，虽然能够取得一定的性能，但这些任务是在一个封闭集合中进行的。再比如，为了支持开放词汇识别，有些会将CLIP和ALIGN这类图像级视觉-语言基础模型的丰富语义知识转移或蒸馏到专门的模型中。然而，所有这些初始探索都集中在特定的分割任务上，并没有展示在不同粒度级别上的任务的泛化性能。

方法

上面是 X-Decoder 的整个架构示意图，乍看之下是不是很简单，一个图像编码器、一个文本编码器和一个精心设计的解码器，完事。

严肃点，这其实就是个广义的解码框架，将所有任务，包括像素级图像分割、图像级检索和视觉-语言任务，都归纳为通用的解码过程，可以套在大多数的多模态框架上。具体而言，X-Decoder基于视觉编码器构建，用于提取多尺度图像特征，整体框架遵循Mask2Former。So，它的关键创新点便是解码器部分。

首先，它接受两组查询作为输入：

通用的非语义查询，旨在解码通用分割的分割掩码，类似于Mask2Former；
新引入的文本查询，使解码器对各种与语言相关的视觉任务具备语言感知能力；

其次，X-Decoder预测两种类型的输出：

像素级掩码；
标记级语义；

这两种类型的不同组合可以无缝地支持所有感兴趣的任务。

最后，作者使用单个文本编码器来编码涉及所有任务的文本语料库，包括分割中的概念，引用分割中的短语，图像字幕中的标记和VQA中的问题等。同时解耦了图像编码器和文本编码器，以适应跨图像任务（例如图像-文本检索）和图像内任务（例如分割和字幕生成）的需求。因此，本文方法可以自然地促进任务之间的协同作用，并倡导学习共享的视觉-语义空间，同时很好兼容不同任务的异质性。