摘要
本文提出了一种通用的 AR 框架 xAR,将标记的概念扩展到灵活的实体 X,X 可以表示为单个图像块、一组邻近块(cell)、非局部分组(subsample)、分辨率(scale)或整个图像。此外,我们将离散标记分类重新表述为连续实体回归,利用流匹配(flow-matching)方法进行每个 AR 步骤的训练。这种方法在训练中使用噪声实体而不是真实标记,称为噪声上下文学习,有效缓解了暴露偏差。
因此,xAR 具有两个关键优势:(1)它允许灵活的预测单位,能够捕获不同的上下文粒度和空间结构;(2)通过避免依赖教师强制,减轻了暴露偏差。在 ImageNet-256 生成基准测试中,我们的基础模型 xAR-B(1.72 亿参数)在推理速度比 DiT-XL/SiT-XL(6.75 亿参数)快 20 倍的同时,取得了更好的性能。同时,xAR-H 在没有依赖视觉基础模块(例如 DINOv2)或高级引导间隔采样的情况下,达到了 1.24 的 FID,比之前最佳模型快 2.2 倍。
方法
初步:下一个标记预测
- 信息密度:在 NLP 中,每个标记(例如单词)承载丰富的语义意义。相比之下,视觉标记通常表示小的图像块,单独时可能不那么语义有意义。一个单独的块可能包含不同对象或纹理的碎片,使得模型难以推断连续块之间的有意义关系。此外,VQ-VAE 中的量化过程可能会丢弃细节,导致重建质量较低。因此,即使模型正确预测了下一个标记,生成的图像可能仍然显得模糊或缺乏细节。
- 累积误差:教师强制(teacher forcing)是一种常见的训练策略,通过提供真实标记来稳定学习。然而,这种对完美上下文的依赖会导致暴露偏差,模型从未学会从潜在错误中恢复。在推理过程中,当它必须基于自己的预测进行条件化时,小的错误会随着时间累积,导致级联伪影和输出质量下降。
为了解决这些挑战,我们将下一个标记预测扩展到下一个 X 预测,从传统的 AR 转向 xAR。这通过引入更具表现力的预测实体 X 并用噪声实体训练模型以提高鲁棒性来实现。
提出的 xAR
我们介绍 xAR,它由两个关键组件组成:下一个 X 预测(第 3.2.1 节)和噪声上下文学习(第 3.2.2 节)。我们首先详细介绍每个组件,然后描述推理策略(第 3.2.3 节),最后讨论 xAR 如何增强视觉生成(第 3.2.4 节)。
下一个 X 预测
X 的默认选择:第 4.2 节的广泛消融研究显示,单元格(大小为 8×8 标记)在所有 X 设计中表现最佳。因此,除非另有说明,xAR 采用 8×8 单元格作为默认 X。
噪声上下文学习
推理策略
讨论
如上所述,传统 AR 建模在视觉生成中面临两个关键挑战:信息密度和累积误差。提出的 xAR 旨在解决这些限制。
- 语义丰富的预测实体:单元格(即 k×k 个空间相邻标记的分组)聚合了邻近标记,有效地捕获了局部结构(例如边缘、纹理)和区域上下文(例如小对象或大对象的部分)。这比单个标记预测提供了更丰富的语义表示。通过建模单元格内的关系,模型学会了生成连贯的局部和区域特征,从孤立的标记级预测转变为整体模式。此外,预测单元格而不是单个标记允许模型在更高的抽象级别上进行推理,类似于 NLP 模型预测单词而不是字符。每个预测步骤的更大感受野贡献了更多的语义信息,弥合了低级视觉块和高级语义之间的差距。
- 对先前预测误差的鲁棒性:噪声上下文学习(NCL)策略在训练中使用噪声实体而不是完美的真实输入,减少了对 pristine 上下文的过度依赖。这种训练和推理分布之间的一致性增强了模型处理自生成预测中误差的能力。通过基于不完美的上下文进行条件化,xAR 学会了容忍小的不准确,防止小错误累积成级联错误。此外,暴露于噪声输入鼓励了更平滑的表示学习,导致更稳定和一致的生成。
实验结果
主要结果
我们在 256×256 和 512×512 分辨率的 ImageNet 上进行了实验。遵循先前的工作,我们使用 FID、Inception Score(IS)、Precision 和 Recall 评估模型性能。xAR 的训练超参数与先前工作相同(例如 800 个训练周期),模型大小从 1.72 亿到 11 亿参数不等。详细超参数见附录 A。
结论
在这项工作中,我们介绍了 xAR,一个用于自回归视觉生成的通用下一个 X 预测框架。与传统的下一个标记预测不同,xAR 将离散标记分类重新表述为连续实体回归,允许更灵活和语义有意义的预测单位。通过系统探索,我们发现下一个单元格预测在局部结构和全局一致性之间提供了最佳平衡。为了缓解暴露偏差,我们提出了噪声上下文学习(NCL),通过在训练中使用噪声实体而不是 pristine 真实输入,提高了鲁棒性并减少了级联错误。因此,xAR 在 ImageNet-256 和 ImageNet-512 上取得了最佳性能。
END
来源:AIWalker
推荐阅读
- YOLOv12 来袭,更高性能、更快速度~
- 从文字到视觉:EvalMuse-40K 如何评价 T2I 模型的进化
- FoundIR: 释放百万规模高质量训练数据,助推图像复原基础模型
- CPU推理1ms的SHViT Backbone 来啦
- "羊驼"入侵CV,美团&浙大沈春华团队将LLaMA向CV扩展,构建全新基础模型VisionLLaMA
本文章著作权归作者所有,任何形式的转载都请注明出处。更多动态滤波,图像质量,超分辨相关请关注我的专栏AIWalker。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。