MixMIM 创建混合图像，提出新型掩码方案

出品人：Towhee 技术团队顾梦佳

商汤和港中文联合提出一种简单但有效的掩码图像建模（MIM）方法 MixMIM，通过创建混合图像利用BEiT和MAE的优点，又避免了它们的局限性。MixMIM 可以有效地学习高质量的视觉表示，也能被广泛应用于预训练的层次化视觉 Transformer，比如 Swin Transformer、PVT 等。MixMIM 还探索了轻量级架构，将 Swin Transformer 修改为预训练和知识迁移的编码器。由于层次结构，MixMIM 适用于各种下游任务，比如图像分类、目标检测、语义分割任务。实验结果表明，在模型尺寸和 FLOPs 相似的情况下，MixMIM 在广泛的下游任务上始终优于 BEiT 和 MAE，包括公开图像数据集 ImageNet、iNaturalist 和 Places上的图像分类，COCO上的目标检测和实例分割，以及 ADE20K 上的语义分割。

Overview of MixMIM

给定训练集中的两幅随机图像，MixMIM 使用随机混合掩码创建一幅混合图像作为输入。模型会训练一个层次化 ViT 来重建两幅原始图像，用于学习视觉表示。不同于传统方法中用特殊的掩码符号替换输入图像的掩码 token，MixMIM 选择用另一个图像的视觉 token 替换掩码 token。另外，MixMIM 依然采用了编码器-解码器的结构设计。编码器处理混合图像以获得两个部分掩蔽图像的隐藏表示，而解码器则用于重建两个原始图像。

推荐阅读

目录