徐九 · 2023年02月01日 · 北京市

MixMIM 创建混合图像,提出新型掩码方案

出品人:Towhee 技术团队 顾梦佳

商汤和港中文联合提出一种简单但有效的掩码图像建模(MIM)方法 MixMIM,通过创建混合图像利用BEiT和MAE的优点,又避免了它们的局限性。MixMIM 可以有效地学习高质量的视觉表示,也能被广泛应用于预训练的层次化视觉 Transformer,比如 Swin Transformer、PVT 等。MixMIM 还探索了轻量级架构,将 Swin Transformer 修改为预训练和知识迁移的编码器。由于层次结构,MixMIM 适用于各种下游任务,比如图像分类、目标检测、语义分割任务。实验结果表明,在模型尺寸和 FLOPs 相似的情况下,MixMIM 在广泛的下游任务上始终优于 BEiT 和 MAE,包括公开图像数据集 ImageNet、iNaturalist 和 Places上的图像分类,COCO上的目标检测和实例分割,以及 ADE20K 上的语义分割。

Overview of MixMIM

给定训练集中的两幅随机图像,MixMIM 使用随机混合掩码创建一幅混合图像作为输入。模型会训练一个层次化 ViT 来重建两幅原始图像,用于学习视觉表示。不同于传统方法中用特殊的掩码符号替换输入图像的掩码 token,MixMIM 选择用另一个图像的视觉 token 替换掩码 token。另外,MixMIM 依然采用了编码器-解码器的结构设计。编码器处理混合图像以获得两个部分掩蔽图像的隐藏表示,而解码器则用于重建两个原始图像。

推荐阅读
关注数
4139
内容数
719
SegmentFault 思否旗下人工智能领域产业媒体,专注技术与产业,一起探索人工智能。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息