TNT|为充分利用局部与全局结构信息，华为诺亚提出全新Transformer：TNT

首发：AIWalker
作者:HappyAIWalker

本文是华为诺亚方舟实验在Transformer方面的又一次探索，针对现有Transformer存在打破图像块的结构信息的问题，提出了一种新颖的同时进行patch与pixel表达建模的TNT模块，它包含用于块嵌入建模的Outer Transformer 模块与像素嵌入建模的Inner Transformer模块，通过这种方式使得TNT可以同时提取全局与局部结构信息。在ImageNet数据集上，TNT-S模型以81.3%的top1精度超过了DeiT-S的的79.8%；TNT-B以82.8%的top1精度超过了DeiT-B的81.8%的top1精度。

Abstract

Transformer是一种自注意力机制神经网络，最早兴起于NLP领域。近来，纯transformer模型已被提出并用于CV的各个领域，比如用于low-level问题的IPT，detection的DETR，classification的ViT，segmentation的SETR等等。然而这些Visual Transformer通过将图像视作块序列而忽视了它们最本质的结构信息。

针对上述问题，我们提出了一种新颖的Transformer iN Transformer(TNT)模型用于对patch与pixel层面特征建模。在每个TNT模块中，outer transformer block用于处理块嵌入，而inner transformer block用于处理像素嵌入的局部特征，像素级特征通过线性变换投影到块嵌入空间并与块嵌入相加。通过堆叠TNT模块，我们构建了TNT模块用于图像识别。

我们在ImageNet与下游任务上验证了所提TNT架构的优越性，比如，在相似计算复杂度下，TNT在ImageNet上取得了81.3%的top1精度，以1.5%优于DeiT。

Method

接下来，我们将重点描述本文所提TNT架构并对其复杂度进行分析。在正式介绍之前，我们先对transformer的一些基本概念进行简单介绍。

Preliminaries

Transformer in Transformer

通过堆叠L次TNT模块，我们即可构建一个Transformer-in-Transformer网络，最后类别token作为图像特征表达，全连接层用于分类。

除了内容/特征信息外，空间信息也是图像识别非常重要的因素。对于块嵌入与像素嵌入来说，我们同时添加了位置编码信息，见上图。这里采用标准1D可学习位置编码信息，具体来说，每个块被赋予一个位置编码：