视觉Backbone怎么使用1/8的FLOPs实现比Baseline更高的精度？

大规模视觉预训练显著提高了大型视觉模型的性能。然而，作者观察到现有的低FLOPs模型无法从大规模预训练中受益的问题。在本文中，作者提出了一种通用的设计原则，即ParameterNet，用于在大规模视觉预训练中增加更多参数的同时保持低FLOPs。
例如，采用动态卷积技术可以为网络提供更多参数，同时仅略微增加FLOPs。提出的ParameterNet方案使得低FLOPs网络能够从大规模视觉预训练中受益。
在大规模ImageNet-22K数据集上的实验证明了作者ParameterNet方案的卓越性能。例如，ParameterNet-600M相比广泛使用的Swin Transformer具有更高的准确性（81.6%对80.9%），并且具有更低的FLOPs（0.6G对4.5G）。

1、简介

由于计算硬件和数据工程的发展，作为计算机视觉中的基础组成部分，大规模视觉预训练取得了令人瞩目的进展。预训练的视觉模型可以作为表示学习器，并迁移到下游任务中，如图像识别和目标检测。

主流的预训练视觉模型通常需要大量的资源，包括数据、参数和FLOPs。这3个关键因素严重影响着性能，并基本遵循缩放定律。大规模的预训练数据可以为表示学习提供多样化的样本。这些数据集的规模从数百万到数十亿不等，例如，广泛使用的ImageNet-22K数据集包含了1400万张图像和21841个类别。为了更好地拟合大规模数据集，模型的大小（包括参数和FLOPs）近年来越来越大，例如，ViT-G/14模型具有18亿个参数和9650亿个FLOPs。

移动设备上的视觉应用通常需要快速推理，因此由于高计算成本，很难部署现有的预训练视觉模型。为了解决这个问题，作者经验性地研究了大规模视觉预训练中FLOPs的影响。作者采用ImageNet-22K作为大规模预训练数据集，而ImageNet-1K是一个相对较小的数据集用于比较。

然后，作者对预训练的Transformer和CNN模型在ImageNet-1K上进行微调以评估性能。如图2和图3所示，当模型的FLOPs逐渐增加时，模型的准确性持续提高。对于高FLOPs的模型，22K预训练模型优于1K模型。然而，低FLOPs的模型无法从大规模预训练中获益，作者称之为低FLOPs陷阱。