大核ConvNets的秘密武器 | UniRepLKNet与视觉Transformer的较量 - 极术社区

title=

这篇论文提出了在设计现代卷积神经网络（ConvNets）时采用大卷积核范式的设想。
作者建立了一个结论，即使用少数几个大核，而不是堆叠多个较小的核，可以是一种优越的设计策略。
作者的工作引入了一套大核卷积神经网络（ConvNets）的架构设计指南，以优化它们的效率和性能。
作者提出了UniRepLKNet架构，该架构为大规模卷积神经网络（ConvNets）专门设计了一套系统化的架构设计原则，强调它们独特的能够捕捉大量空间信息的能力，而无需堆叠深度层。
这使得模型不仅以ImageNet的准确度88.0%，ADE20K mIoU的55.6%和COCO box AP的56.4%超过了其先驱，而且还在时间序列预测、音频、点云和视频识别等各种模式上展示了令人印象深刻的可伸缩性和性能。
这些结果表明，与视觉 Transformer 相比，大核卷积神经网络具有更快的推理速度。
作者的发现揭示了大规模卷积神经网络具有更大的有效感受野和更高的形状偏差，这与小核卷积神经网络典型的纹理偏差有所不同。
所有代码和模型都在https://github.com/Allab-CVC/UniRepLKNet上公开。

1 Introduction

卷积神经网络（ConvNets）在计算机视觉领域得到了广泛应用。最近，视觉 Transformer （ViTs）对卷积神经网络的统治地位产生了显著挑战，它们利用全局注意力和基于窗口的注意力。除了图像识别，ViTs还在各种模态上得到了广泛应用，包括音频[30]，点云[31]，视频[32]，等等，展示了它们在感知任务上进行通用建模的强大能力。

然而，ViTs的四次方复杂度、高内存成本和慢推理速度限制了其更广泛的应用，例如高分辨率图像和长篇视频的感知。因此，作者提出了以下问题：

作者是否可以构建一个卷积神经网络，它具有与ViT类似的通用建模能力，但具有降低复杂度和显著提高推理速度的优势？

深入挖掘ViT的优势，全局注意力机制揭示了长程依赖和上下文关系。这促使作者思考：如何在卷积神经网络中增强长程依赖和上下文关系？经过十年的探索，大卷积核似乎是卷积神经网络的解决方案。2014年，Xu等人[38]提出了逆核和反卷积，为图像去噪提供更大的空间支持。

在此基础上，2017年，大卷积核被引入分割任务，以获得更大的ERF[39]。此外，2022年，Liu等人[16]将核大小扩展到7x7在Swin Transformer的宏架构中[41]。然后，Slak在2020年利用了大小为51x51的稀疏大核，展示了大核卷积神经网络的效率和优越性。

尽管取得了这些进展，一个明显的问题变得更加清晰：作者如何设计一个具有通用建模能力、高效率和数据和参数的可扩展性的大核卷积神经网络？

在本文中，作者通过重新思考使用深层小核的传统设计，来探索一种高效且通用的架构，即大型核卷积神经网络。当作者向小型核卷积神经网络中添加一个3x3卷积时，作者希望它具有三个同时的作用：

1)扩大感受野

2)增加空间模式（例如，从角度和纹理到物体形状）的抽象层次

3)通过增加深度来提高模型的通用表示能力，从而引入更多的可学习参数和非线性。

相比之下，作者主张大型核架构中的这三个作用应该解耦，因为模型应利用大型核的显著优势——能够看到广而不必深入。由于增加核大小比堆叠层来扩大有效响应区（ERF）[42]1更有效，只需要几层大型核就可以建立一个足够大的ERF。

这使得计算预算可以分配给其他更有效地提高空间模式抽象层次或整体深度的有效结构。例如，当目标是从低级空间模式提取高级局部空间模式时，3x3卷积可能比大型核卷积层更适合。

原因在于后者需要更多的计算，可能会导致不再局限于较小局部区域的模式，这在特定场景中可能是不理想的。

具体而言，作者提出了一种通用的卷积神经网络（ConvNets）设计路线图（SS 3），适用于大核卷积神经网络在宏观和微观设计上的应用：

遵循上述准则构建的卷积神经网络（图3）分别实现了这三个效果。它利用少量的大型核来确保大的有效响应值（ERF），如图2所示，使用小型核更高效地提取复杂的空间模式，并集成多个轻量级模块来进一步提高深度并增强表示能力。

title=

如图1所示，作者的架构在通用理解任务上取得了领先的性能，包括ImageNet分类[43]，AudioSet-2M [44]，ScanObjectNN [45]，以及全球天气预报任务[46]。在图像识别中，UniRepLKNet在准确性和效率方面都超过了现有的大核卷积神经网络（CNNs），如RepLKNet [1]，SLak [40]，以及最近的一些强大架构，包括卷积神经网络（CNNs）ConvNeXt V2 [47]，自注意力机制（ViTs）FastViT [48]，Swin V2 [49]和DeiT III [50]。此外，作者的架构与现有的卷积神经网络（CNNs）和自注意力机制（ViTs）相比具有显著更高的形状偏差[51, 52]。

具体来说，它更多地基于物体的整体形状进行预测，而不是基于纹理，这与人眼视觉系统相符，从而导致更好的泛化。这可能解释了它在下游任务中的优越性。

此外，随着作者将模型扩展到1.4亿参数，训练数据为10亿图像文本对，来自LAION-5B数据集[53]，用于CLIP[54]预训练，它在广泛采用的CLIP基准2上的26个数据集（表13）上展示了惊人的零样本能力。

此外，UniRepLKNet还在大型视觉语言模型基准（表13）上表现出卓越的性能。

title=

RepLKNet [1] 是在ViTs开始主导多个图像识别任务之前，部分出于“为卷积神经网络（ConvNets）辩护”的目的提出的。此外，鉴于 Transformer 在多个模态上展示了普遍的感知能力[28, 55]，本工作的目标不仅是通过超越ViTs的性能来重新夺回图像识别任务的领导地位，而且还要在卷积神经网络传统不占优势的领域做出贡献。

具体而言，作者在音频、视频、点云和时间序列任务上取得了惊人的性能，具有极其通用和简单的解决方案。作者使用针对模态特定的预处理方法将所有数据转换为3D嵌入图，类似于图像的处理方式，并使用与 Backbone 网络相同的架构处理这些嵌入图。

因此，作者的模型展示了在多个模态上具有统一架构的普遍感知能力，因此得名 UniRepLKNet。令人惊讶的是，UniRepLKNet在原本卷积神经网络的领域之外也取得了显著的结果，例如音频和时间数据。

在一个大规模的时间序列预测任务中，预测全球温度和风速，UniRepLKNet甚至超过了针对该任务的最新最先进的 Transformer 。

这些结果不仅标志着卷积神经网络在其原始领域中的“回归”，而且突显了大型核卷积神经网络征服新领域的潜力，扩大了其在各种任务中的适用性和灵活性。

本工作基于作者在CVPR 2022 [1] 和 CVPR 2024 [2] 上的初步论文，并在多个方面进行了显著的扩展。首先，作者进一步发展了大规模核卷积算子，作为在通用表示学习和跨模态特征融合上替代注意力机制的高效替代方案。

其次，作者继续探索大规模核卷积网络在附加的大规模多模态理解能力上的潜力，包括音频集（AudioSet-2M）和点云集（Objavverse），等等。

第三，作者将所提出的架构扩展到1.4亿参数，并验证了UniRepLKNet在CLIP [56]上学习100亿图像-文本对时在零样本识别任务中的可迁移能力，进一步阐明了其在架构和数据可扩展性方面的效率和进步（表13）。第四，为了全面调查卷积网络的效率优势，作者使用UniRepLKNet进行大规模视觉语言模型的训练（表13），这表明在综合零样本视觉问答基准测试上具有有前途的表现。

最后但并非最不重要的是，作者将架构设计为通用的卷积网络路线图，希望促进更高效架构的设计研究。

title=

2 Related works

大核在早期的卷积神经网络。早期的卷积神经网络，如AlexNet[3]和Inception[4,5,6]，最初使用大核（ 7x7 或 11x11 ）来捕捉空间特征。然而，随着VGG-Net的出现，趋势转向了更小、更频繁的层[18]。创新性地，全局卷积网络（GCN）[39]利用了非常大的核（1 x K后接K x 1）来提高语义分割。

局部关系网络（LR-Net）[57]探索了动态核大小，并发现性能在 7 x 7 核时达到顶峰，但当核大小较大时，性能下降，这说明了在网络效率和核大小之间平衡的挑战。

大核探索。在卷积网络中扩展传统的核定义，Swin Transformer [20] 创新地采用了窗口大小从7到12的移位注意力机制，有效充当了动态核。Han et al. [35]的研究表明，用静态或动态的 7 x 7 卷积层替换 Swin Transformer 中的注意力层，得到的结果与原始模型相当。

此外，MetaFormer [58] 提出，大核池化层可以作为自注意力机制的有效替代。进一步拓展概念，Global Filter Network (GFNet) [59] 通过频域实现了空间连接权重的优化，实现了类似于空间领域环卷积的全局卷积效果，强调了大规模核在不同网络架构中的广泛应用。

RepLKNet [1]的引入标志着卷积神经网络设计的重要转变，它通过证明扩大核大小可以提高性能，尤其是在下游应用中。这种方法引入了几种关键的设计策略，例如与大型核结合使用短路以提高微观结构效率。虽然RepLKNet受到Swin Transformer直观架构的启发，但后续的研究对这个想法进行了扩展。

刘等人 [40] 以及其他研究者通过扩大核大小，将这些概念应用于3D视觉任务 [60]，图像去雾 [61] 和超分辨率 [62]。尽管取得了这些进步，具有较大核的卷积神经网络的建筑细节仍然相对较少探索，这表明未来研究的一个有前景的领域。

随着对大核卷积神经网络（ConvNets）的兴趣日益浓厚，这是由于它们在捕捉细粒度和全局空间特征方面具有有效性。然而，现有的模型通常将大核与附加机制相结合，限制了对它们单独潜力的理解。研究发现，扩展 Kernel 大小可以提高性能，然而，尚未开发出通用的、大核卷积神经网络（ConvNets）的架构。

本工作提出了一种简单而通用的设计，它保留了大型 Kernel 的空间提取优势，将Transformer模型的灵活性与传统卷积神经网络（ConvNets）的有效性相结合，并将适用性扩展到各种任务。

3 A Roadmap to Universal ConvNets

作者通用的K大核卷积神经网络（UniRe-pLKNet，图3）的路线图分为四个步骤：

1) 首先，作者探索为什么在现代卷积神经网络中不常用大核卷积，并提出5个指导原则使其更实用，并评估其有效性（SS 3.1）。

2) 其次，作者提出4个指导原则，用于构建强大且具有竞争力的K大核卷积神经网络架构（SS 3.2）。

3) 然后，作者将K大核卷积神经网络推广到多模态理解任务（SS 3.3）。

4) 最后，作者提出非对称K大核卷积以有效地将多模态特征融合，与交叉注意力不同（SS 3.4）。

Step 1: Making Large Kernels Practical

3.1.1 Making Large Kernels Efficient

首先，大型核的使用频率较低的一个原因是，它们被认为在计算上成本高昂，因为核的大小会导致参数数量和FLOPs的平方增加。然而，作者主张，通过使用深度卷积（DW）[14, 17]，这一缺点可以显著减轻。

因为DW卷积只消耗ConvNet总计算预算的很小一部分，增加核的大小并不会显著使模型变大或变慢。例如，如表2(c)所示，将MobileNet V2 [65]中的DW卷积的核大小从3x3增加到13x13，FLOPs只增加了2.7%，参数增加了4.2%，这在Cityscapes分割的+2.31% mIoU改进是可以接受的。剩下的1x1卷积主导了大部分的复杂性。

title=

人们可能会担心，在现代并行计算设备（如GPU）上，DW卷积可能效率低下。对于传统的DW 3x3核，这是真的，因为DW操作引入的计算与存储访问成本比率较低[66]，这对现代计算架构不利。然而，作者发现，随着 Kernel 大小的增加，计算密度也增加。

例如，在DW 11x11 Kernel 中，从特征图中加载的每个值最多可以用于121次乘法，而在3x3 Kernel 中，这个数字只有9。因此，根据屋顶线模型[65]， Kernel 大小变为更大时，实际延迟不应像FLOPs那样大幅增加。

上述讨论表明，大核DW卷积可以通过更优的实现运行得更快。在实际中，作者提出了一种块状（逆）_隐式GEMM_算法来替换原始操作符。表1显示，与PyTorch基准相比，作者的实现显著更高效。

title=

因此，作者提出以下第一个准则：准则1：使用深度可分离大核卷积并适当实现操作 Level 。

3.1.2 Making Large kernels Effective

第二个原因是大核很少使用，因为人们认为它们会损害模型的性能。然而，作者认为大核并非有害，它们只是没有正确地使用。作者提出三个指南来正确使用大核在现代卷积神经网络（ConvNets）中。

指南2：身份短路至关重要，尤其是对于具有非常大核的神经网络。为了证明这一点，作者使用MobileNet V2[65]进行基准测试，因为它大量使用了DW层，并且有两个已发布的变体（有或没有短路）。对于大核版本，作者只需将所有DW 3×3核替换为13×13。所有模型都在ImageNet上进行训练，采用相同的训练配置进行100个周期训练（请参阅附录A以获取详细信息）。

表2（a）显示，带有短路的MobileNet V2在大核的帮助下，准确率从71.76%提高到72.53%。然而，对于没有短路的模型，大核将准确率降低到仅53.98%。作者从类似[67]的角度解释这一现象：短路使模型成为一个具有许多不同感受野（RFs）的隐式集成，允许它在不失去捕捉小规模模式的能力的情况下，受益于一个更大的最大感受野。

指南3：用小核重新参数化大核可以提高性能。为了更好地理解上述不同RF的集成对性能的影响，作者探索是否使用小核来产生一个更大的集成，其中包含更多不同的RF，可以提高性能。

具体而言，作者将MobileNet V2的3×3层替换为9×9和13×13，并可选择采用_结构参数化_[68, 12, 69]方法，在不改变结果模型推理结构的情况下添加小核。具体而言，作者构建一个与大核层并行的3×3层，并在_批量归一化（BN）_层[64]之后将它们的输出相加（图4）。

训练完成后，作者将小核和BN参数合并到大型核中，这样得到的结果模型在数学上与训练模型等同，但不再具有小核。表2b显示，从9直接增加到13会降低准确率，而重新参数化解决了这个问题。

title=

然后，作者将在ImageNet上训练的模型转移到语义分割任务上，在Cityscapes [71]上使用DeepLabv3+ [70]。作者只替换了 Backbone 网络，并保持了MSsegmentation [72]的所有默认训练设置。

观察到的结果与在ImageNet上的情况相似：3x3重新参数化将9x9模型的mIoU提高了+0.19%，将13x13模型的mIoU提高了+0.93%；在重新参数化后，将 Kernel 大小从9增加到13，对ImageNet或Cityscapes上的性能不再产生负面影响。

第4条准则：大核（例如，13x13）在小特征图（例如，7x7）上仍然有效。 为验证这一准则，作者在MobileNet V2的最后阶段将DW卷积放大到7x7或13x13，因此核大小与或甚至大于特征图大小（默认值为7x7）。作者按照准则3的建议对大核进行重新参数化。表2c显示，尽管最后阶段的卷积已经涉及非常大的感受野，但进一步增加核大小仍然会导致性能提升，尤其是在下游任务（例如，Cityscapes）上。

备注：当核大小变得较大时，CNN的平移不变性并不严格成立。如图5所示，相邻空间位置的两个输出仅共享核权重的很小一部分，即，并经过不同的映射。该属性也符合ViTs的“哲学”——在获得更多容量之前，放松对称先验。有趣的是，作者发现2D相对位置嵌入（RPE）[73, 74]，在 Transformer 社区中广泛使用，可以被视为大小为（2H-1）×（2W-1）的大深度核。大核不仅有助于学习概念之间的相对位置，还由于填充效应[75]，可以编码绝对位置信息。

title=

3.1.3 Evaluating Large-kernels ConvNets

放弃大核的原因三是，即使大核卷积神经网络（ConvNet）设计得当，其ImageNet准确性看起来也不如小核卷积神经网络。

然而，在重新参数化后，表2b（_re-param_）显示，将MobileNet V2的核大小从3x3增加到9x9，ImageNet准确性提高了1.33%，而cityscapes mIoU提高了3.99%。这种现象表明，具有相似ImageNet分数的模型在下游任务中可能有很大的不同能力。

Step 2: Designing a Competitive Large-Kernel Architecture

首先构建一个基础的架构作为基准，以验证哪些设计选择在大核情况下效果良好。

基础架构。作为一种常见做法，模型主体被分为四个阶段，通过下采样块连接。具体来说，第一个下采样块使用两个步长为2的3x3卷积层将原始输入转换为C通道特征图，其中C是架构超参数。

其余三个下采样块每个使用一个步长为2的3x3卷积层，进行2x通道扩展，使得四个阶段的通道数分别为C，2C，4C和8C。一个阶段包含类似ConvNeXt的块，即一个DW卷积层和一个包含GRN单元的FFN[47]。

然而，作者在卷积层之后使用了批量归一化（BN）而不是Layer Normalization[82]，因为BN可以等效地合并到卷积层中，以消除其推理成本。作者在FFN之后也使用了另一个BN，它可以等效地合并到前面的层（即FFN中的第二个线性层）。这四个阶段的块数用N表示，即 title= 。遵循ConvNeXt-T，基础架构使用C=96和 title= 。

默认情况下，最后三个阶段使用DW 13x13作为卷积层，而第一阶段使用DW 3x3。

实验设置和指标。根据指南5，大核卷积神经网络应在与下游任务相关的数据集上进行评估，因为仅凭ImageNet准确性可能无法准确反映其全部潜力。

因此，除了在训练100个周期后报告ImageNet-1K准确性外，作者还使用UPernet [83]将训练好的模型转移到ADE20K以评估其在语义分割任务上的性能。作者报告了160k迭代标准微平均IoU [72]后的单尺度mIoU。

除了参数和FLOPs之外，作者在具有批处理大小128和输入分辨率224 x 224的A100 GPU上测试了实际吞吐量，以图像/秒为单位进行测量。请参阅附录以获取详细配置。

作者接着讨论并验证了大型核卷积神经网络中一系列设计选择。接下来，作者将总结作者的结论作为指导原则，并呈现实验证据。

3.2.1 Block Design for Large-Kernel ConvNets

准则6：关于模块设计，使用既进行通道间通信又进行空间聚合的高效结构来增加深度。作者首先通过普遍引入提供非线性以及高效可训练变换的结构来增强模型的表示能力。为此，作者采用了一个 Bottleneck ，由一个1x1卷积层将通道数减少到1/4，接着是一个DW 3x3卷积层，再接着是一个1x1卷积层将通道数扩充回原始值（图7）。在每个卷积层后，作者应用了BN和ReLU，这是标准做法。

如表3(a)所示，这种方法在可接受的超额（+1.2 mIoU）和12%的延迟下提高了性能。当作者移除DW 3x3卷积层，仅保留两个1x1卷积层，或者用两个DW 3x3卷积层替代 Bottleneck 结构时，性能会降低。这表明有效的结构需要同时进行空间聚合变换和通道混合。

因此，作者考虑了SE模块[63]，它以更高效的方式（即全局平均池化和池化向量的非线性映射）实现这两种变换，并尝试用1/4的通道数减少，结果观察到更好的性能和更高的吞吐量。

title=

因此，作者将SE模块作为作者块设计的子结构，在以下探索中使用。

3.2.2 Micro Design with Structural Re-parameterization for Large-Kernel ConvNets

指南7：使用膨胀的小核重新参数化大型核。然后作者探讨了大型核卷积神经网络的微观（即，层级）设计。根据指南3，作者应该使用一个并行的小核卷积与一个大核层，因为前者有助于在训练过程中捕捉小规模模式。然而，以前的研究主要集中在使大型核更实际的方法上，解释了潜在机制，而不是提供一种竞争性的解决方案来构建强大的大型核架构。尽管作者现在旨在实现这一目标，但作者认识到，仅仅使用一个小核来重新参数化一个大核可能不是最优的，因为两者都捕获了密集模式，尽管它们有不同的感受野。

更重要的是，作者认为，除了小规模模式外，增强大型核捕获稀疏模式的能力（例如，一个像素在特征图上可能与某些远离的像素更相关，而不是与邻居像素相关）可能会产生更高质量的特征。

捕获这种模式的需求正好符合膨胀卷积的机制 - 从滑动窗口的角度来看，具有膨胀率r的膨胀卷积层扫描输入通道，以捕捉每个感兴趣的像素距离其邻居像素r-1个像素的位置的空间模式。因此，作者在大型核的并行膨胀卷积层上使用它们并将它们的输出相加。

由于忽略输入像素等价于在卷积核中插入额外的零项，因此一个小核的膨胀卷积层可以等价地转换为一个非膨胀的（即 title= ）大核稀疏层。令膨胀层的核心大小为 title= ，通过插入零项，相应非膨胀层的核心大小将为，称为等效核心大小（简称）。作者进一步注意到，从前核 title= 到后核 title= 可以通过使用步长为且核为 title= 的反转卷积来实现，其中被视为核张量，即标量为1。

title=

可以将等式轻松验证 - 给定任意 title= 和任意输入通道，使用 W 和膨胀率 r 的卷积始终得到与非膨胀的 title= 卷积相同的结果。5基于这样的等变换，作者提出了一种名为 Dilated Reparam Block 的新模块，它使用非膨胀的小核和多个非膨胀的小核层来增强非膨胀的大核卷积层。

其超参数包括大核 K 的尺寸、并行卷积层 k 的尺寸以及膨胀率 r。如图6 所示，有四个并行层，用 K=9，r=(1, 2, 3, 4)，k=(5, 5, 3, 3) 表示。对于更大的 K ，作者可以使用更多膨胀层，或者使用更大的核尺寸或膨胀率。并行分支的核尺寸和膨胀率是灵活的，唯一的约束是 title= 。例如，当 K=13（作者在实验中使用的默认设置）时，作者使用五个分支，每个分支 k=(5, 7, 3, 3, 3)，r=(1, 2, 3, 4, 5)，那么等效核尺寸将是。

将 Dilated Reparam Block 转换为大核卷积层进行推理，作者首先将每个 BN 合并到前一个卷积层中，将每个膨胀率 r > 1 的层用函数 1 转换，然后将所有结果核用适当的零填充加起来。例如，图6 中 k=3，r=3 的层被转换为一个稀疏的 7×7 核，并将其与每个边上有一个像素零填充的 9×9 核相加。

为了与 DilatedReparam Block 进行公平比较，作者尝试了两种具有相同并行分支数量的方法，一种是使用相同核尺寸的 A)非膨胀层，另一种是使用相同等效核尺寸的 B)非膨胀层。对于作者的默认设置 K=13，r=(1, 2, 3, 4, 5)，k=(5, 7, 3, 3, 3)，两种变体的核尺寸分别是 k=(5, 7, 3, 3, 3) 或 (5, 13, 7, 9, 11)。所有模型都具有相同的推理结构，但训练结构不同。表3 显示了变体的较低性能，表明大核受益于并行膨胀卷积层捕捉稀疏模式的能力，而不是额外的较小核（变体 A）或不同感受野的组合（变体 B）。

title=

3.2.3 Kernel Size of Large-Kernel ConvNets

指南8：根据下游任务决定核大小，通常在中高级层使用较大核。如前所述，基础架构在第一阶段使用3x3卷积，而在最后三个阶段使用13x13卷积。

表3显示，将最后三个阶段的大型核替换为3x3或将K从13更改为11，都会降低模型性能，尤其是在ADE20K mIoU中，这突显了较大核的重要性。有趣的是，在第一阶段使用13x13或将K从13更改为15，在ImageNet准确性上几乎无差异，但会降低ADE20K mIoU。

论述作者认为，这一现象并不意味着更大的核会带来更低的特征质量。这是由于 UPerNet 的结构先验，它将 Backbone 网络低层提取的特征假设为只应编码局部信息，因此将它们与 Backbone 网络最后层提取的高层特征相结合，从而获得更好的分割效果。

在较低阶段使用较大的核，低层特征不再受限于小局部区域，因此 UPerNet 从中受益较少。作者通过仅使用 UPerNet 的最高层特征（即 Stage 4 的输出）来单独评估最终特征的质量来验证这一解释。

在这种设置下，k=15 获得了最佳 mIoU（42.7），Stage 1 中的大核模型表现与 Baseline 相当（42.4），而 K=11 表现最差（41.9）。这些观察结果证实，即使在不恰当的情况下使用大核，它们也不会损害 ConvNet 的特征质量，而只是使低层特征对某些需要局部低层特征的下游模型不再有利，因此作者应根据具体的下游任务和框架来决定核的大小。

3.2.4 Scaling Rule of Large-Kernel ConvNets

指南9：在扩增深度时，新增的模块应使用小核。现有的大核卷积神经网络的扩增规则遵循传统卷积神经网络，即堆叠更多的大核以构建更深模型。但作者认为大核卷积神经网络可能不能从更多的核中受益。在本组实验（表3）中，作者从9个扩展到27个N3，遵循ConvNeXt-S [16]。考虑到9个13x13块已经构建了足够的感受野，作者检查是否应使用大核的模块。具体而言，作者将带有膨胀重复块的模块称为 _大核块（Lark Block）_，并将使用DW 3x3卷积的模块命名为 _小核块（SmaK Block）_，以便在浅层模型中，第一阶段有3个SmaK块和3/9/3个Lark块，第二/三/四阶段有3/9/3个Lark块。

在扩增第三阶段的深度时，作者尝试了以下选项。

A) 所有27个模块都是Lark块。

B) 作者穿插SmaK块与Lark块，使第三阶段有14个Lark块和13个SmaK块。

C) 作者在Lark块后放置两个SmaK块，使得出的模型具有与之前相同的9个Lark块，但额外有18个SmaK块。

D) 作者在SmaK块中删除DW 3x3层。表3显示，扩增深度带来显著改进，这是预期结果，9个Lark块足够。尽管27个Lark块在ADE20K mIoU方面略好，但推理速度明显减慢。

此外，在SmaK块中没有3x3卷积的模型显示出显著降低的mIoU，尽管在吞吐量方面有轻微改进，这表明SmaK块中的小核在扩增大核卷积神经网络的深度时是有益的，尽管它们可能无法有效地增加ERF [1, 42]。这一观察结果支持作者在扩大ERF和提取更复杂的空间模式时，解耦卷积层的影响，正如作者在第1节中讨论的那样。

3.2.5 Architectural Specifications

遵循作者提出的指南，作者实例化了一系列模型（见表4）。为了与ConvNeXt V2 [47]进行公平比较，UniRepLKNet-A/F/P/N遵循其配置。作者提升深度以构建UniRepLKNet-T/S，并提升宽度以构建UniRepLKNet-S/B/L/XL/H。

title=

Step 3: Generalizing Large-Kernel ConvNets to Multiple Modalities

为了利用UniRepLKNet的通用感知能力，作者对不同模态的数据进行预处理，得到的嵌入图 title= ，其中B是批量大小，由模态 title= 确定，并将UniRepLKNet的第一个层的输入通道配置为 title= 。为了简单起见，其他部分的模型与最初为无模态图像设计的UniRepLKNet相同，没有进行任何模态特定的定制。

时间序列。令 L 和 D分别表示时间序列序列 title= 的长度和维度，作者采用 Corrformer [46] 中的嵌入层将其分成 n 个节点，然后将其映射到潜在空间 title= （ title= 和 n是嵌入层的可配置超参数）。然后作者将其 Reshape 为一个单通道嵌入图：

title=

音频。令T和F分别表示时间帧数和频率bin数，作者使用 title= 来表示音频数据。一个样本被看作是一个 1 x T x F 的嵌入映射，类似于单通道图像，所以 title= \=1，H=T, W=F。

title=

点云。假设样本包括每个由X/Y/Z坐标表示的P个点，作者使用一系列卷积层生成三视图投影[28]。作者将生成的投影的分辨率配置为224，以便\=\=224，\=3。

title=

视频可以表示为 title= 帧，每帧都是一个 3 x h x w的图像。作者可以通过将帧维度合并为高度和宽度维度来进行 Reshape ，从而得到一个可以被视为单个图像的表示，该图像是通过将 title= 帧按照（例如，将 title= 帧拼接在一起）的方式排列得到的。例如，在作者的实验中， title= \=16，h=w=224，因此 H=W=896。通常，

title=

Step 4: Fusing Multimodal Features with Large Kernel Convolution

除了提取特征外，作者还进一步探讨了更大核卷积以融合多模态特征，如交叉注意力[84]。受到不同形状特征融合的灵活性启发[85]，作者提出了一种不对称的大核卷积，以广泛融合不同形状和模态的特征。作为将X和的Y两个特征融合在一起的对称注意力机制，其中 title= ， title= ， title= 和 title= 分别表示一个 Token 序列的长度，D表示特征维度（请注意，特征图 title= 可以轻松地 Reshape 为 title= ）。

对称大核卷积使用一个特征图作为卷积核来卷积另一个特征图，从而实现多模态特征的动态和上下文感知融合。具体而言，卷积操作通过将 Y 视为应用到 X上的卷积核来实现。在这个设置中， Y中的每个元素都作为动态滤波器，根据其上下文信息来调整 X。输出特征图Z可以表示为：
$${Z}_{i, j}=\sum_{k=1}^{L_{2}} {X}_{i+k-1} \cdot {Y}_{k, j}$$
表示X从位置i开始与定义为的滤波器之间的相关性。这种方法使得X可以动态地受到Y中的模式的影响，从而促进了两幅特征图的适应性和有效性融合。它有效地捕获了特征之间的内在相关性，使其成为多模态特征融合任务的计算高效替代方案。

4 Experiments

Experiments for Visual Recognition

ImageNet分类. 遵循ConvNeXt [16]的设置，作者在ImageNet-1K上使用广泛采用的300个epoch的训练收据，训练UniRepLKNet-A/F/P/N/T/S；作者在ImageNet-22K上预训练UniRepLKNet-S/B/L/XL，使用90个epoch的收据，并在ImageNet-1K上微调30个epoch（详见附录了解详情）。由于作者的目标是开发运行速度高的模型，作者在相同A100 GPU上评估实际吞吐量，批次大小为128。表5显示了在ImageNet-1K验证集上的top-1准确性，结果按吞吐量排序。作者将结果分为七个部分，以提高可读性。

1) UniRepLKNet-A/F在准确性和速度方面分别优于ConvNeXt-V2-A/F by 0.8/0.6。

2) UniRepLKNet-P/N在明显优势下优于FastViT-T12/S12和ConvNeXt V2-P/N。

3) UniRepLKNet-T在多个型竞争对手中脱颖而出。

4) UniRepLKNet-S在速度和准确性方面均优于一系列小型和甚至基础级模型，速度几乎与InternImage-T媲美。

5) 在ImageNet-22K预训练后，UniRepLKNet-S甚至接近RepLKNet-31L的准确性，速度快3倍。UniRepLKNet-B明显优于CoAtNet-2和DeiT III-B。UniRepLKNet-L在准确性和吞吐量方面均优于InternImage-L。

6) 在XL Level 上，UniRepLKNet-XL在准确性和吞吐量方面均优于CoAtNet-3和DeiT III-L，速度快2倍多。

title=

COCO 目标检测和实例分割。作者将预训练的 UniRepLKNets 作为 Cascade Mask R-CNN [102, 103] 的backbone，并采用标准的 3x（36-epoch）训练配置与 MMDetection [104] 一起。

表6 显示 UniRepLKNet 分别优于 Swin、ConvNeXt、RepLKNet 和 SLaK，分别代表5iTs、现代中核 ConvNets 和现有大核 ConvNets，并与 InternImage [88] 相媲美，InternImage 是一种最新、强大的架构，采用了变形卷积。

title=

ADE20K语义分割。作者在ADE20K[105]上使用预训练的UniRepLKNets作为UPerNet[83]的backbone，并采用标准的160k-iteration训练流程与MMSegmentation[72]配合。

表7报告了验证集上的mIoU。令人印象深刻的是，UniRepLKNet在InternImage和其他模型之上。

title=

Universal Perception on More Modalities

时间序列。 遵循Corriformer [46]的研究，作者在全球温度和风速预测挑战7（Global Temperature and Wind Speed Forecasting challenge 7）上进行实验，该数据集来源于国家环境信息中心（National Centers for Environmental Information, NCEI）。

GFS 8代表全球预测系统（Global Forecasting System）。这个庞大的数据集包含了从2019年到2021年每小时平均的风速和温度数据，数据来源于具有不同地理尺度和密度的3,850个站点。为了与Corriformer [46]进行公平比较，作者使用其嵌入层（如在第三节中介绍的），解码器，并仅将其编码器 Transformer 替换为UniRepLKNet-S。

作者还与各种方法进行了比较，包括统计和数值方法。表12显示，UniRepLKNet提供了最新的预测精度，实现了全球温度和风速预测的最低误差，分别为MSE和MAE的7.602，1.832，3.865和1.301，参数比现有深度学习方法更少。

值得注意的是，UniRepLKNet，作为一个通用的模型，在精确度和效率上都超过了时间序列专家，如Pyraformer [113]和Corriformer [46]。UniRepLKNet的显著优势在于，它为时间序列预测的架构讨论开辟了新的途径，并提出了一个可行的 Transformer 模型替代方案。

title=

音频：作者使用Speech Commands V2 [159]，其中包含35种常见语音命令的105,829个一秒录音。表8显示，UniRepLKNet可以无缝适应音频，并在AS-2M上实现令人瞩目的98.5%和48.5%的准确率，甚至无需预训练。

与AST [30]和Audio-MAE [93]等 Transformer 相比，UniRepLKNet在参数更少的情况下脱颖而出。与为音频设计的先前的卷积神经网络相比，UniRepLKNet在无需定制结构的情况下实现了更好的性能，突显了卷积神经网络在音频领域的未被充分利用的潜力。

视频。Kinetics-400 [160] 包含 240k 个训练视频和 20k 个验证视频，涵盖 400 个动作识别类别。尽管 top-1 准确率（54.8%）略低于最先进的架构（如 MViT [32]），但作者注意到 UniRepLKNet 是一个没有预训练的一般性模型。与最新的通用方法相比，如 ImageBind [27] 和 Meta-Transformer [28]，UniRepLKNet 显示更高的准确率且无需预训练。

点云。作者通过评估UniRepLKNet在学习3D模式方面的能力，探讨其在超越传统2D图像和音频的2D信号方面的灵活性。作者使用ModelNet-40 [161] 3D形状分类任务，该任务包括40类CAD模型的9,843/2,468训练/验证样本。表9显示，UniRepLKNet在ObjaverseLVIS上实现了总体准确率（OA）93.2%和平均准确率（mAcc）90.3%以及50.3 Top-1准确率。

核大小对性能的影响 为研究不同核大小对性能的影响，作者将UniRepLKNet与较小的核大小模型进行比较。作者采用相同的模态特定预处理方法和训练配置进行公平比较。作者将ResNet-101作为小型核的典型代表卷积神经网络，因为它与UniRepLKNet-S具有可比参数。表11显示，对于作者的特定情况，大核至少在通用感知方面至关重要。

title=

Scalable Multimodal Pretraining and Generation

阶段0：CLIP预训练。 作者使用UniRepLKNet-L作为图像塔，采用标准投影，并遵循之前实践[54, 138]使用与使用11亿文本样本预训练的ViT-g-14模型大小相同的文本塔。组合图像+文本CLIP模型的参数大小为1.4亿。与包括OpenAI CLIP-L [136]，OpenCLIP-L [54]，FLIP-L [137]和OpenCLIP-ConvNaeXt-L [16, 54]在表13中的26个零样本任务中的其他相同规模模型相比，UniRepLKNet在零样本图像识别能力方面表现出色（72.1 vs 72.4）。值得注意的是，与作者的CLIP模型相比，EVA-01-CLIP-g/14模型的参数数量多出3倍（72.4 vs 72.1）。

第一阶段：大规模视觉语言模型（VLM）预训练。 在CLIP预训练之后，作者使用预训练的CLIP-UniRepLKNet-L进行大规模VLMs的训练。具体来说，作者使用 Baseline LLaVA-v1.5 [156]，它采用卷积backbone，并集成文本-图像对齐和视觉指令过程。具体而言，作者使用LLaVA预训练数据来对齐Vicuna-7B和UniRepLKNet进行预训练，然后使用LLaVA-SFT-665k进行视觉指令调优。

表14显示，UniRepLKNet-Chat-7B在视觉问答（VQA）、图像描述和多模态基准任务等多个领域都取得了显著优势。值得注意的是，在GQA任务中，UniRepLKNet-Chat-7B得分59.8，在视觉专家LLM中表现突出。在VQAv2任务中，其得分80.2，超过了Flamingo、InstructBLIP和IDEALF等模型。此外，在OKVQA任务中，UniRepLKNet-Chat-7B获得59.3分，反映了其强大的性能。

该模型在TVQA和SQA任务中的准确率分别为62.7和72.5，展示了其强大的文本理解和问题回答能力。此外，其卓越的表现还体现在MME基准测试中，得分为1569.5，突显了其在多模态理解和推理方面的效率。模型在多个任务上的平衡表现强调了其多样性和鲁棒性，使其成为多模态大型语言模型领域的改进VLM。

title=

5 Conclusion

在本文中，UniRepLKNet在图像识别方面表现出色，并在音频和时间序列数据上取得了显著的成果，超越了多个专业模型。

传统上，卷积神经网络（CNN）主要在视觉任务上表现出色，然而，基于Transformer的架构的出现使得研究行人寻求处理多模态数据的新范式，从而将CNN的关注点转向了其他方向。

这些结果标志着CNN在其原始领域中的“复兴”，并展示了大核卷积神经网络的潜力去“征服”新的领域。

作者希望这一进展能激发对大核卷积神经网络的进一步研究，鼓励新的应用和优化，以扩大卷积神经网络在更广泛的数据模态上的效用。

参考文献
[0]. Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations.

来源：集智书童

推荐阅读

欢迎大家点赞留言，更多Arm技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

大核ConvNets的秘密武器 | UniRepLKNet与视觉Transformer的较量

1 Introduction

2 Related works

3 A Roadmap to Universal ConvNets

Step 1: Making Large Kernels Practical

3.1.1 Making Large Kernels Efficient

3.1.2 Making Large kernels Effective

3.1.3 Evaluating Large-kernels ConvNets

Step 2: Designing a Competitive Large-Kernel Architecture

3.2.1 Block Design for Large-Kernel ConvNets

3.2.2 Micro Design with Structural Re-parameterization for Large-Kernel ConvNets

3.2.3 Kernel Size of Large-Kernel ConvNets

3.2.4 Scaling Rule of Large-Kernel ConvNets

3.2.5 Architectural Specifications

Step 3: Generalizing Large-Kernel ConvNets to Multiple Modalities

Step 4: Fusing Multimodal Features with Large Kernel Convolution

4 Experiments

Experiments for Visual Recognition

Universal Perception on More Modalities

Scalable Multimodal Pretraining and Generation

5 Conclusion

推荐阅读

目录