旷视研究院 · 9月28日 · 北京市

沈向洋对话张祥雨:重新审视CNN中大卷积核问题

以下文章来源于ReadPaper论文阅读平台 ,作者ReadPaper

「沈向洋带你读论文」CV系列专栏,本次邀请到旷视研究院基础模型组的负责人张祥雨,为大家讲解论文Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs,重新审视CNN中大卷积核问题。

更多精彩访谈已经同步在【ReadPaper论文阅读】bilibili官方账号,感兴趣的同学也可以移步观看,喜欢别忘了一键三连鼓励Paper君~

image.png

张祥雨,旷视研究院基础模型组负责人,主要研究方向包括深度卷积网络设计、深度模型的裁剪与加速等。张祥雨在CVPR、ICCV、ECCV、NeurIPS、TPAMI等顶级会议和期刊上发表论文50余篇,Google Scholar 总计引用数超过18万次。

张祥雨的研究成果包括世界上第一个上百层的深度神经网络深度残差网络ResNet、移动端高效卷积神经网络ShuffleNet v1/v2、服务器端高效神经网络RepVGG、神经网络架构搜索算法SPOS等,在业界得到广泛应用。2019年,张祥雨入选福布斯中国30岁以下精英榜。同年,张祥雨入选成为智源青年科学家。张祥雨毕业于西安交通大学,于2017年取得博士学位。

论文标题:

Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

论文链接:

https://readpaper.com/paper/663530411408506880

论文摘要:

(论文一作解读)卷积神经网络(CNN)中的大卷积核设计已被埋没许久,本文在现代背景下重新探索之。本文指出,采用少量大卷积核的设计范式要明显优于当今主流的堆叠大量小卷积核的范式。本文总结了5条准则(例如应用结构重参数化的depthwise大卷积)以设计高效又强力的大卷积核CNN。基于这5条准则,本文提出一种称为RepLKNet的CNN架构,其中的卷积核大到31x31。与Swin Transformer相比,RepLKNet在ImageNet和目标检测、语义分割任务上的性能相当或更好,且RepLKNet速度更快。此外,RepLKNet也展示出了在大数据和大模型上的优越的性能,如ImageNet上精度达到87.8%,ADE20K上mIoU达到56%。最后,本文的研究揭示了大kernel的CNN具有一些与视觉Transformer相似的好的性质,如超大的有效感受野和较高的shape bias(即模型做出的预测更多依赖于物体的整体形状而非局部纹理),这些都与传统的小kernel的CNN显著不同。

代码和模型开源:https: //github.com/megvii-research/RepLKNet

image.png

沈向洋:今天非常高兴跟你聊一聊Large Kernel(大卷积核),那么我们就直接进入论文吧。

这篇论文我第一次看的时候很震惊,31x31这么大的卷积核,能不能给我们讲一讲这篇论文研究动机是什么?解决的主要问题是什么?

张祥雨:接下来我就跟大家快速介绍一下:为什么会有这么大的一个卷积核?

这篇论文发表于今年的CVPR 2022,之前已经构思了很久,早在去年的VALSE和RACV上我就介绍了这篇论文主要的思想。这篇文章的贡献主要有三点:首先我们指出在卷积神经网络设计上采用少量的大卷积,是比大家通常使用的大量小卷积的设计范式更优秀的。我们总结了五条架构设计的指导原则,来帮助我们训练更好的大卷积架构;第二点贡献是我们提出了一种大卷积核神经网络架构叫RepLKNet,它的卷积核尺寸可以达到31x31,我们发现这种架构,它的性能是显著强于传统的像ResNet这些CNN的架构。并且跟现在最流行的Vision Transformer也可以取得相似或者更强的性能,同时执行效率还更高;最后一点,我们指出对于Vision Transformer来说,它self-attention(自注意力)的大感受野,其实是它取得优异成绩的重要原因:在使用了大卷积核设计后,CNN也可以学到这个相同的性能,并且在Shape bias等方面和ViT的表现更为接近,这就表明了ViT的特殊self-attention的函数形式可能并不是关键,关键的是ViT的self-attention带来的大感受野,这个才是最重要的。

简单介绍一下这篇论文的动机。其实从ViT在CV上取得巨大成功之后,我们就开始思考的一个问题:ViT它到底为什么强呢?

之前有很多论文从不同的角度去解释了ViT的强大之处,但是大部分人还是关注ViT的self-attention这件事,也有很多其他的工作就指出了:自注意力(self-attention)机制可能也不是ViT最关键的因素。比如有些论文就指出Query和Key的交互并不是影响最大的单元,又有一些学者发现multi-head self-attention (MHSA 多头自注意力)换成其他的block也能取得比较好的性能。这就给我们一个启发——ViT的设计要素还有它的潜在优势,可能不是self-attention独有的东西,那CNN是不是也能从ViT中借鉴这些成功的设计思想?

于是我们就反思:现在的ViT和CNN除了在self-attention之外,还有哪些东西是不同的?对于Vision Transformer来说,它使用了self-attention来建模这种空间的连接,然后我们发现它们空间上的连接要么是比较大,要么虽然是局部但是它的尺寸也是比较大。CNN是怎么建模中间连接的呢?早期大家有一些基于大卷积核的尝试:比如像AlexNet用的11x11在它的第一层。但是VGG之后,大家发现主流的CNN设计都是有一些小卷积核,比如说1x1、3x3所组成的。大家普遍认为大的感受野是可以通过大量小感受野的卷积堆叠而成,通过这种方式来建模长程的感受野,所以对比这两种模式就Vision Transformer和CNN,会发现建模感受野——也就是空间连接的方式是很不一样的。

那么到底是这种连接方式是不是导致CNN和Vision Transformer性能差异的原因呢?受此启发,我们开始分析:使用少量的大卷积核相对于大量小卷积核,如果会更好,那么主要体现在哪些方面?

经过思考我们总结了如下几点:第一点是相比直接加深,采用单个大卷积核可以更高效地提升有效感受野。因为根据有效感受野理论,有效感受野的尺寸,它和卷积核尺寸成正比,和卷积层数开根号成正比,也就是说通过添加深度的方式提高感受野,效率上是不如直接把卷积核拉大的。更重要的是,当我们采用加深的方式来提升感受野时,我们会遇到很大的优化问题:比如说早在VGG时代,大家就发现了类似VGG这种直筒状网络,可能十六层到十九层就已经达到深度的上限了,继续增加深度会产生显著的优化问题;而ResNet看起来可以做得很深,甚至可以达到成百上千层,但是这种加深是有代价的:之前的一些论文就表明ResNet虽然加深了,但是它的有效深度并不深;它的很多信号是从shortcut层过去的,并没有增加它的有效深度,因此有人认为ResNet其实是一系列很浅的神经网络的融合。既然是一些很浅的神经网络的融合,那我们只采用小卷积核是很难提高它的有效感受野的。我们在实验中发现把ResNet从101层提高到152层,虽然深度提升了很多,但是它的有效感受野大小其实基本不变的,仍然是在中间很小的一块,但是如果我们把卷积核尺寸增大,比如说从3增加到13,再增加到31,就会发现有效感受野扩大的趋势就非常显著。

image.png

我们还发现在全卷积结构的视觉下游任务中,卷积核增大所带来提升是更明显的,比如对于检测任务和分割任务,卷积核增大的时候在ImageNet上性能趋于饱和,但是它的下游性能处于一个持续增长的状态。

既然大卷积核这么好,那为什么之前的工作不使用大卷积核呢?其中一个可能的原因是大卷积核不够高效。之前大家认为卷积核增大计算量会成倍增加导致不够高效,但经过思考,我们认为这一点是有办法克服的。我们可以用更浅的结构如卷积核分解,甚至重新编写底层算子,是可以把大卷积核变得更为高效。

大卷积核还有什么问题呢?除了它比较慢之外,还有一个问题:大卷积核难以兼顾局部特征,我们知道做视觉分类任务局部特征是非常重要的,但堆叠了很多大的卷积核也容易出现过度平滑的现象,从而导致性能退化。但其实这一点也不是本质的缺陷,也是有办法克服的,解决方法就是引入Identity shortcut。或者采用我们之前在RepVGG等一系列工作中提出的结构重参数化方法,就可以有效地把局部特征和全局特征加以兼顾。

最后一点,大卷积核相比于注意力模块来说,它的卷积归纳偏置是更大的,在大数据集上它的表示能力可能会更弱,但其实这一点也是有办法克服的:可以在较小的特征图上使用更大的卷积,通过利用padding这种方式,引入一些绝对位置编码,部分破坏平移等变性,因此获得更强的特征表达能力。实验结果也支持了这一点:即便是对于大模型大数据量,大卷积核的CNN网络也可以取得媲美甚至超过Vision Transformer的性能。
image.png

总结一下,为了把大卷积核用好,我们认为大卷积核相对于大量小卷积的架构还是有明显优势的。但要把它用好的话,还需要对网络结构进行改造。我们提出了五个设计的指导原则,利用这些原则,可以避免大卷积核带来的性能退化问题,达到更高的性能。在这些原则的指导下,我们设计了一种非常简单的神经网络架构,叫做RepLKNet 。它的宏观架构直接参考了Swin Transformer,也是目前性能最强的Vision Transformer之一。它的唯一区别就是我们使用很大的Depthwise卷积取代了SwinT自带的window attention,我们用重参数化技术来重参数化大卷积,在推理的时候这些小卷积核将会吸收进大卷积,因此不会带来额外的计算复杂度。通过实验表明它的性能在ImageNet性能是显著强于之前的CNN架构,跟现在比较流行的Swin Transformer等Transformer相比,性能是相当的并且速度还更快。对于更大的数据也展现出更强的数据缩放和模型缩放的能力,在检测分割等下游任务上也有同样的性能提升。

image.png
大家可能要问,为什么大卷积核对视觉下游任务尤其重要?这里面我提出了几点观点:首先ImageNet其实有局限性的,因为之前的工作倾向于认为ImageNet的分类可能更倾向于纹理特征,显然,人类做视觉识别任务可能更偏向于物体的形状特征,而不是纹理特征。这样就导致了神经网络既可以使用纹理,也可以使用形状来分辨物体,因此在ImageNet上模型跟人类视觉是不是更接近,可能关系并不大,并且ImageNet分类任务对感受野的要求也不高,因此我们设计一个有更大感受野的模型可能对ImageNet也没有什么提升。但是下游就完全不一样,下游更倾向于使用形状特征,并且需要很大的感受野,因此之前大卷积核可能在ImageNet上还测不出来它的性能,它主要体现在下游上有很大的提升。另外,这就涉及到下一点:我们发现大卷积核可以有效地提高神经网络shape bias (形状偏差)。在此之前大家也普遍认为这个是ViT才能做到的事,我们通过实验验证其实这里的关键并不是ViT,而是感受野大不大。只要感受野足够大,神经网络就可以学到比较强的shape bias。

最后小结一下:这个工作挑战了很多视觉上的一些传统认知,我们要打破一系列思维惯性才能想到,要采用这么大的一个卷积核才能取得更好的效果。

沈向洋:讲得非常非常好,我又学到了很多!在讲解当中可以感觉到这篇文章不仅仅只受了一两篇文章的影响,而是因为你这么多年来对DNN(深度神经网络)不断地实现、改善,这些经验的积累——加上Transformer特别是Vision Transformer出来以后,给咱们做CNN的人带来很大的冲击,引发了你更多的思考。

刚才你讲到感受野,也提到了self-attention,请你分享一下做Vision Transformer这篇文章的心路历程。ViT出来以后也给了我很大的震撼,也想听听你对Vision Transformer的看法。

张祥雨:其实Vision Transformer对我们这种长时间研究模型设计的人有很大的冲击,大家都不由自主地在想到底ViT做对了什么,能让性能变得这么强呢?不做模型的人可能会认为ViT是一个非常新颖的东西,但事实上随着Google的第一篇文章Attention is All you Need 出来,在NLP任务上大获成功之后,很多搞CV的同行都尝试把自注意力应用到CNN网络来。经过多年的尝试,大家的结论基本已经定下了:它对于ImageNet这种上游任务其实没有太多好处,其好处主要还是体现在下游,尤其是在分割这种任务上,但是好处总体来说还是比较有限。

image.png
ViT出来以后,看起来没有引入新的东西,它还是基于之前比较老的那一套自注意力机制,但为什么可以做得这么好?不只是我,整个业界尤其是做模型的研究人员其实都在想这个问题。最开始大家可能会觉得它不是一个本质的提升,因为Google为了把ViT训练起来用了很多数据,也用了很多技巧。之前的ResNet如果我也用这么多数据和技巧比如用一些Reset的改进版,像ResNet-D+SE,是不是也可以做到这么高?一开始大家心里会有这样的存疑,但是很快又会发现这个质疑可能是不成立的:因为CNN在用了这么多技巧之后,可以在ImageNet上也取到这么高的点;一旦来到下游,效果就明显不如ViT了。ViT在下游有非常强的迁移学习能力,这一点和我们采用大量技巧训练出来的传统CNN很不一样。另一些人则看到了ViT在大数据量的价值,因为ViT从函数形式上来说是传统CNN的一个拓展版本,是它的超集,即inductive bias (归纳偏置)更弱,或者说它的表示能力更强。一旦当我们数据规模达到一定的程度,任务难度也达到一定程度,它的性能理应就是要超过CNN。

这两点看起来也有道理,但也会有人产生反思:到底ViT的提升是不是很本质?有些人认为Transformer的计算量很大,是很慢的,硬件资源的消耗也比较大。在相同速度下,它并不如CNN。有一些人从性能的角度去思考这个问题,通过一系列的消融研究,发现自注意力的KQ点积这个项并不是最关键的,但如果去掉了这一项,那还能叫Transformer吗?是不是涨点原因还有其他一些因素呢?当然也有学者对Transformer持坚定的支持态度:有人就认为Transformer解放了CNN自带的平移不变性等inductive bias(归纳偏置),它在大数据、大模型下理应效果就更好,另外还有一些研究者由此想到,可能Transformer在更难的任务上效果会更好,因此想到用自监督的方式来训练Transformer以达到更好的效果。

这个社区至此就开始分裂了,有人非常坚定认为Transformer并不是最简化的一个模型方案,他认为会有更本质的东西体现在这些Transformer设计中。有些学者就指出了大卷积核的方式,加上动态网络才是下游涨点的关键。我们在做这篇文章的时候也发现这点,确实是非常本质的一点;而另一拨支持Transformer的则针对Transformer速度比较慢,消耗显存资源的这个问题又提出了一系列有效率的Transformer,比如利用局部先验,或者通过降分辨率,或者稀疏采样,又或者动态网络的方式,可能Transformer在更难的任务上效果会更好。

而Transformer的坚定支持者们则进一步从自监督和解放归纳偏置等方面指出,Transformer统一了跨领域建模范式,因此它非常适合做多模态大模型。像视觉-语言等多模态大模型,大家发现可以通过Transformer统一来进行表示。当人们在继续在研究时,我们发现沿着不同的线,大家的观点虽然可能不一致,但会发现一些共同的因素,比如说通过像我们这样对Transformer的架构进行梳理,归结出它的本质原因的这条路线,顺着这条路线可以发现其实大卷积核才算是涨点的关键,甚至可能大卷积核都不是关键,而是很大的这种密集连接,就是在空间上大感受野的建模其实才是关键。我们是用大卷积核还是用MLP(多层感知器),还是dilated convolution (空洞卷积),这些具体的函数形式也并不关键。而从Transformer解放了CNN归纳偏置这条研究线我们可以进一步思考:CNN是满足平移不变性的,这是一个很强的特性;而Transformer是解放了平移不变性,但它引入了排列等变性。能不能把排列等变性再进一步解放,所有都从数据中学习呢?所以就有学者提出了MLP网络——他们认为MLP网络具有更弱的归纳偏置,沿着这条线我是不是可以再进一步呢?

坚定支持Transformer的这条路则在模型大一统道路上继续往下走。最近可以看到一些工作使用Transformer不仅统一了多模态的输入,还统一了多模态的输出,甚至统一了多任务等。虽然整个社区觉得Transformer,就是ViT进入了CV社区以后,不同的人可能是有不同的意见,但最后发现认知都是螺旋上升的,也会得到相似的结论。

沈向洋:我记得当时孙剑给我看ResNet文章时,我问了一个问题,后来他在演讲里面弄了一张ppt,开着玩笑给了我一个答案。我的问题是,为什么当时你们做了152层就停掉了?实际上你们后来还做到了1001层。

今天我想问问张老师一个不一样的问题:为什么是31x31?为什么不是21x21,不是41x41?

张祥雨:31x31这个数字是非常偶然的。准确来说是受到显卡的限制,我们是在11G的卡上做的,这点跟当年只做到152层是一个道理。这是我们在ImageNet上能够训的最深的层数。

沈向洋:这点很有意思。ResNet热门了以后,一直都有人在用ResNet 50。很多工作一上来就用50层版本去算,大体上ResNet 50就可以做不错的结果,所以可能31x31也就够了。

张祥雨:其实31x31还有一个原因:RepLKNet 基本上还是更多地延续了CNN设计的基本思想。在ImageNet上训练我们输入都是224x224(分辨率),经过若干次(16位)下采样以后,特征图的大小大体上31x31就已经能够覆盖了整个特征图,这也是我们选择这个的主要因素。

沈向洋:这是一个很好的问题,实际还是要看感受野。ViT给了我们一个启示,要解所有视觉的问题,特别是要同时解决很多下游问题的时候,实际上还是要真正去理解图像。怎么样算真正理解图像?感受野需要把整个图像都感受到了,然后你才能明白里面是什么东西。

祥雨,我想我们在做计算机视觉、做人工智能的研究的时候,不管是图像、语言、甚至是现在的图形学,做的工作要用到大数据量来学习时,最重要还是要搞清楚到底要从中学习什么。实际上我们学的是里面一个低维的结构,当然未来能够上升到符号境界就更好了。

从数学上来讲,还是要找到数据里的稀疏性。特别是像你这样用了大的卷积核后,数据的表达应该是更好了。你讲到下游任务的表达能力,做了这么多年模型,你解的最重要的问题应该是表征学习。对于这个最重要的机器学习任务,你怎么看?

张祥雨:今年VALSE我也分享了我们的观点,我们最近也贴出了一篇文章:如何理解MIM (Masked Image Model)。我们认为对于表征学习来说,最重要的一点就是学习所谓的不变性,尤其是对于自监督表征学习来说,这个不变性其实是最重要的。只要涉及表征学习,我们永远绕不开的一个概念,就是我们的Information Bottleneck对于一个好的特征,它应该具有这样两个性质:第一,它跟我们的输入的互信息要尽可能地小。也就是说它得足够的稀疏,要足够的压缩。因为不对信号压缩,是去除不了信号和我们任务无关的部分的,只有压缩才能做好;

第二,它要跟我们的target,也就是我们优化的目标——比如说对于监督学习来说就是我们的标签——互信息要尽可能地大。也就是说一个好的特征应该是跟我们的信源尽可能压缩的。同时要跟我们的目标要尽可能相关,这才是一个好的特征。而具体到自监督我们会发现这个IB法则忽然不行了。为什么?因为没有了目标。既然不知道下游,那是不是可以不对下游做任何假设?我们尝试学一个特征对一切下游任务都是有用的,但很遗憾 ,这个是不可以的。

之前ICML有篇论文证明了这点:假如我对下游任务一无所知,没有任何知识,一个全局适用且是disentangle的表征是不可能做到的。这就像我们表征学习界"没有免费午餐"的原理。下游想做好,一个表征想在某一个任务或者一组任务上做得好,必须要理解这组任务本身的共性、有什么样的特点,这个共性或者特点其实就是不变性。具体到IB的公式里,这个不变性就是对于互信息相关性的那一项,用一个不变性特征Z'来代替了这个Y,同时对同一个Y也就是目标一系列表征的变换下,它在下游任务上都可以映射到同一组标签。

我举一个例子:对于人类认知来说,它对遮挡一般是鲁棒的,因为人可以从局部推知整体。比如我现在手挡住了我的身子,但你还是知道我是一个正在说话的人,这是一个典型的不变性。还有平移不变形:我的头移到左边,移到右边,你都知道这是一个头;还有放缩的不变性等等……满足平移不变/满足放缩不变/满足遮挡不变,并不能唯一判断这个特征是人的特征,这个是做不到的。但是它提供了识别人这样一个下游任务,是一个非常好的一个描述,我们称这个描述叫不变性。

在信息瓶颈理论里,这也可以看成是目标的信息上界,当你的上界、你的描述越精准——比如人是有一个比较小的脑袋和一个较大的身子的——当这个描述越精细,我们就认为这个特征就越好。这就是为什么大家在做对比学习,比如Google做SimCLR 时尝试了大量的数据增强,从中挑出了几个最好用的增强的原因。因为数据增强本质上它就是一种不变性,我不清楚我的下游任务是哪种不变性好,所以通过实验的方式,对于分类、检测、分割这一类识别类任务,大致总结了一些相对比较好的表征。为什么能好?是因为这种数据增强它学到了不变性,最适合分类、检测、分割。如果换一个任务,比如low level要暗光线恢复原图,这样一个超画质的任务,这些不变性还适不适用呢?这就未必了。

沈向洋:提到下游任务,还有一个很重要的事情。大概在五六年前,NLP方面有人写了一篇文章,觉得有人用特定方法去解决了某个特定的自然语言问题;又有另一个人用另外一个方法去解了另外一个问题,于是写了一篇文章鼓励大家应该做自然语言处理里面的十项全能,他提出了十个不同的任务。

我就在想,我们计算机视觉的人也许已经做了,也许还没有。如果还没有的话,我觉得应该定义一系列比较普遍的任务,也许要更加有区分度,要不太一样。像你刚才提到的,从不太好的图像恢复成好的图像是区别于分类、检测、分割的一种,跟形状有关的也可能是另外一种。如果我们可以能够定义一个好的十项全能任务,也许未来比ImageNet影响可能会更好,毕竟ImageNet还是太狭隘了。当然ImageNet当年是非常了不起的,但现在回过头来看,可能就已经变成历史,是吧?

张祥雨:对。

沈向洋:今天的收获非常多,非常感谢祥雨接受我们的邀请,学习了很多,欢迎下次再来!

张祥雨:谢谢!非常感谢沈老师邀请。

image.png
(回答来自论文一作)

Q1 论文试图解决什么问题?

视觉Transformer在很多任务上超过了传统CNN,但其实CNN的潜力并未用尽,还有很多设计可以尝试。例如,如果把kernel size设为很大呢?问题是,大家并不清楚在现代背景下如何优雅高效地使用大卷积核,特别是大到如27x27、31x31的超大卷积核。

Q2 这是否是一个新的问题?

当代CNN的主流范式是堆叠大量小卷积核,所以这是一个新的问题。

Q3 这篇文章要验证一个什么科学假设?

如果使用得当,超大卷积核可以大幅提升CNN的性能,甚至在大体量模型、大数据和下游任务上(这些都是视觉Transformer的强项)上比Transformer更好或相当。

Q4 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?

1)大卷积核模型:GCN、Local Relation Network、GFNet等。
2)结构重参数化相关:ACNet、RepVGG、DBB、ResRep、RepMLPNet等,主要作者包括丁霄汉、张祥雨、孙剑等。

Q5 论文中提到的解决方案之关键是什么?

大卷积核要使用得当,遵循本文提出的五条准则:
1)用depthwise大卷积加恰当的底层优化。
2)用shortcut
3)用小kernel做结构重参数化
4)以下游任务的性能而非ImageNet精度作为评判标准
5)即便在小feature map上也可以用大kernel

Q6 论文中的实验是如何设计的?

1)在MobileNet上通过对比实验,逐条验证上述准则
2)效仿Swin的宏观架构,提出一种称为RepLKNet的纯CNN架构,其中kernel size大到31x31
3)改变kernel size,证明RepLKNet的性能随着kernel size增大而提升,而代价很小,特别是在下游任务上
4)在ImageNet、ADE20K语义分割、COCO目标检测上用大体量模型和大数据与SOTA模型对比,表明RepLKNet的优异性能
5)分析有效感受野、shape bias等,发现RepLKNet的有效感受野非常大,shape bias高,这都显著区别于传统小kernel CNN。
6)将ConvNeXt中的7x7换成超大kernel,发现性能提升了超过一个量级(即ConvNeXt-Tiny提升到超过原ConvNeXt-Small,ConvNeXt-Small提升到超过原ConvNeXt-Base)

Q7 用于定量评估的数据集是什么?代码有没有开源?

ImageNet、Cityscapes、ADE20K、COCO
开源

Q8 论文中的实验及结果有没有很好地支持需要验证的科学假设?

支持。如上所述。
最关键的实验结果在于,证明RepLKNet的性能随着kernel size增大而提升,而且代价很小。这与传统认知相反。过去有若干工作都表明,kernel size大到一定程度以后,继续加大会导致精度崩塌式降低。

Q9 这篇论文到底有什么贡献?

1)提出在现代背景下优雅地使用大kernel卷积的五条准则。
2)提出一种大kernel CNN架构,称为RepLKNet。
3)展示了大kernel CNN的优异性能和在有效感受野、shape bias等方面区别于传统CNN的好的性质。

Q10 下一步呢?有什么工作可以继续深入?

1)与大kernel相配套的宏观架构设计和其他结构
2)大kernel在其他领域的应用

来源:ReadPaper论文阅读平台
作者:ReadPaper

专栏文章推荐

欢迎关注旷视研究院极术社区专栏,定期更新最新旷视研究院成果。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
加入旷视:career@megvii.com
推荐阅读
关注数
7652
内容数
154
专注旷视研究院学术论文解读推送,涵盖计算机视觉,文字识别等
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息