炼丹心得 | 攻坚“大模型”，寻“统一”之道 - 极术社区

在于日前落下帷幕的2022 旷视技术开放日（MegTech 2022）活动上，旷视联合创始人、CEO 印奇表示，“2+1”的 AIoT 核心技术科研体系，是支撑旷视未来不断走向 AIoT 商业化成功的重要基石。

其中，由“基础算法科研”和“规模算法量产”组成的AI技术体系，是构成这一整套 AIoT 核心技术科研体系中的重要组成部分。

在相当长的时间里，“基础算法科研”工作极大地推进了旷视的“解放思想、实现认知升级与技术突破”。而回顾计算机视觉的发展历程更不难发现，每一代基础模型的突破都极大程度地促进了视觉 AI 的发展，推动了算法在更多的场景得到应用。

在旷视，进行“基础算法科研”，深挖“基础模型的研究、开发和部署”问题的担子落到了旷视研究院基础模型组负责人张祥雨及其小组成员的肩上。

针对一次次追根溯源实现认知升级的工作，张祥雨坦言，“一个好的基础模型对整个系统的性能提升是决定性的。如何才能设计出高速、高精度、低功耗的基础模型？培养并训练属于自己的科研品味与研究方法，持续实现认知突破与升级很重要。”

解放思想开启创新之路

迄今为止，张祥雨的成绩单已足够闪耀。他在 CVPR/ICCV/ECCV/NIPS/TPAMI 等顶级会议/期刊上发表论文 50 余篇，Google Scholar 引用数超过17万次，并在设计ResNet、ShuffleNet、RepVGG 等神经网络模型上持续高效输出。

在他的带领下，基础模型组更是一年一个台阶地向上走，组内“每人一篇一作顶会”的小目标也顺利实现。CVPR 2022，他们在通用大模型方面提出了基于大 Kernel 的 CNN 和 MLP 设计范式，其中就包括动态的卷积神经网络 Focal Sparse CNN；此外，他们还将关于自动驾驶感知新网络PETR的前期工作发表在 ECCV 2022 上。张祥雨强调，“ PETR 几乎没有人工设计的成分，而是完全基于相同的架构处理多视角、多时刻、多任务，以及多模态的输入。”

于此时回溯这些在神经网络研究领域具有举足轻重地位的技术创新工作，不免惊叹他所在的研究团队“押中风口”的预判能力以及紧扣商业世界发展脉搏的前瞻视野。但若将一切简单地归因于运气显然有失公允。事实上，得益于恩师孙剑博士的指引，他和身边的伙伴们总是试图找到那些“反直觉”的开创性认知，将其固化为知识，并最终沉淀为技术信仰。

“一旦你发现原来从没想过的一件事情是可以做的，这往往能带来开创性成果。” 张祥雨拿学界对 Transformer 与 CNN的争议来举例，“在模型设计方面，学界都在关注 Transformer 与 CNN 的不同，争论到底哪个更好用。但我们看到了二者背后的相同点，我们认为这跟究竟是 Transformer 还是 CNN 的关系不大，重要的是它的感受野大不大。同时这也表明，相较于表示能力，模型架构的优化特性往往更为重要。”

沿着这一思路继续向下思考，不难发现，“一旦模型统一，AI 加速器的设计就会非常简单，即一个模型可以适用于各种设备和各种任务，但是它带来的挑战也是显著的。比如说，要实现在多个任务上共享一个模型，一个算法，就必须要加深对这个系统，对这个模型的认识，才能抽象出共性，进而才能使用统一的模型达到过去专门为所有的系统单独设计模型才具有的性能。”

而诸如此般的认知上的先进性，正是开启科技创新之路的序曲。

阅读文献养成研究体系

“反直觉”从何而来？事实上，石破天惊的重大发现在科研界里并不多见，许多“新鲜事”不过是新瓶装旧酒，是过去早已发现的某些现象的另一种表示，“没有好的 idea ，难发论文，发现前人都已做过研究”则始终是科研人员的最头疼之处。

在基础研究组的组员们看来，碰运气是极小概率事件，根本方法还是要改变自己的知识先验，不断转变自身思维。

张祥雨很推崇加州大学伯克利分校电子工程与计算机科学系马毅教授的文献考古研究方式。“马毅老师会一直沿着文献的链条去找某一个思想最早是从哪篇文献出来的，虽然很多文献发现了一些事实，但一篇论文通常只会传递有限的结论，可能作者也没有意识到这个事实在另外一些情况下的意义。找到那些现有知识体系无法解释的‘点’，深入挖掘这些事实背后的关系，尝试用自己的语言去解释它并将它们有机地串联起来，方能形成自己的技术信仰与研究体系。”

将散落在不同文献里的“珍珠”串起来，需要大量的心力。在 RACV 2021 举办的一场围绕 Transformer 展开讨论的圆桌论坛活动上，张祥雨摆出一张极为严谨的脑图来引导现场观众跟随他的思维脉络。

每一个框内的观点都有不止一位学者发表论文论述过，但他沿着结论之外的论证过程，将所有文章的论证过程、引用、论据严丝合缝地连接起来，进而分析出一些与陈词滥调截然相反的事实。

饶是如此，“有自己的思想，做些不一样的事”在实践层面仍要经历种种检验。人工智能技术持续向前演进，修正和反思自身的技术信仰沦为日常之功，这既要全面收集信息，清楚目前的技术上限做到哪儿了，也需要靠自己做实验来验证，即“带着答案找问题”。诚如张祥雨所言，“一些关键技术始终是走一步看一步，做技术路线的选择也总是存在风险的。”

在刚刚结束的2022旷视技术开放日活动上，张祥雨旗帜鲜明地指出，“大”和“统一”是当今视觉AI基础研究的新趋势。对此，他强调，旷视定义的“大”，是要以创新的算法充分发挥大数据、大算力的威力，拓展 AI 认知的边界；而如果能用统一的算法、统一的模型来表示和建模各种数据、各种任务，将可以得到简单、强大、且通用的系统。

坚持原创做理想实干派

身为孙剑博士的“弟子”，张祥雨坦言，他的科研品味、科研价值观、科研心态乃至团队沟通协作能力几乎都是从“孙老大”身上学来的。正因如此，他始终认为，“能够独立思考，拒绝盲目跟风；强预判能力，敢于拍板研究路线；扎实基本功，清楚如何做是对症的”等等才是人工智能领域高端人才必不可少的素养。

而基础模型组的科研氛围，或许恰可看作这些能力的实操落地版本。依循计算机视觉的主要任务逻辑，基础模型组的研究方向着重在通用图像大模型、自动驾驶大模型、计算摄影大模型和视频理解大模型四方面，组员们可以在参与项目及自由探索两种模式中任选其一。

项目制设有明确的时间节点，会定期审查并跟踪进展，更需要大家伙儿群策群力，及时解决出现的问题；而自由探索则是根据组员自身兴趣，充分发挥组员们的主观能动性来进行课题选择。张祥雨在组内承担着“定方向”与“给细节”的职责，但他说自己更重要的责任是维系好组员们可以无所顾忌地做自己喜欢事情的氛围，激发大家伙儿的创造力。

踏进深度学习的浩瀚海洋至今，已是匆匆10年过去。依着前辈们开拓的路，曾经的青年学子也终成长为能够独当一面的科研工作者，形成了属于自己的技术信仰。不久前，张祥雨决定将 Base Model 组正式更名为 Foundation Model 组，仅一字之差，却折射出基础模型组致力于进行视觉大模型研发的雄心壮志。

在旷视技术开放日活动的演讲尾声，张祥雨表示，基础科研将始终坚持原创、实用和本质的科研价值观。“只有实现原创，我们才能突破现有技术的认知边界，只有做到实用，我们才能把科研成果真正转化成产品，转化成实际可以落地的价值。只有发现本质，我们才能从纷繁的表象中看到模型背后的创新点，更好地实现“大”且“统一”的基础模型研发。”

此番表述，与旷视始终奉行的“技术信仰、价值务实”理念一脉相承。十年磨剑，“星星之火，可以燎原”。

最后，对于有志于从事计算机视觉科研工作的年轻人，张祥雨还结合自身经历及组内情况，给出四点干货建议：

广博的知识累积

海量阅读文献极其重要，“就我接触到的世界知名学者来说，没有一个不是阅读量大得惊人，现在很多人搞科研不看论文，这是不对的。”因此，在基础模型组内部，所有成员都必须参加每周一次的“Paper Reading”，并按时提交解读报告。

敏锐的问题意识

在大量阅读原始文献的基础上，更要具有汇总知识、发现问题的能力。“一篇有价值的论文一定会有一些是按我的知识体系来讲解释不了的点，我就会记录下来，以后再看其他文献的时候，一旦遇到相似或相反的情况，就会反思这件事到底因为是实验做得不对还是隐含着我之前没有意识到的细节，又或者这里是一个新的认知。”

扎实的数理基础

扎实的数理基础能够提升 AI 研究的上限，但数理知识很难在毕业之后再腾出大段时间去补习，因此他勉励在校同学要努力打好数理基础。为防止遗忘数理知识点，张祥雨也会每六个月左右就重新刷一遍本科阶段的教科书习题以保持感觉。

纯粹的科研心态

因为无法消化论文产出压力所带来的焦虑情绪，是绝大多数人放弃科研的最主要原因。但科研的有趣之处就是从不懂到懂，从不知道到知道，论文只是这个过程的副产品，要保持科研纯粹的初心。

来源：旷视研究院
作者：R

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。
加入旷视：career@megvii.com

炼丹心得 | 攻坚“大模型”，寻“统一”之道

推荐阅读

目录