对话旷视研究院张祥雨｜ChatGPT的科研价值可能更大

最近，ChatGPT掀起了一场AI在大众圈的话题热潮，全民热聊中也对AI发展方向和未来发展趋势提出了很多问题，也有许多人想问以ChatGPT为代表的AIGC的兴起，对计算机视觉、AIoT的产业发展有何种启发。我们邀请了旷视研究院基础科研负责人张祥雨做客这次的对话，分享他的思考和观点。

👇戳视频抢先看内容👇

01 ChatGPT在语言逻辑推理，高阶指代关系推理的能力很强

但是...

Q：你与ChatGPT对话了哪些内容，你的使用感受如何？

张祥雨：自ChatGPT发布以来，包括这次爆火之前，我基本上每天都在使用。我主要关注的是它的逻辑推理能力，而不仅仅是它拥有哪些知识。我认为，逻辑推理能力对判断一个模型是不是达到了类似人的思维水平更重要。让我特别惊讶的一点是，ChatGPT在语言逻辑推理，尤其是在多轮对话，以及高阶指代关系推理的能力很强。当然它也有很多问题，主要是在常识建模、尤其是数学逻辑能力比较欠缺，对数字的敏感性（比如大小关系等）不强。总体来说，它的能力还是大大超出了我的预期。

Q：你如何看待目前全民关注ChatGPT的火爆现象呢？有人说它带动了AI新一轮的发展浪潮，你认同吗？

张祥雨：非常认同。其实带动AI新一轮浪潮的，不止是ChatGPT，它只是大模型技术的一种应用。这两年学术界在AI大模型，尤其是自然语言大模型方面取得了跨越式的发展。这里面的核心逻辑是什么呢？其实和大模型背后我们称之为scaling law（规模化效应）的性质有关。简单来说，就是在AI模型里，我们可以通过不断地增加数据、增加模型大小来实现性能的持续提升。

其实，Scaling law这件事并不新，近十年来深度学习演进的历史大体上都体现了这条定律。但是在此之前很多人都认为scaling law快到头了，为什么呢？因为随着模型的增大和数据量的增多，模型的收益是逐渐递减的，存在一个“边际效应递减”的效应：即越增加数据，收益就越来越不明显，性价比就越低。但这两年，大家在NLP大模型上发现了一个非同寻常的现象——当这个模型的参数量、训练数据量到达千亿量级时，模型的高级思维能力突然出现了跨越式的增长，这个增长是过去从来没有发现过的。可能过去增加一点数据，模型性能就提升一点。但现在大概在千亿这个参数关口，大家发现数据和模型量稍微再增加一点，模型突然出现了原来不曾有的推理能力，还激发了一些之前我们认为人类才有的能力，比如思维链能力。当然它背后还有很多技术，像代码预训练等，共同推动了这种跨越式的发展。

所以我觉得这件事是非常了不起的，它不仅仅可以带来很多产业上的用途，它的影响力甚至可能已经超过了AI这个领域。对人们如何理解思维，揭示人类智能产生的起源也有非常大的启发价值。

Q：你如何看待ChatGPT的应用趋势呢？它会对哪些行业产生影响？

张祥雨：应用这块我觉得大家见仁见智。以现在ChatGPT它所代表的大模型的发展水平，大家最看好的、最先落地的应用可能是智能搜索引擎，此外像各种文字编辑工作，以及各种垂直领域都有落地的潜力。当然在落地过程中可能也会遇到一些问题，比如说如何保证答案的精准程度，如何保证生成的内容是正确的，以及在部署推理的时候要怎么把这个大模型给用起来，真正做到高效并且降低运行成本，这都是落地时需要讨论的。但是我认为，目前以ChatGPT为代表的AIGC，包括它背后的大模型的意义，不仅仅是在落地本身，在我看来它的科研价值可能更大。

Q：可以展开讲讲ChatGPT的科研价值吗？

张祥雨：科研价值主要体现在研究人类智能如何产生。其实从技术角度来看，AI大模型的设计和训练过程并没有专门针对智能做特殊的设计。它的逻辑推理、思维链、reasoning的能力，是研究人员通过大幅增加参数量、增加训练数据量的过程中突然激发出来的，这个现象是非同寻常的。其实这和生物的进化包括人类的进化史也是非常像的，从底等生物、高等生物再到人类，进化过程中的思维能力也是突然产生的。

这种突然产生的智能背后不是靠专门的设计，是模型自然而然所形成的。关于这一点到底要如何理解？现在“有智能”的大模型相对于原来“没有智能”的那些模型到底产生了哪些质变？这些都是非常前沿且有趣的课题，值得我们探索。

02 生成式大模型有望突破图像大模型的上限，并推动底层架构的统一

因为...

Q：你觉得大模型到达规模上限了吗？未来模型还会越来越大吗？

张祥雨：我认为规模化这件事很难说，当我们突破初步的逻辑推理能力这个瓶颈以后，我相信很快会遇到另一个瓶颈，主要是scaling law要如何持续的问题，很可能通过增加数据量获得的收益会再次陷入非常微小的状态。到底下一个大的突破口是不是要继续增加数据，这条路线是否可持续，现在还很难说，需要我们去探索。

我认为scaling law要继续走下去问题是很大的，主要原因之一就是数据，现在我们比较容易获取的数据，尤其是高质量的数据，以及相对容易监督的数据已经快要耗尽了，进一步增加数据很可能都是很低质的或者是未经筛选的数据，如何把这些数据用起来本身就是难题。其次就是训练算法，尤其是监督算法，我们知道这波大模型很依赖于像Auto-regressive（自回归）这种自监督、弱监督的训练算法，这套训练算法的上限在哪？怎么样把高质量的human label加进去？尤其是像ChatGPT用了很多技术，比如RLHF等，本身需要大量的人类参与，仅靠它本身很难scale up，很难短时间内获得这么多的监督数据。在这种情况下，如何让scaling law继续走下去还是很困难的。

最后一点就是算力的限制，现在大模型已经快触及算力的上限了，如果硬件或者系统架构没有显著变化的话，模型想再scale up上去有很大困难。

Q：那你们找到降低训练成本的方法了吗？

张祥雨：其实在过去一年，我们团队在如何高效的scale up这一块做了很多努力和尝试，因为我是搞视觉的，所以我主要还是针对视觉模型的scale up，比如说去年年初我们发现采用大卷积核的设计方式，就是scale up卷积核的大小，可以起到快速提升视觉感受野的作用，并且通过重参数化等一系列方法，解决了scale up卷积核的大小带来的各种掉点问题。以及像去年年底我们提出了一种RevCol结构，它是一种可逆神经网络的特例，它的最大好处是可以不断增加模型的column数量，相当于一种新的scale up的方式，并且在scale up的过程中不显著增加模型的显存消耗，这对训练很大的大模型还是非常有用的。

但也面临很多挑战，比如我们现在发现最大挑战来自于视觉和自然语言的差异，自然语言随着scale up，会有模型的推理能力突然增加这种非同寻常的、突变的现象，但是直到目前我们把视觉模型scale up，还没发现这种现象，到底是scale up不够多，还是scale up的方式不对，还是算法不对，还有很多问题需要探索。我认为如何把视觉模型，尤其是视频这种具有时序性的、信息密度很低但是信息总量很高的数据有效利用起来，然后再设计相关的无监督、自监督的方法，让模型能够从中学到信息，这点非常关键。

Q：去年的技术开放日上你提到了“大”和“统一”是当今视觉AI系统研究的新趋势，也分享了旷视的四大模型，它们将迎来怎样的新局面？旷视在大模型里又有哪些布局呢？

张祥雨：其实我去年提到大和统一的时候，已经看到了视觉模型的规模化、扩大化可能带来的收益，但是坦白说在开放日的时候还没有完全想清楚，“大”是很清楚了，但是“统一”具体是要统一哪一块其实我还没有定论。但到去年年底的时候，我们通过一系列的实验和验证，发现了“统一”的落脚点应该是在识别类问题和生成类问题上的统一。我们知道生成类的问题比如AIGC，它们都是通过生成式的模型产生的；而判别式问题比如传统的分类、检测、分割等，其实从原理上来说既可以用生成类模型来实现，也可以通过判别类模型实现。但是为了简单，我们在视觉落地的时候一直用的都是判别式模型。

但判别式模型有一个非常大的缺点，当模型很小的时候很好用，但一旦需要scale up到很大的量级的时候，会发现它对数据尤其是人工标注的数据要求非常高。第二，它的scaling law目前已经遇到了上限，大概就是两个billion参数左右，一旦判别式视觉模型的性能和参数量到了两个billion左右，出现了饱和的现象，继续扩大模型规模，增加训练数据量，都很难再提升模型性能了。但是生成式模型，我们发现即使它scale up到两个billion甚至更大的20个billion左右，它的性能还在持续上升。

这说明什么问题呢？就是生成式模型能更好地利用数据本身的特点，尤其是可以更好的利用无标签标注的数据。所以我们就设想能不能利用生成式模型的特性，统一地解决一系列识别类和生成类的问题，这也是我们今年的核心工作重点，就是要用生成式的模型来实现整个视觉大模型的统一。

我去年技术开放日上提到的四大模型：通用图像大模型、计算摄影大模型、通用视频大模型，以及自动驾驶大模型，这几条线我们都在持续地推进。例如计算摄影模型，它的一大用途是做图像修复或是图像重建任务。此前，大家做这些都是依赖成对的输入输出的数据。但是现在有了生成式大模型，就可以不这样做了，我们可以先在大量高清图像上建模真实世界中的图像分布P(X)。有了这个模型，图像恢复的任务变得非常简单，我们可以在真实图像的流形上找到距待复原图像的最近邻点，作为图像重建的结果。这种方式不依赖具体的传感器设备，也不依赖具体的图像退化模型就可以实现“万能”的图像恢复。

最后是关于各种任务的大统一，比如说使用通用的生成式模型来统一分类\检测、分割，各种视频理解任务，以及条件图像生成、图像修复等，都在同步推进，大家可以关注我们后续的发布。

03 我们的选择是专注在“AI in Physical”，从物理世界中来，到物理世界中去

虽然...

Q：像这类LLM模型（大型语言模型）的发展，会对计算机视觉的发展有何启发？

张祥雨：其实LLM就是我们说的大型语言模型，它之所以这么成功尤其是这两年又得到大量的关注，跟它在scale up的过程中发现了一些异乎寻常的现象有很大关系：LLM模型在scale up的过程中，大家发现它突然产生了逻辑推理能力以及一定的思维能力等等。所以我觉得对视觉的启发就是，我们在视觉领域是否也能得到一个类似“异乎寻常”的现象。当然现在视觉模型从大小上来说还是跟语言模型差很远，继续走scale up这条路到底是不是对的，现在还不好说。但是既然scale up这条路在语言上已经取得了这么大的成就，我们觉得还是非常有必要在视觉上也尝试一下是不是能走通。

除此之外，视觉模型如果要对实际落地产生影响，它还有很多比语言模型更加麻烦的地方，因为我们知道语言是人类创造的，但是视觉是大自然中本来就有的，并且其中也会融入人的理解，那么相对而言视觉在建模方面会比语言更难一些，不仅要处理好数字世界中的关系，还要处理跟真实物理世界进行交互的能力。

具体到大模型这个领域，我们知道大模型主要成功依赖的是数据和模型的不断的增长，但是在计算机视觉，一旦涉及到物理世界我们会发现，无论是数据的收集还是数据的计算处理，以及与外界的感知交互，scale up起来难度更大一些。

首先是数据的获取，我们知道语言模型可以从网络上收集大量的人类互相问答还有各种文章的数据。图像当然也可以，收集大量的网络图像，但为了实现真正的落地应用，比如各种工业场景，像自动驾驶、机器人等，这不是仅靠收集网络图像就能解决的，还必须得有特定场景的专门数据；如何获取并且有效地利用这些数据，本身就是一个比较困难的问题。

其次是算法，像这一波大模型的风潮很大程度上可以归结为自监督算法的成功。所谓自监督算法意思是监督信号不再需要人类一个一个进行标注，可以从数据自身的信息中进行自我监督、自我训练，这样才可以scale up到非常大。对语言来说，我们有好几种自监督手段，比如说可以不断地通过前面的词、前面的句子来预测下一个字是什么，就像大家写文章一样，这种我们称之为Autoregressive（自回归）模型。视觉里面也有类似的做法，比如说像最近非常火的MIM（掩码图像建模）算法，我们可以把图像捂住一块，预测被捂住的一块是什么。但是我们也发现目前MIM这套框架以及其他自监督框架都有一些问题，当它扩展到更大的数据集时，它的表现并不如在语言模型中见到的这么明显，事实上当我们不断地增加数据达到一定规模以后，它的性能提升就停滞了，于是我们就不得不想一些新的办法。这块其实目前还没有得到特别好的解决，更多的还是依赖于人类标注的数据。

最后一块是关于跟外界的交互。在AI in physical world应用中，当模型依据视觉信号做了一个动作或是产生了一个策略，我们要判断它好不好，很多时候是要落实到物理世界中去，比如需要控制自动驾驶车辆、机械臂、仓储机器人等等，跟物理世界产生一些交互，交互的结果将会影响我们下一轮决策。其实说起和现实世界的交互，目前的自然语言大模型已经有所涉及了，例如OpenAI他们做ChatGPT之前还做了一个WebGPT的项目，就是与互联网产生交互。比如阅读一段文本，它为了理解这段文本就需要操作搜索引擎去检索一些信息来支持它做下一步的输出，它需要跟互联网世界产生交互，这个交互体现为一个搜索的动作。当然，这种动作是发生在数字世界的，相对而言是比较容易的。但是做视觉的经常要跟物理世界进行交互，操作一个机械臂或是操作一个自动驾驶的机器人，从安全性和效率上考虑，这种交互闭环的形成肯定是不如在数字世界这么方便、高效且安全的，里面有很多坑需要我们去填。

Q：旷视会怎么去做这个布局呢？

张祥雨：我认为旷视这些布局还是要扎根具体的公司主营业务，包括几大AIoT的场景，从每一个场景出发，我们得先把“从物理世界中来，再到物理世界中去”的这条闭环跑通。只有形成了数据闭环、反馈闭环，模型得到监督信号才会越来越多，我们才有条件把这个模型越做越大，我认为这是最重要的一点。所以我们说“大”和“统一”的趋势是不可阻挡的，是我们现在解决AI in physical world的主要思路，但是要形成更大的规模化就必须要打通全链路，这无论是在商业布局还是在科研方面都必须要坚持的一点，就是要创造条件，想办法为模型做大提供契机。

Q：这些会对AIoT的设备提出怎样新的要求？

张祥雨：对AIoT设备的要求更多还是体现在算法和硬件要进行co-design上。因为每一种硬件、各种传感器和各种执行器一定是跟算法匹配的，不同的算法会对应不同sensor性能要求和不同的使用方式，这也是我们做AIoT或者是AI in physical world所必须要考虑的一点。

Q：最近新闻报道也比较多，大家对于这项技术的高度关注，试用反馈、解读，是不是给了你一些新的启发？

张祥雨：全民开始关注AI是一个非常好的现象，说明我们这个领域切切实实能够产生社会影响。其实，每一波热点不管能不能持续下去，在某种程度上都促进了社会的进步，会诞生一些新的产品，启发一些新的科研方向等等。

Q：刚才你也提到了ChatGPT的爆火与做科研坚持长期主义有关。之前你也分享过基础科研应该遵循的原则是原创、实用、本质，你现在还是这种想法吗？

张祥雨：肯定是。因为你只是follow，不追求原创会陷入一个很大的陷阱，就是你去follow是可以的，但因为没有亲身去体验过这种创新过程，回避了过程中走过的弯路，很可能造成对这个技术边界判断不清晰，即使以后确实复现完成了，但你对这项技术可以做成什么事是缺少判断的，钱、资源都投进去了，结果发现解决不了问题，而别人原创团队已经做下一个了。这种状态肯定是出不了世界级的成果的，无论是科研还是业务，这肯定是不行的。

Q：能否简单总结一下你对AI发展的看法。

张祥雨：AI应用的路线主要分为两条，一条叫AI in Digital World，一条叫AI in Physical World，即AI在数字世界和物理世界中的应用。像ChatGPT主要体现的还是以AIGC为代表的技术在AI in Digital World的应用。旷视更多的还是关注AI in Physical World。AI in Digital World的东西当然可以应用于AI in Physical World，但是物理世界中的AI包含了更多的问题，包括如何从物理世界中得到信息，如何对这个信息进行处理，然后如何再把它应用到物理世界，最后如何再从物理世界中得到反馈。所以说，它是一个更难更有挑战性的问题。旷视将会沿着AI in Physical World这条路线继续探索。

祥雨和ChatGPT聊了什么？

问: 你和ChatGPT都聊了什么?

答: 主要是一些逻辑推理问题，比如A是B的父亲，C是A的兄弟……然后让它推D和E之间的关系，这个就是高阶关系建模能力和指代关系建模能力的测试。我发现它做得非常好，可以一步一步把逻辑链条推理出来，几乎不会错。我还问了它一些简单的数学问题比如小学应用题，既包含了一些语言逻辑，还包含了一些数学逻辑。我发现它的语言理解能力非常强，可以理解物体相互之间的空间位置关系等抽象概念，对什么时候要加、什么时候要乘理解得很准确。但我也发现它对数字不敏感，比如说4和7到底谁大，它有时候能做对，但有时候也做错。

问: Really？

答: 如果直接问它4和7谁大，它几乎不会答错。但如果是在某一个语境里，比如，最后得出集合A有4个元素，集合B有7个元素，再问它谁多谁少，它经常判断错。它对大小关系非常不敏感，有时候它已经告诉你了准确的数字，比如一道题的两个选项算出的答案一个是21，另一个是22，明显22大于21，但它最后下的结论却是21大于22。另外，它经常会做错大数的乘法或加法。

所以我认为它在数学逻辑上和人还是有较大差距。当然如果问它的是模板题，它都可以做对。比如问它一元二次方程怎么解，它可以一步一步告诉你要怎么解。

来源：旷视研究院
作者：旷视MEGVII

专栏文章推荐

欢迎关注旷视研究院极术社区专栏，定期更新最新旷视研究院成果。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。
加入旷视：career@megvii.com

01 ChatGPT在语言逻辑推理，高阶指代关系推理的能力很强

02 生成式大模型有望突破图像大模型的上限，并推动底层架构的统一

03 我们的选择是专注在“AI in Physical”，从物理世界中来，到物理世界中去

推荐阅读

目录