2024年,AI的发展方向似乎变得不再明朗。
乐观的人依然相信,AI浪潮才刚刚开始,需要给市场与创业者一定的时间与耐心。
而悲观的声音也越来越多,就在刚刚过去的周末,OpenAI前首席科学家Ilya在NeurIPS 2024大会上演讲时明确表态:“预训练将会终结(Pre-training as we know it will end)。”无论是技术层面的“Scaling Law撞墙”,还是应用层面的商业化压力,都给AI发展的前景带来了一丝不确定性。
此时此刻,我们渴望听到来自学界和业界最新、最真实、最具有参考价值的反馈。
12月10日,在「甲子光年」举办的2024甲子引力年终盛典上,四位AI领域的知名学者和创业者在巅峰对话环节,围绕《奇点、拐点、看点:AI创生时代的升级打怪》这一主题,讨论了AI行业的现状及未来趋势。
四位嘉宾分别是:清华大学人工智能研究院副院长、生数科技创始人朱军,智谱CEO张鹏,宇树科技创始人&CEO王兴兴,北京智源人工智能研究院院长王仲远。本场巅峰对话由甲子光年首席内容官王博主持。
我们讨论了2024年AI领域多个关键议题:
2024年关键词是什么?
现在国内的视频生成模型和Sora的身位如何,是追赶、相近还是领先的状态?
“Scaling Law放缓”这件事情到底有没有发生?
今年有哪些可能被忽略的技术进展?
AI应用领域的Killer App出现了吗?
具身智能领域最大的“非共识”是什么?
做学术和做企业最大的不同是什么?
还快问快答了4个有趣的问题:
如果你现在有十亿元人民币,你最想把钱投在哪里?
你最钦佩的人是谁?
过去一年你做得最正确的决定是什么?
2025年一定会发生的一件事情是什么?
这些话题有的有很多答案,需要百家争鸣;有的没有答案,需要时间证明。但阶段性的总结依然宝贵,它会给到我们继续前进的灵感与启示。
以下为现场对话实录,经「甲子光年」编辑整理。
1.谈2024:一个词总结2024年AI进展
王博:去年年底的时候,我们说“AI一天,人间一年”,来形容2023年的感受。一年很快过去了,如果要用一个词来总结2024年AI的发展,你会用什么词?
王仲远:我引用年终盛典的名字“引力”。今年可以明显看到人工智能对于技术、资本、媒体以及各行各业强大的吸引力,人工智能也从一个技术开始逐步进入到千行百业,并寻找各种场景去赋能升级。“引力”是今年用来形容人工智能最好的一个词。
朱军:“突破”。一开始大家在大模型领域快速跟进,今天能看到很多深层次的突破,包括更强的能力以及视频生成模型在今年快速发展,我体会到突破进程一直在加快。
张鹏:回到2024年年初的时候,我们在技术上的预言叫“AGI元年”。当时,大模型本身的技术发展到一定的平台期,2024年一定会向AGI(通用人工智能)这样的目标发起更快速的冲锋。过去这一年里确实也看到了这一点,比如从多模态模型到视频生成,到最近发布接近智能体的技术,你会发觉通用人工智能好像离我们又近了很大一步。所以我觉得过去这一年用“AGI元年”来形容是最恰当不过了。
王兴兴:过去这一年对于机器人行业来说是“破立和新生”的一年。最近一年的机器人行业比过去几年都要热,技术跟过去十几、二十年差别非常大。我觉得过去的具身技术完全是“过去时”,当下以及未来的具身智能通用机器人完全是一个新的领域和机会。
2.谈Sora:模型在预期之内,产品有亮点
王博:我们来聊个最新的话题,我想这也是今天台下观众最关注的话题之一。今天凌晨,OpenAI正式开放了Sora,并发布了更快的Sora Turbo,这个新版本的Sora能够生成最长20秒、最高1080P的视频。台上四位嘉宾的研究或工作都与多模态模型相关,生数科技的Vidu和智谱的清影更是Sora的直接竞争者,你们对于新版本的Sora怎么看?
朱军:今年2月初Sora刚发布的时候,大家有很多讨论,分析其背后的技术。这次Sora的新发布,相比当时带来的冲击度减弱了很多。大概是因为,国内外的视频生成技术,底层的模型与应用层的产品化都有了很多的进展,跟2月份相比已经是完全不同的阶段。
这次Sora正式发布有一些做得很好的地方,比如视频编辑功能。但从基模的能力以及发布出来的效果看,我只能说在预期之中,没有太多的亮点。另外从直播和实际体验看,Sora的视频生成速度看上去还是挺长的,生成单个视频的成本也不低,这都可能会影响后续的用户体验以及进一步的商业化。
由于今天才刚发布,还要等进一步的评测再做更具体的分析。总体来看的话,我觉得Sora在年初的时间点让大家更早地看到长视频生成突破的可能性,这是一件非常好的事。到今天我们自己的模型也在持续地提升,这对于用户是好事,大家会用到更高质量、更快的产品。
王博:你觉得现在国内的视频生成模型和Sora的身位如何,是追赶、相近还是领先的状态?
朱军:我认为这是一个比较好的阶段。大家在基模等方面是不输于Sora的,甚至在多主体一致性、生成时间的效率等特性上,可能比Sora做的更好。Sora展示的生成时间是分钟级,我们现在可以做到30秒或者更短的时间,在技术上已经不输于它。
虽然大家通常都会更愿意看OpenAI到底做了什么,但事实上我们还是要实事求是地看其实际的技能。我觉得,对于今天的状态以及未来的发展,我们还是非常有信心的,我们处于一个比较好的阶段。
王博:智谱也在做视频生成模型——清影,我对比了一下视频生成时长、分辨率、帧数等参数,发现清影是不输给Sora的。那么,智谱对于Sora的新版本怎么看?
张鹏:我在来大会的路上也在看Sora Turbo的一些视频,Sora Turbo确实离我们的预期还是稍稍有一些偏差。今年7月份,清影发布第一个版本,最近刚刚更新的第二个版本可以达到生成4K、60帧超高清画质,同时支持任意比例图像生成视频,所以从这些简单的技术指标上看,我们确实也不比Sora差很多,甚至还有一些比它更好一点。
当然,我相信视频生成这件事情,不仅仅是比拼基本参数或者模型本身,更多的还是瞄向如何能产生实际的应用和生产力。这一次OpenAI发布Sora Turbo,把相当多的精力放在了产品体验打磨上。比如多通道生成——虽然我们也能做到,以及编辑模式、加工工具、工作流等能力上。
还有一个趋势是视频生成技术在逐渐成熟。大家的发展速度实际上是在加速,都期待通过技术突破去找到更好、更优的变现方式,或者说产生实际生产力效果的方法和工具,这肯定是未来的一个方向。
王博:智源之前发布了多模态大模型Emu3,也包含了视频生成功能,这次Sora新版本的发布符合你的预期吗?
王仲远:直观来讲,基本符合预期,但没有像年初他们刚发布的时候那么惊艳,至少目前为止没有让人特别惊喜的地方。
过去一年,很多公司已经先于OpenAI做出了产品级视频生成的功能和产品。就Diffusion Transformer这条路线而言,国内不管是大厂还是创业公司,基本上走通了,我觉得中国在这方面的速度确实很快。智源研究院在10月份发布原生多模态世界模型Emu3,探索了下一代多模态技术,用Auto Regressive的技术路线,把文字、图像、视频的生成能力和理解能力进行原生统一。所以整体上我对于中国人工智能的技术发展还是保持乐观。
王博:Sora声称自己是一个世界模拟器,当然后来学界、业界也在质疑说Sora根本不是世界模拟器,因为Sora无法做到真正的物理正确。物理世界模拟器或者说世界模型,对于具身智能的训练来说是一件非常关键的事情。宇树科技对于Sora的更新,以及物理世界模拟器的发展有什么样的观点?
王兴兴:今年年初Sora发布的时候,整个机器人圈包括我自己在内对世界模型来驱动机器人的运动都一直非常关注。海内外都有具身公司希望用视频生成的方式直接控制机器人,这个思路还是非常不错的,但我稍微提几个自己的想法。
目前,大家都希望如果能生成任何的视频和任何的场景动作,就可以控制机器人做任何动作,理论上可以把整个技术路线跑通。我的感受是,其实现在的视频生成能力对机器人来说基本上够用了,但强化学习对整个的闭环还不太够。
比如说,我要生成一个动作,让机器人去走路也好,端茶倒水也好,基本都能生成。但最大的问题是控制机器人的时候,要机器人跟物理世界交互,最后要达到接近100%的成功率,必须得把强化学习做好。但现在视频模型跟强化学习的控制结合,全世界都处在非常早期的阶段。如果在场的研究机构或者学者有兴趣的话,可以去尝试一下这件事,我觉得非常有价值。
机器人理解世界主要分两部分:第一是生成式模型,包括视频生成模型,能生成一个高层级的策略。比如说到什么地方去干嘛,把什么东西装在一起,或把什么东西都拿到这里,目前很多生成模型做得还不错。但是对于第二部分,真正要分配任务到机器人去执行的时候,让它达到100%的成功,这就需要把强化学习加在里面,把整个体系闭环做得更加准确一点。
目前,生成式模型的生成质量依赖于数据的质量。但是在真实世界里,有一个很大的问题是采集到的数据跟真实世界要执行的数据,质量差了一个数量级,导致用生成的质量直接去控制机器人,最终就是差了一点点。所以大家才会用到强化学习。
3.谈Scaling Law:仍然生效,只是数据、算力遇到瓶颈
王博:接下来我们从底层技术到上层应用聊一下2024年关键话题。首先要聊的话题是“Scaling Law是不是撞墙了”,这是近一段时间,AI圈子内大家都会讨论的事。各位嘉宾都会涉及底层模型的研究,结合你们实际的研究和观察来看,“Scaling Law放缓”这件事情到底有没有发生?
王仲远:我个人依然还是非常相信Scaling Law。人工智能过去七八十年的发展历程,其实也一直在反复证明Scaling Law。
现阶段之所以大家开始讨论Scaling Law放缓,我觉得很大的原因是支撑Scaling Law的几个要素出现了瓶颈,其中一个很重要的要素就是数据。我们知道OpenAI其实已经把全世界互联网的文本数据都训练了,如果新的高质量数据不能够被生产出来,自然而然就会影响模型性能的提升。
解决数据问题有几条路径:第一是合成数据。试想一下,如果有一天人工智能写的书籍的质量比人类写的书籍质量还高,就会形成自我的迭代和进化;第二是基于Post Training的推理模型,比如o1,进一步激发大模型的智能。第三是多模态大模型,智源也在探索这条路径。因为我们认为这个世界除了文本数据以外,音频、视频这些数据量规模是更大的,可能是百倍、千倍乃至更多。
除了数据要素的瓶颈以外,算力也一样。当下算力虽然还在不断提升,但是万卡、十万卡乃至于百万卡的方式是不是可持续性,本身也是一个疑问。
所以,我觉得并不是Scaling Law本身失效了,而是支撑Scaling Law的要素现在遇到了瓶颈。
朱军:我理解Scaling Law是一种范式,比如最早在语言模型里面,大家比较清楚地看到规模提升之后,模型性能有显著的增加。但作为一种现象或者规律,Scaling Law也不限于语言模型。
在多模态领域的视频生成,我们也看到一些很有意思的现象。当基座模型做好了之后,其实不需要经过后训练这些微调就能实现主体一致性的能力,实际上这就是我们理解的“涌现”能力,规模变大之后自然就有了这些能力。现在大家也在讨论具身智能,包括利用视频生成和强化学习的尝试,也能清楚看到数据、模型变大之后,确实能带来通用能力的提升。这些都在支撑、验证Scale up的行为。
所以,从这些角度看Scaling Law不会失效或者过时,我们只能说在某一个场景下,遇到一些现实的挑战。如何再去进一步的延伸,这是我们需要思考的。
我觉得现在人工智能或者生成式AI到了冷静发展的阶段,需要我们对于其中的现象去深刻地分析,而不是简单粗暴地下结论说这个东西不行了之类的话。
王博:接下来问一下智谱。今年有一些媒体报道说“大模型六小虎”中有两家已经不做预训练了,所以我在大会上不妨问得直接一点,智谱现在还在做基础模型的预训练吗?最新的进展是什么?
张鹏:首先我们肯定一直在做预训练,今年8月份我们刚刚发布了最新迭代的模型。按照我们的节奏,差不多4~6个月就会迭代一版新模型。
为什么我们一直在做这件事,跟我们对Scaling Law这件事的理解有关系。刚才朱军老师讲了一个很重要的词叫“现象”,其实Scaling Law是对现象的总结。我们搞科学研究的人总喜欢说一句话叫“透过现象看本质”,到底Scaling Law的本质是什么?我们其实一直在探究,也在尝试剥开表象去看本质。
现在有一派的看法是,其实本质上Scaling Law并没有简单对应到数据量、参数量或者模型的规模上,而是对应在我们最常说的计算量。提升模型在训练或者推理阶段的计算量,比如o1在推理阶段提升计算量,就能带来智能的提升。包括刚才提到的多模态模型,为什么更难训练?因为本身的计算量就要比文本模型大很多。
我非常同意刚才朱军老师讲的多模态领域里面智能涌现Scaling Law还是非常有效的,在其他的领域,比如机器人领域,仍然还是有效的。时代在不断往前进,我们也在不断把现象逐渐转变成本质的描述。
王博:提到计算量,其实现在算力资源的分配也是各个企业要面临的问题。已经有大厂已经把算力资源从训练侧转到了推理侧,智谱会面临这样艰难的选择吗?你们放到训练和推理上的算力资源比例是怎样的?
张鹏:这个还挺有意思的。智谱一直在做预训练,推理侧的应用其实也一直在做。我们训练和推理用的算力资源配比大约是一半一半,我认为这还是一个比较合理的配置。
王博:从具身智能的角度怎么样看Scaling Law这件事情?
王兴兴:我觉得Scaling Law像是一个定律,虽然大家现在在大语言模型上遇到一些瓶颈,但很多情况是当下的技术手段遇到瓶颈,而非规律本身遇到了瓶颈。在机器人领域,大家也非常关注,但目前我觉得大家还没有在机器人领域找到Scaling Law,模型、数据规模等方面相对来说更初级一点。
另外,大家为什么追求Scaling Law,很大的原因是当下世界上相对比较简单的,用几个人或者几十人、几百人用系统性工程化的方式就能解决的问题,都已经解决得非常好了。剩下的没有解决的问题都是复杂性问题——比如无人驾驶,靠堆人、堆时间、堆钱也解决不好,只能靠新的方式。所以在机器人领域,大家希望有Scaling Law,通过堆数据就可以解决问题。
但是机器人领域也有部分企业太追求数据的规模。我认为,现在具身智能领域最大的问题是整个AI模型的架构还没有做出来,模型能力不够的情况下单纯堆数据不太可能把整个路线跑通。我们在模型探索方向上应该花更多的时间。
4.谈技术进展:多模态、推理模型可能是被低估的技术
王博:刚才我们谈了很多关于Scaling Law的观点,仲远老师,你认为今年还有哪些同样重要但是可能被忽略的技术进展?
王仲远:在多模态技术上,今年有非常大的突破。其实除了像智源发布的原生多模态世界模型Emu3以外,在今年国际顶会上获得best paper的一些研究也有基于Auto Regressive的技术路线来做图像生成的。新技术的出现,是不是能够帮助我们突破现在GPT大语言模型可能遇到的一些瓶颈?这是今年让我非常激动的进展,但可能在媒体、投资人层面,关注度没有那么高。
王博:今年有一个很重要技术进展是OpenAI发布o1,它代表着算法的范式从预训练扩展到了推理,国内也有几家AI公司在跟进。我记得几个月之前,大模型还算不对9.8与9.11哪个大,现在已经可以开始解高中数学甚至奥赛题目了。前几天OpenAI的发布会上还举了一个例子:如果在太空建一个数据中心,散热板需要多大的面积?研究员把草图发给o1,它就能计算出结果。张鹏总,智谱一直在对标OpenAI,请问推理模型在这几个月发生了什么?
张鹏:其实这个问题我也一直在思考,不仅是从技术原理或者算法上,我思考得更务虚一点。
我们之前说预训练模型是做Predict Next Token,用这种范式让模型“学会”内容生成乃至推理能力。当最早智能生成文本且有幻觉的时候,大家就会说这样的模型智能模拟人的系统1(快速、直觉式的思维),永远掌握不了系统2(慢速、深思熟虑的思维)。但现在大家看到经过一些方法的改进,模型也能做系统2的事情,比如你刚才说到的计算太空数据中心散热板面积就是典型的例子。
所以我就在想,是否有可能所谓的Predict Next Token这件事是一个更高维度、更基本的智能,这也是一个可能被大家忽略的进展。
我突然想到,当时Ilya(OpenAI前首席科学家)在社交媒体上点赞过论文——《The Platonic Representation Hypothesis(柏拉图表征假说)》,那篇文章我仔仔细细看了几遍,对我触动很大。
真的有一种可能是,这个范式本身更接近于本质,不管是哪种模态的数据,不管是哪种思维方式,追溯到根源可能会是同一种模式。
如果我们找到了这件事的真理,有可能所谓的预训练、推理、系统1、系统2,都能规划成一种问题解决。这是我们追求AGI的人最希望看到的结果。
王仲远:我补充一句,刚才张鹏总提到的范式。智源的Emu3在发布的时候,技术论文标题就叫Next-Token Prediction is All You Need。
王博:当时发布会我印象特别深,你说了一句话“World in One,One for World”,今年很重要的一个方向就是原生多模态。那么,从非原生多模态到原生多模态,这中间经历了什么?原生多模态有什么样的优势?
王仲远:首先多模态的定义就比较发散,比如视频生成算不算多模态?还是只有图像视频的理解算多模态?其实大家在讨论的时候没有那么严谨。
从多模态理解模型来看,主流的技术路线是基于语言模型为核心,再加CLIP把视觉信号映射到语言模型上。原生多模态就是从一开始训练的时候,就把文字、图像、视频这些信息全部给模型,让模型来学习。我们可以对照下人类的学习过程,人在几岁之后才开始认字,但视觉的信号、声音的信号其实从婴儿出生之后就一直在不断的Training。
原生多模态模型需要一开始就学习不同模态的信号,但视觉信号有大量的噪音,比文字的噪音更多。同时,模态信息更多后,训练复杂度、训练时间也都是呈指数级增加,这些都是对原生多模态的挑战。
王博:关于多模态与视频生成模型之间的关系确实还有一些模糊。我们前一段时间采访了百度创始人李彦宏,他的观点是“百度不做视频生成模型,但非常看好多模态”。接下来想问一下朱军老师,多模态和视频生成模型的关系到底是什么?
朱军:多模态在学术上称之为不同类型的数据,当然不同类型也有一定的范围的界定,比如说文本是一种模态,视觉是另外一种模态——视觉还包括图像、视频等,音频是另外一种模态。不同模态有不同的物理的规律,大家在信号方式上是不同的,在学术上才会称之为不同的模态。
视频模型就是多模态模型,比如文生视频,一般称为多模态生成模型,反过来的视频生成文本,一般称为多模态理解模型。
你可以理解成一个是放大,用少量单词就能生成图片、视频与3D内容,有很多的创意空间在里面;一个是压缩,把很丰富的内容总结成若干个词汇,这是语义上的压缩总结。
简单来说,多模态模型是一个理解和生成融合的模型。只是大家在展示内容的时候,更多专注在生成上,很多时候不去强调理解的能力。
5.谈AI应用:市场不缺需求,底层技术还没有准备好
王博:下面聊一下AI应用。去年我们在甲子引力年终盛典上聊“到底什么时候能出现一个Killer APP(杀手级的应用)”,那么今年有没有让你印象特别深刻的一款AI应用?
王兴兴:说实在的,我个人感受是没有特别吸引我的AI应用。我现在很期待个人助手,比如能帮忙回一下微信信息。我一直希望微信什么时候能整合一下大语言模型,我有非常强烈的诉求,哪怕付费我也非常愿意。
王博:那之后我们发稿有标题了,就叫做《宇树科技王兴兴喊话腾讯微信》。(笑)
张鹏:最近我们发的AutoGLM和GLM-PC就是帮助大家去做这件事情,当然它不可能自动替你回,你至少得发出指令:给谁回一条微信,或者点赞他的朋友圈,这些都可以。我们现在能做到理解这些指令,做一些任务规划、执行并且给你一个结果。
当然,距离它能非常广泛地完成大家现实生活中复杂的任务,可能还需要一段时间。但就像年初的Sora对于视频生成的影响一样,我们探索出了一条可能性的道路。接下来就是看大家能投入多少资源,花多长时间让这个技术能更成熟,解决实际生产力的问题。
我觉得如果大家在2024年没有看到Killer APP,可能将来成为Killer App的就是这种个人智能助手。
王博:我记得在11月底智谱举办的OpenDay上,AI助手还在手机上发了红包。
张鹏:挺肉疼的,一下发了100个红包,一共两万块钱。(笑)
王博:不过这也是一次很好的展示。既然谈到了AutoGLM,我就继续追问几个问题,目前这个技术的难度是什么?一旦技术成熟可能会给我们的生活带来怎样的变化?另外,隐私问题如何解决?
张鹏:为什么我们说这个事还挺难的,或者说现在还做不到特别普及使用,这也是跟多模态有关系。
因为我们现在帮助大家解决现实生活当中的问题,通常需要让模型接触各种类型的数据,不仅是语言、还有图像、空间、时间……各种各样类型的信息,这一定是混合模态的任务。如果模型本身不具备多模态能力,或者在单点上能力太差,那就完不成这个闭环。技术发展到今天,当模型的能力都达到一定的水平线之后,就像集齐了几个关键性的宝物一样,就能够打造出更强大的武器。
关于隐私保护,确实现在技术比较早期,需要比较强大的模型才能够很好的理解你的意图,规划你的任务,理解复杂UI的界面。端侧的设备、芯片、模型能力的提升,这些能力会逐渐向用户端靠近。当在端侧能够有强大的能力处理涉及隐私的数据之后,这部分隐私保护的疑虑就可以被打消了。
我刚才说我们探索出来一条可行的路径,这样的技术现在看来也仍然具备很强的价值,比如说,传统的RPA可能因此而产生巨大的变化。
王博:所以苹果要推Apple Intelligence的时候也面临这样隐私的问题,他们的解决方式也是端云结合。我也解释一下,为什么要提隐私问题呢?因为AI助手是要读取屏幕上的内容,识别屏幕上的图片、文字才做规划、执行任务。
接下来问一下朱军老师,2024年你印象最深刻的一款AI应用是什么?
朱军:我感受非常深的是视频模型本身的巨大提升。
大家对于创作的需求一直在,而且非常广泛。现在的问题还是技术不够好,没有完全支撑这样的需求。另外,还有一个很关键的因素是视频生成的成本也很高。一旦突破到每条几分钱或更低,产品可能就爆发了。现在大家为了控制成本消耗,其实在限流,让很多人排队。
所以,AI应用面临的问题不在于市场缺乏需求或者产品本身,问题还是在底层技术。今年视频模型已经快速提升,相信不久的将来会有更好用的工具。当然,我非常看好我们的视频生成模型Vidu。
王博:问一个直接的问题,除了Vidu,你平时还会用哪一款视频生成模型?
朱军:我不会大范围去使用,但对于相关模型和产品,我们会做很多的对比和内部的评测,我们需要掌握行业的最新进展,头部的这些视频模型都在我们评测范围内。
王博:仲远老师,今年有惊艳到你的AI应用吗?
王仲远:很坦诚地说,今年还没有。
当然,我会用一些基于大模型的APP当工具来使用,但是特别高频的使用或者惊艳到我的产品还没有出现。因为C端用户对体验的敏感度是极高的,稍微出现一些Bad Case都有可能引起C端用户比较大的反弹,这种C端杀手级的应用对于模型的能力,对于Corner Case处理的能力要求极高的,我们还需要耐心等一等。
B端我了解到有很多还不错的应用,像AI编程、AI面试、AI素材、AI电商广告等等,已经开始在行业内大量使用。
6.谈具身智能:数据关注太多,模型关注太少
王博:今年具身智能非常热,无论是在英伟达GTC上,还是在今年的世界人工智能大会上,宇树科技的表现都非常亮眼。我们今年看到了具身智能领域有很多共识,比如多模态感知的重要性。那么,你认为目前具身智能领域最大的“非共识”是什么?
王兴兴:大部分情况下,社会大众的共识其实不是特别准确,或者特别有价值的事情。如果一家公司或者一个产品做得好,你必须有很多非共识,从而发掘未来一到两年,甚至三到五年以及更长远的技术方向,这是非常重要的事情。
具身智能的非共识现在不太好说,但我认为,大家对模型的创新和底层的技术关注度不太够,相反对于多模态大模型、数据的关注度有点过高了。因为我一直觉得,假设未来有非常理想的AGI,数据反而是次要的点。大家更应该关注提升整个模型的能力,可以更高效地利用数据、总结规律,并可以持续自我学习。
自我学习不需要加更多的数据,就跟人类似。我们只需要给初级的数据,理想状态下模型就可以自我学习与自我探索。但现在很多情况下,给一个模型一个任务,很多情况下如果第一次尝试没有成功,大概率后面再尝试也不会成功,因为它没有自我迭代与自我思考能力。
7.谈科学家创业:要抓住关键的Moment
王博:朱军老师,你在瑞莱智慧、生数科技两家创业公司担任首席科学家。尽管你在学术界很知名,但今年之前,我感觉你一直是比较“神秘”的状态,直到今年4月份Vidu的发布,才一下子让很多人认识了你。杀入视频生成这个很卷的赛道,你经历了怎样的转变?
朱军:我可以讲一下为什么要重视做产业或者做成果转化。
2018年,清华大学在做人工智能战略,当时不管是科研界还是产业界都出现了一些形态的变化。在科研界,过去大家更多会说做单点创新,但从那个时间点之后人工智能开始走向系统级创新,对创新的要求更高、更复杂了,所以在做科研规划的时候思考的维度更高了。从行业发展来说,从实验室的技术走向行业的Gap非常短了,我们看到很多技术刚在实验室出来,很快产业界那边已经可以承接,产业界能够准备好对接这种最前沿的技术。
基于这些理解和分析,我从2018年开始比较重视实验室技术和行业的进一步结合,希望打造一个双向的反馈。一方面希望原始积累的技术走向行业,另一方面更希望从行业真正的、实际的问题去牵引研究,从而看到更真实或更有价值的问题。这种相互反馈还是非常好的,我自己觉得链路走通了。
我参与创办第一家企业是瑞莱智慧,主要定位在人工智能安全,当时是2018年,我们是行业里最早一批做人工智能安全技术成果转化的团队。当时我们有个信念,如果大家相信人工智能会创造一个新时代,安全一定是人工智能落地非常关键的一环,当时我们在规划的时候把人工智能安全放在第一位。
第二家企业是生数科技,Vidu的核心技术U-ViT架构是由我们团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。
我的研究方向就是今天大家说的生成式AI,之前大家叫概率模型。2017年我跟一些学者讨论过,认为这个方向很好、潜力很大,为什么当时大家不去谈或者不去用?因为当时缺少真正可以应用的场景。2022年,大家一直期待的生成式AI时刻到了,在那个时间点下场做事是一个必然的选择。我做研究大概有20年了,从过去20年来看,最值得做的就是抓住关键的Moment。
科学家创业应该关注更深层次的问题或者更高能力的提升,而不是大家都去重复造轮子。
8.快问快答
王博:如果你现在有十亿元人民币,你最想把钱投在哪里?
王仲远:我会投给智源研究院,做原始的创新和基础研究。
朱军:我肯定投在Vidu上,以更快的速度往前跑。
张鹏:投入到智谱下一代原生多模态模型的训练上。
王兴兴:分发给所有具备创新能力的学者,共同推进行业发展。
王博:在人工智能领域,你最钦佩的人是谁?
王仲远:我特别钦佩Jeff Dean(谷歌首席科学家)。人工智能发展到今天是一个系统性的研究,又是一个系统的工程,需要把算法、工程、数据等等做综合性的结合,他在这个方面是一个非常好的表率。
朱军:我的导师张钹老师,无论是做学问还是为人,他是我非常佩服的人。
张鹏:张钹老师,他确实为中国人工智能奠定了基础,也是智谱发展过程当中非常重要的引路人。
王兴兴:让我直接选一个人非常难选,我觉得所有目前在AI领域做了卓越贡献的学者我都非常钦佩。
王博:刚才有两位嘉宾都提到了张钹老师,我们前段时间和他进行了一次深度对谈。当时,我们在文章中写道:当一切变得艰难而复杂,我们更需要回到中国人工智能的原点,去寻找出发的理由。唯有溯源,才能拨开重重迷雾,看清前行的路。而张钹教授和我们对话过程中也非常直率地指出“在中国,光搞大模型很难活下去,必须与应用相结合”“企业的最终目标是赚钱,所以企业必须和学校不一样”。其实,以他的成就和资历,他本不必说这些,但张钹教授的直率让人肃然起敬。
下一个问题是,过去一年你做得最正确的决定是什么?
王仲远:加入智源研究院。
朱军:推出了Vidu,我从做这件事情的那一刻起就没有后悔过。
张鹏:投入资源做多模态的探索。
王兴兴:加大了对人形机器人的投入。
王博:预测一下人工智能领域2025年一定会发生的一件事情是什么?
王仲远:2025年,多模态大模型一定会成为备受瞩目的方向。
朱军:2025年,视频可以走向C端应用了。
张鹏:2025年,应该会实现60%的人,人手一个AI设备。
王兴兴:2025年,至少相对通用的机器人模型能做出来。
王博:今天的巅峰论坛就到这里,非常感谢各位嘉宾的精彩分享!