图灵奖得主Yann LeCun：仅靠语言训练的人工智能，永远无法比拟人类智慧

仅靠词汇和语句训练的人工智能系统，可能永远无法比拟人类认知。

当一位谷歌工程师最近宣布其最新的聊天机器人为人类时，随之而来的是一片混乱。聊天机器人 LaMDA 是一个大型语言模型（LLM），旨在预测任何一段输入文字可能的下一句话。由于很多对话在一定程度上都是可预测的，因此这些系统可以借此推断如何有意义地将对话进行下去。LaMDA 在这方面的出色表现甚至让工程师 Blake Lemoine 怀疑机器是不是闹鬼了。

人们对 Lemoine 的说法反应不一：有些人对机器变人的想法嗤之以鼻；有的人认为虽然 LLM 还不算人，但不保证下一个也不是；还有人说，欺骗人类并不是什么困难事，毕竟我们都能在吐司上看到耶稣基督。

但人们各式各样的反应也凸显了一个更深层次的问题：随着这些 LLM 变得愈发强大、应用愈发广泛，人们似乎再也无法在对它们的理解上达成共识。

人们曾经坚信的，只有被拥有“同人类一样的完整思考能力”的机器才能够完成的“常识性”语言推理基础，在最近几年内不断被突破，但这些通过测试机器系统却似乎并不具有我们所期望的常识能力，仍旧会文不对题、废话连篇，甚至还会做出做出危险提议。

因此引发了一个令人不安的疑问：这些系统怎么会如此聪明却也显得如此有限？

追根究底，其实是语言的局限性，而非是人工智能的原因。在舍弃了思想与语言必然相关的固有印象后，我们会发现，这些系统注定会拥有浅薄的认知，一种永远无法匹及人类所拥有的，完整思维形式的认知。换句话说，即使是世界上最惊人的人工智能系统，也永远无法比拟人类。

可以谈论任何事情的机器，并不一定真的知道自己在说什么

19 世纪到 20 世纪之间一个主流的哲科理论是：知识即是言语。对事物的认知仅限于人们是否使用了正确的语句，在这张由我们所知的所有真实主张所织成的网络中，是否掌握了该事物与其他语句间的联系。

在这套逻辑中，语言的理想形式是纯粹形式化、数字逻辑化的，是由任意符号所组成，由严格推理规则所链接的。在花时间剥去其中模糊性与不确定性后，即使是自然语言也不例外。正如维特根斯坦所说，“真命题的总体就是全部自然科学”。即使是心理学认知图与心理图像的新发现所带来的争议也没能撼动这在 20 世纪如此根深蒂固的理念，许多人仍坚称，心理学表层之下仍是语言学。

有些聪敏过人的学者仍坚持这套观点：百科全书中包含一切可被知晓的知识，阅读所有可读之物即可全面了解一切。符号 AI（依据逻辑规则规则操纵任意符号，使其以不同方式进行组合）的早期作品大都基于此。

在这类研究中，AI 所知的一切都在一个庞大数据库中，数据库本身则是由人工根据逻辑串联的真实语句组成。因此，对于系统智能的判断关键在于其是否能够合时宜地反馈正确的语句，或者说，能否正确地操作符号。

这一概念也是图灵测试的基础：一台能够说出该说的一切的机器意味着它知道自己在说什么，因为知道正确的语句以及什么时候该说什么就已经穷尽了知识。

然而，这套标准也有一个一直被避而不谈的问题：可以谈论任何事情的机器，并不一定真的知道自己在说什么。

语言并不能穷尽知识，语言知识一种高度具体且极其有限的知识表述。无论是编程语言、符号逻辑还是口头表达，所有语言都依赖一种特定的表征模式，且擅长以高度抽象的形式表达离散对象和属性以及二者之间的关系。但阅读乐谱与收听音乐录音之间差异巨大，更何论是拥有演奏的技能。

所有的表征模式都会涉及对于事物信息上的压缩，区别只在于压缩过程中留存下来的东西不同。语言的表征模式难以处理十分具体的信息，如对在描述不规则的形状、物体的运动、复杂机制的运作、一幅画的细微笔触，甚至是冲浪等特定环境下的细小动作。

但一些非语言的表征模式在这方面的表述就很好，如包括图像、录像、图表以及地图的标志性知识，或者是训练后神经网络中的分布式知识，后者也常被称作是诀窍和肌肉记忆。每一种模式都有自己所擅长表达的，这些对于其他模式来说，可能会很难，甚至是不可能表达的。想象一下“毕加索或汤比”长什么样子？

经过训练的大型语言模型可以掌握每一句话的背景知识

掌握语言表达的独特之处以及其限制所在的方法之一是，认识到单靠语言所能传递的信息有多少。语言在信息传递方面拥有非常“窄”的带宽，脱离词汇或语句这样上下文语境的独立文字所能传达的信息量很小。

更何况还有无数同音异意的词组或代词的存在，让很多句子表述非常模糊：“盒子在笔里”这句话中，笔是指什么？墨水笔（pen）还是小孩的玩具围栏（playpen）？就如 Chomsky 及其追随者几十年来所坚称的一样，语言并不是一个明确的、毫不含糊的交流工具。

人类并不需要完美的交流工具，因为我们在其他非语言层面共享认知。我们对句意的理解通常依靠句子所在的情景的深入理解，从而可以推断其所要表达的信息。这在对话场景中很明显，我们常常会讨论发生在我们周围的事，如足球比赛，或者是针对特定社会角色的明确目标，如在服务员处点单。

阅读场景中也是如此。不过这部分训练不仅没让 AI 通过常识测试，甚至连小孩子也没能教育好。这种流行的无语境阅读技能培养，旨在通过一般化阅读理解策略培养孩子对文本的理解，然而有研究表明，孩子所掌握的相关背景知识的内容数量才是决定他是否能够理解文本的关键。

这些系统注定只会拥有浅薄的理解，永远无法接近人类所能的全身心思考

词语和句子所固有的上下文性质是 LLM 运作的核心。一般来说，神经网络会将知识以技巧方式的形式表示，这是一种掌握上下文高度敏感的模式以及发现具体及抽象规律的熟练能力，也是在精细处理针对性任务输入的必备技能。

在 LLM 中，这种能力意味着系统可以在已知文本的多个层面上找出规律，既能认知到单个词语在段落中的上下连接，也能分辨句子在文本框架中是如何承上启下的。

其结果是，系统对语言的理解必定是结构化的：不以词汇在字典中的含义为准，而是根据其在语句的集合中所扮演的角色进行认知。因为很多词语几乎只在特定的领域使用，如“化油器”、“菜单”、“调试”，或者“电子”，所以只要带有这些词汇的句子，即使只有一句话，系统也能判断出其背景。

简而言之，经过训练的 LLM 可以掌握每一句话的背景知识，会在前后文中寻找词语或句子来填补语境的空白。这意味着它们能够接受任何词汇或语句为输入，然后做出合理的方式继续对话或填补文本其余的部分，尽管这些回答很难说是无懈可击的。一个借助人类编写的语句所训练出的系统，并常常与人类交互，是能够拥有合理对话所应具备的一般理解的。

大型语言模型的局限性

虽然总有人抗议，不应在这种语境下使用“理解”或者称呼 LLM 为“智能”，但在目前来看扣字眼似乎并由没什么用。确实如反对者所指责的，这些系统仅仅是在“模仿”，因为 LLM 对语言的理解虽然很惊人，但也很浅薄。

这种浅薄也很似曾相识：课堂中大谈特谈专业术语的学生们不一定知道他们到底在说什么，他们仅仅是在模仿教授或是正在阅读文本段落。生活就是如此，我们常常很难搞清楚自己到底知道什么，尤其是当这些知识是从语言中获取到的时候。

LLM 对一切的理解就是这样的浅薄。就比如 GPT-3，通过遮盖语句或段落中未来词汇，让系统猜测这些词最有可能是什么，猜错便会被纠正，最终系统将能熟练猜测出最可能的词汇，成为一个有效的预测系统。

也就是说，对于任何问题或谜题，正确答案或许只有几个，但我们却可以由无数个错误答案。因此，若想能稳定预测一类问题的正确答案，机器需要学习特定的语言技能，如解释笑话、解决文字问题或者是解开逻辑谜题。

这些技能及相关知识，让机器可以解释复杂原理、简化困难概念，重述复述故事，以及其他一切依赖于语言的能力。同依靠逻辑规则链接的庞大语句数据库符号 AI 不同，知识以上下文敏感的方法体现，根据给定前文得出一个合理的下一句话。

抛弃了所有知识都是语言学的观点，将允许我们意识到有多少知识是非语言的。

然而，从语言学上解释概念与实际的使用是不同的。系统可以解释长除法但却不会进行长除法；可以列出那些话是冒犯性、不该说的，却又在下一秒自己说出这些话。语境知识可以带来玩弄语言的能力，但却不能教会我们做事的方法，如移情或谨慎处理困难的问题。

后者却又是对语言使用者而言必不可少的，尽管这并不能算是语言能力，或者说，不主要是语言能力，语言只是附带的。这也适用于很多概念，甚至是讲座或是书本中学来的知识：虽然科学也会上课，但学生的主要评分还是基于他们的实验表现。除了文科外，解释清楚某件事往往不如让东西正确运作所需的小技巧或技能有用，或者说没有那么的重要。

看透表面后，我们会更轻易地发现这些系统的局限性：它们注意力和记忆力大概只有一个段落。如果我们参与对话的话，这一点很容易被忽略，因为我们往往只关注最后一两句话，只关注我们的下一个回复。

但对于更复杂的对话来讲，能够积极倾听，回忆并重温先前的对话、在不受干扰地维持对话主题并提出具体观点，等等，都需要系统拥有更长久的注意力和记忆。

这进一步暴露了系统所能拥有的理解能力：只需每隔几秒就换个说辞，改变语气或打压系统，就很容易欺骗它们。如果回到过于之前的话题，系统就会重新开始，认定你的新观点是和就观点一致，切换语言或承认它相信你说的任何东西。形成一套连贯的世界观所需的理解远远超出它们现在的能力。

语言之外

抛弃所有知识都是语言学的观点，将允许我们意识到究竟有多少知识是非语言学的。虽然书本包含了很多我们可以解压缩和使用的信息，但其他来源也是如此，一家的说明书甚至不屑于在图纸旁边填补文字说明；人工智能的研究者往往会先阅读论文中的图表，掌握大概网络架构后才会去扫一眼文本；游客总是会根据地图上的红点或绿色路线标识在纽约城游览。

不局限于图表、图表或地图，人类通过世界探索学到了很多东西，让我们明白了人类和物体行为上能做和不能做的事。人造物和人类环境的结构直观地传达了很多信息：门把手在手的高度，锤子有较软的抓手，等等。非语言性的心理模拟在动物和人类中都很常见，不仅可以用于规划场景还可以用于逆向设计手工制品。

同理，通过模仿社会习俗和仪式也可以向下一代传达各种技巧，从食物和药品的准备，到如何紧张时期维持和平。我们很多的文化知识都是标志性的，或是有精确的动作形式，可以在师徒间传递。这些细微的信息模式很难用语言来表达和传达，但仍然可以被他人所理解。这也是神经网络所擅长收集和完善的，对环境敏感的精确信息。

仅靠语言训练的系统永远不会拥有接近人类的智力，即使你将训练时间拖长到宇宙末日为止。

语言是很重要的，因为它可以在一个小小的格式中传达大量的信息，特别是在印刷厂和互联网诞生之后，可以被复制和广泛使用。但是，在语言中压缩信息并不是没有成本的：要解码一个信息量密集的段落需要花费很多功夫。文科会需要大量的课外阅读，但很大一部分的课堂时间仍然是用来复习困难的段落。建立一个深刻的理解是费时费力的，无论所提供的信息是多么的详尽。

这就解释了为什么一台经过语言训练的机器可以知道这么多，同时却又这么少。它是通过一个小小的瓶颈获得了人类知识的一少部分。但人类知识的这一少部分可以是关于任何东西的，无论是爱情还是天体物理学。也就是说，它有点类似于一面镜子：它给人以深度的错觉，几乎可以反射任何东西，却只有一厘米厚。但如果我们试图探索它的深度，就会撞到脑袋。

人工智能的聪明程度受到限制

这并不意味着机器就是蠢笨的，相反，这只是告诉了我们它们的聪明程度是受到限制的。一个仅仅借由语言训练的机器是永远无法比拟人类智慧的，就算你将训练时长延续到世界末日也是一样。语言的知识并不适合启发意识或成长为人，但从表面来看也似乎是足够的。很多情况下，表面就很好了，人类之间很少会真正对彼此进行图灵测试，咄咄逼人地询问他们对事物理解的深度、强迫他们做多位数乘法，大多谈话都只是微交谈。

但是我们不应该把 LLM 拥有的浅层理解与人类从观察世界的景象、探索世界、在世界中进行实验以及与文化和其他人互动中获得的深层理解相混淆。语言可能是一个有用的组成部分，它扩展了我们对世界的理解，但语言并不能代表智力，这一点从许多物种中可以看出，例如鸟类、章鱼和灵长类动物。

对非语言的深入理解是语言有用的基础，正因为我们拥有对世界的深入了解，才能迅速理解他人在谈论的事情。这种更广泛的，对环境敏感学习和方法是更基础也更古老的知识，是小动物身上出现意识的基础，并让其可以借此生存和繁荣。这也是人工智能研究人员在寻找人工智能常识时关注的更基本的任务，而不是这种语言学的东西。

LLM 没有固定的身体或长久存在的世界可以让它们产生知觉，所以他们的知识起始都源于文字，它们的常识也仅限于皮毛。我们的目标是让人工智能系统能够专注于其所谈论的世界，而不是词语本身。LMM 还没有找到这二者之间的差别。这种深度理解上的差别是没办法仅仅通过语言弥补的，语言根本就不适合这件事。

和 LLM 打交道的时间越长，就越能看出仅仅通过语言就能知道的东西有多么少。

作者简介：

Jacob Browning，纽约大学计算机科学系的博士后，研究人工智能哲学。

Yann LeCun，2018 年图灵奖得主，纽约大学银牌教授。

本文转自公众号：AI前线，作者Jacob Browning、Yann LeCun，点击阅读原文

推荐阅读

目录