作者|田思奇
一位关注机器人移动能力,并且在自动驾驶和人工智能领域浸润多年的学者,会如何看待2024年的具身智能热潮?
在北京举行的2024世界机器人大会上,「甲子光年」见到了德国纽伦堡工业大学机器人和人工智能实验室主任沃尔弗拉姆·比加尔(Wolfram Burgard),一位在学术界享有盛誉的机器人学者。他和团队开发了多种创新的概率模型技术,广泛应用于机器人导航和控制,包括定位、地图构建、SLAM、路径规划等多个方面。2009年,Burgard获得德国科研最高奖——莱布尼茨奖。
此外,Burgard还是著名教科书《概率机器人》和《机器人运动原理——理论、算法和实现》的合著者,曾任IEEE机器人与自动化学会主席。在清华大学2020年发布的全球2000位最具影响力的人工智能学者榜单中,Burgard位居机器人分项的第一位。
在与「甲子光年」的对话中,Burgard对人工智能所推动的机器人研发进展感到非常兴奋。但他也认为人类通常低估了在真正建立具身形态所需的感知能力。为了理解这些系统的局限性,最好的方法或许是将人类自己置身于机器人的视角,想象自己拥有那些不够灵活的手和有限的感知。
他也相信,ChatGPT所代表的大语言模型可以加强机器人的可解释性。虽然还达不到100%的准确度,但“有研究表明,人类在解释事物时并不总是准确,我们自己在这方面也并非完美无缺。因此在解释事物方面,人类的标准也许可以适当降低,” Burgard表示。
以下是全部采访内容,经过编辑整理:
1.低估具身形态所需的感知能力
甲子光年:您已经是第三次来到世界机器人大会了。这届大会上出现了许多人形机器人,具身智能也是2024年度的热词。作为一名机器人学者,您如何看待这一趋势?
Burgard:首先,应用范围变得更加清晰,尤其是在生产领域,这一进步尤为明显。更重要的是,我还看到硬件方面的巨大进步,真正有能力的人形机器人,其数量和质量都令人叹为观止。我在欧洲还没有见过这样的东西,其实能够制造出如此高性能机器人的公司寥寥无几。
几年前的展会上,机器人只能被系在天花板垂下的绳子上,旁边还需要有学生随时待命,以防机器人出现故障,但那已经是当时最先进的技术水平。现在我们已经有很多机器人可以摆脱人的照顾四处走一走,这就是巨大的进步。这些机器人在面对故障时展现出了更强的韧性和稳定性。能够连续完成后空翻动作的机器人,在几年前是难以想象的。
现在我们有了更加可靠的机器人,它们能够满足大学和工业实验室的研究需求,而一旦这些机器人为学术界和工业界做好了充分的准备,我相信我们将在这一领域迎来更加显著的突破和发展。
甲子光年:我在博览会上看到,很多机器人的确可以帮我们抓起一些东西,但有些机器人后面还有一根绳子,需要人牵引。对于机器人来说,目前最具挑战性的技术是什么?
Burgard:我同意你的观点,我们的机器人仍然带有绳索,但我们正在摆脱这种束缚,这是我目前的信念。
另一大挑战在于,我们真正建立具身形态所需的感知能力。目前,这些具身智能平台大多有摄像头,激光雷达和传感器等等。它们能感知世界,但还缺乏像触觉和力度这样重要的传感器。
为了真正操纵世界,机器人需要了解你抓握物体的方式,以及是否能稳定地握住你从来没有抓起来的物品。这是人类靠直觉就可以做到的,而机器人缺乏对力度的判断,包括合适的手部,以及将手部接收的信息传输到计算机所需的电线和相应的计算能力。
甲子光年:伴随着人工智能带来的技术突破,机器人领域的研究发生了什么变化?
Burgard:大约两年前,随着大型语言模型的问世,公众意识到了人工智能领域的重大突破。这些模型的出现为人工智能领域开辟了全新的发展空间。它们给人留下的印象是它们对现实世界有着一定程度的理解。
举个例子,想象一下,如果你是一个机器人,你的主人要求你捡起躺在地上的玩偶。在这种情况下,如果向大语言模型比如ChatGPT询问如何操作,它可能会给出以下提示:首先识别玩偶的躯干部分,然后是手臂和腿部,最后建议避免直接抓取头部。这种对物体识别和操作的理解,是过去需要通过复杂的编程和训练才能实现的。
同样地,如果一个吸尘器机器人面临是否应该避开或清扫前方的物体的决策,大型语言模型能够根据物体的性质给出相应的建议。例如,面对珠宝等贵重物品,模型会建议避开;而面对面包屑等杂物,则会建议进行清扫。
这些大语言模型的智能之处在于,它们能够在没有经过特定任务训练的情况下,以零样本的方式执行任务。这种能力极大地减少了对手动编程、深度网络训练和数据收集的需求。因此,这些模型不仅提高了智能机器人的灵活性和适应性,而且为它们在家庭和生产环境中执行多样化任务提供了可能。
甲子光年:您是否认为机器人应该有双腿,以便它们可以在家里承担更多人类的任务?
Burgard:这是个好问题。我觉得去掉轮子,问题也不会变得更容易。当你有腿的时候,你就可以走楼梯了,也可以拥有更小的占地面积。但这会带来更大的不稳定,比如力量会更小,能携带的电池电量减少,计算能力也会下降。总之这是一个权衡,我认为不是所有情况下都需要双腿,但如果能用腿完成任务,那也没什么问题。
甲子光年:机器人大会已经展出了一些家用人形机器人,它们可以做家务,帮我洗碗和叠衣服。你认为未来我们会普遍拥有家务机器人吗?如果它的价格就像马斯克说的大约2万美元,您会给自己买一个吗?
Burgard:如果它有用,我肯定会买一个。其实我家里已经有了一个割草机器人。我本来要在夏天每周割草2-3次,每次半个小时。但到现在我已经很多年没这样做了,草坪也看起来漂亮多了。
甲子光年:可以想象如果您要雇佣一位真人帮你来割草,那会贵得多。
Burgard:没错,而且我们德国社会确实没有多少人能帮你做这些,节省时间绝对是一个优势。当然割草是一项体力活动,它也提供了锻炼身体的机会,如果人们将空闲时间用于久坐不动,这将对健康产生不利影响。但在家庭环境中,如果有一个机器人能够在早餐后自动打扫厨房,无疑会提高生活质量。
但机器人的价格问题也是不容忽视的挑战。在展览会上看到的那些机器人,高昂的成本使得它们难以普及。此外,尽管硬件本身可能已经相当先进,但它们在智能方面的表现仍然有待提高。这仅仅是硬件方面,而在此基础上开发软件则需要更大的投资。考虑到这些机器人的研发成本,包括软件的开发,其投入的资金可能高达数亿美元。制造一个既灵活又实用的家用机器人的成本非常高。
甲子光年:另一个问题在于,神经网络或者说大语言模型总是缺乏解释性,总有一个黑盒子在那里。这会给我们承担日常生活职责的机器人带来很多风险吧?
Burgard:这是肯定的。随着技术的发展,我们对于机器人的期望也在不断提高。我才刚刚和同行们讨论了阿西莫夫的机器人定律,这些定律强调了机器人应始终服务于人类,同时在不损害人类的前提下保护自己。然而,“伤害人类”这一概念到底意味着什么?
借助大型语言模型,我们或许可以得到有关某个动作是否会伤害人类的解答。尽管目前我们还无法完全做到这一点,但这些模型可能会提供高达90%或更高的准确率,这无疑是一个进步。可解释性确实是一个问题,但如果机器人的表现超越了人类,它们可能不需要解释自己的行为。
甲子光年:这种观点值得讨论。我认为可解释性也适用于自动驾驶领域。当自动驾驶缺乏可解释性时,可能会酿造巨大的危险。在这种情况下,您仍然相信只要无人驾驶汽车的表现比人类更好,缺乏可解释性也不是什么大问题吗?
Burgard:如果机器人能够解释自己的行为,这肯定会是巨大的优势。人类一般也是通过理解行为背后的推理来学习。例如,在打网球时,我们会向专家学习,他们会解释为什么采取某些特定的动作。这种解释能力可以被视为有力的工具。
有研究表明,人类在解释事物时并不总是准确,我们自己在这方面也并非完美无缺。因此我们应该认识到,在解释事物方面,人类的标准也许可以适当降低。
当我们询问基础模型为什么机器人会采取某种行动时,它们可能会提供一个解释,即使这个解释可能只是它想出的一个故事。在某种程度上,我们可能会编造一个故事来解释机器人的行为,但这至少是向更深层次理解迈出的一步。
2.从机器人视角看世界的不确定性
甲子光年:是什么促使您在年轻的时候进入机器人研究领域?
Burgard:从机器人身上,我看到它们能作为物理世界中的代理人,根据我的编程做出一些行为。这种模式非常吸引人,在代码中做了更改后,机器人是唯一可以让我清楚看到结果的领域。
甲子光年:欧洲的机器人产业和研究有什么特点?与中国和美国有什么不同?
Burgard:我认为中国和美国更加积极进取(aggressive),大家对技术的发展非常有热情,并为之投入。一旦技术成熟,找到适合的应用,一切便水到渠成。欧洲人通常有点悲观,有点被动,只是静静等待一切变得更加显而易见。欧洲工程师也非常优秀,我仍然希望到某个节点我们能够赶上来。但我认为这在未来会是一大挑战,我们需要更快速地对具身智能和硬件的发展做出反应。
甲子光年:我感觉欧洲人更擅长概念、理论和基础研究,而美国或中国的公司擅长把这些成果商业化。
Burgard:这也是事实。但另一方面,我们德国的工程师在许多行业制造出了非常棒的机器,整个欧洲的情况都是如此。这一优势不容小觑,但我希望欧洲能更多地接纳新技术,对新技术保持乐观和开放的态度,就像我在中国看到的你们大家一样。
甲子光年:您在2005年出版了合著的教科书《概率机器人》。书里写到从机器人的感知角度来看,世界充满了不确定性,这就是我们研究概率的原因。我们应该如何理解这句话?
Burgard:不确定性是技术发展中一个永恒的问题。即便是最强大的基础模型,也无法完全避免系统故障的情况。因此,始终维持对不确定性的度量至关重要。人类自身也不太擅长处理不确定性。例如,在恶劣天气条件下驾驶时,人们往往会因对风险的评估不足而驾驶过快,这反映出我们在管理不确定性方面的不足。
在机器人技术领域,我们不能忽视这些挑战。尽管深度网络在特定数据集上表现出色,但现实世界的复杂性往往超出了它们的处理能力。传感器的故障和环境的不可预测性都可能影响机器人的性能。
甲子光年:如果我们人类想从机器人的角度来看待这个世界,除了不确定性之外,我们还应该注意什么?
Burgard:设想一下,如果我们自己是一个装备了传感器和机械臂或腿的机器人,要完成与人类相同的任务,这绝非易事。实际上,这对于机器人来说是一个真正的挑战。
当前的机器人虽然能够执行许多任务,但它们在感知能力上仍然存在局限。为了真正理解这些系统的局限性,有时最好的方法是将自己置身于机器人的视角,想象自己拥有那些不够灵活的手和有限的感知能力,然后尝试进行操作。这种体验会让我们意识到,即使是简单的任务,在机器人的世界里也可能变得极其困难。
甲子光年:我认为人类的特殊之处在于我们依靠生活经验积累了一批常识,而这一点对于人工智能或机器人来说是很难教授给他们的。
Burgard:我们期望基础模型能够携带一些基本的常识,尽管在某些情况下它们可能会给出错误的结果,例如在处理庞大的数字运算或得出不寻常的结果时。然而,当涉及常识性问题时,这些模型往往能够提供合理的答案。例如,当询问ChatGPT关于拿起鸡蛋所需的力度时,它能够给出一个具体的数值。
甲子光年:您对我们 5 年或 10 年后机器人的发展有什么预测吗?我们可以期待什么?
Burgard:在安全框架下的自动驾驶汽车已经在一些城市和地区得到应用,无人驾驶也正在逐步发展。预计在未来5到10年内,这些技术将在实际应用中得到更广泛的推广,尤其是在工厂环境中,人类和机器人的协作将变得更加普遍。尽管如此,建立一个强大的感知系统需要大量的时间和资源,它所需的投资金额不能忽视。从过去的发展来看,建立这样的系统可能需要超过10年的时间。
在工业领域,由于环境的可控性更高,标准化和适应性更强,机器人的应用可能会更加容易。然而,在家庭环境中,由于环境的复杂性和不可预测性,机器人的应用将面临更多的挑战。
甲子光年:工厂里已经有了非常成熟的自动化系统,那里还需要人形机器人吗?
Burgard:在某些情况下,我们面临的挑战是处理密闭空间或具有复杂结构的物体。以飞机组装为例,这是一个极具挑战性的任务。与开放空间中的平坦表面不同,飞机组装涉及复杂的曲面和障碍物。在这样的环境中,机器人需要具备跨越障碍物并在其内部执行精细操作的能力。
飞机的设计和制造原本是为了适应人类的生理特点和操作习惯。这在一定程度上限制了机器人在这一领域的应用。如果机器人无法胜任飞机组装的任务,它们的应用就会受限。然而,这也正是人形机器人展现其潜力的领域之一。它们可能能够完成其他类似的建造任务,这些任务原本是为人类设计的。
甲子光年:您能透露一些接下来的研究方向吗?
Burgard:这是个好问题。作为科学家,我们有责任去想象未来会发生什么。我们之前引入的概率机器人方法标志着一个重要的进步,它引领了一场关于定位系统的革命。这种方法使得机器人能够准确地了解自己在世界中的位置,并能够构建环境地图,这对于推动自动驾驶汽车的发展至关重要。但我们还无法稳健地做到这一点。
接下来就是深度网络发挥作用的时刻。它们提供了一种强大的工具,可以帮助机器人更好地感知和理解其所处的环境。随着基础模型的发展,我们正在开启一个新的维度,使机器人能够更深入地理解世界。这些模型的集成和应用,可能会使机器人在执行任务时不再完全依赖于传统的概率机器人理论。主要挑战在于如何将这些技术有效地结合起来,形成一个协调一致的系统。
甲子光年:在几十年的机器人研究之后,您的信念有所改变吗?
Burgard:并没有。这个领域取得了巨大的进步,比如传感器,人形机器人等等。我想5-10年内我们就能见到真正的人形机器人。但这个领域还是始终如一令人着迷。