引言:今年,除了生成式AI,NVIDIA的另一个重心就是人形机器人,无论是3月份的GTC还是最近的SIGGRAPH大会,机器人都是NVIDIA的重头戏。而且,NVIDIA正将目光投向人形机器人这一AI价值和技术双高地。从图形游戏到矿机芯片、到AI,再到生成式AI,NVIDIA每一步都踩在了风口之上,这次的人形机器人,会是下一个风口吗?
自2021年8月特斯拉在其AI Day上首次提出人形机器人布局以来,人形机器人迅速吸引了亚马逊、谷歌和微软等科技巨头的关注。根据 CB Insights 的数据,人形机器人公司仅在2024年上半年就筹集了近7.93亿美元。
生成式人工智能的进步正在加速人形机器人的学习速度。特斯拉的人形机器人“擎天柱Optimus”经过几年的不断进化,已经具备了直立行走和用手捏鸡蛋的能力,并逐步进入量产阶段,预计将在2025年底前上市。同时,近日,由OpenAI、微软和亚马逊创始人贝佐斯等投资的公司Figure AI也宣布推出了全新一代Figure 02人形机器人。此外,亚马逊旗下的Agility Robotics已经下厂了,其职责是负责拾取托盘并将其放置到传送带上。随着芯片巨头NVIDIA的加入,无疑为火热的人形机器人的发展进一步提速。
图源:Tesla
为什么是人形机器人?
在AI迅猛发展的今天,机器人形态多样,如圆形扫地机器人、工厂机械臂和机器狗,不一而足。然而,人形机器人为何备受业界关注?有必要设计的跟人类一样吗?
黄仁勋曾精辟地指出:“最容易适应世界的机器人是人形机器人,因为我们这个世界是为我们人类建造的。而人形机器人与人类拥有相同的体型,与其他类型的机器人相比,我们拥有最多的数据来训练这些机器人。”
NVIDIA通过Apple Vision Pro控制机器人(图源:NVIDIA)
这一观点不难理解。我们日常所处的环境,从门把手到楼梯,皆依照人体工程学设计。人形机器人显然更适合融入这一环境。特斯拉首席执行官Elon·Musk对具身人工智能的看法一致,新一波人工智能将是实体的,将融入人类环境并理解物理定律。
因此,人形机器人会是AI的最佳载体,它们能更便捷地与环境交互,执行各项任务。得益于人工智能、加速计算、基于物理的模拟以及庞大的传感器和执行器生态系统的重大进步,人工智能机器人可以轻松地适应、学习并精确地执行复杂任务。
当今时代,人口老龄化和劳动力短缺问题的日益严峻,人形机器人有望在一些领域替代部分人力,提高生产效率,市场潜力巨大。高盛预计到2035年人形机器人市场规模将达到380亿美元。这种人形机器人最先落地应用的可能是工厂,智能工厂机器人将从传统的四轴和六轴工业机器人发展为更为复杂的人形机器人。最终,工厂将看到一个机器人指挥一群制造机器人,这些机器人将来制造新的机器人。
那么,NVIDIA为何要进入这一市场?如果我们“庖丁解牛”从人形机器人的本质上看,人形机器人需要依赖强大的感知能力、更智慧的决策能力以及灵活的运动能力,这些能力的实现离不开强大的算力,这些正是NVIDIA的GPU硬件所擅长的。黄仁勋将人形机器人称为是计算机图形学、物理学和AI的交汇点。
尽管人形机器人前景广阔,但事实证明,在实践中交付人形机器人具有挑战性。人形机器人的开发面临着复杂的工程问题,比如在不同地形上实现灵活的双足运动,拿放各种形状、大小、重量和易碎程度的物体,这些都需要进行大量的训练。此外,高昂的成本也使其发展初期只能受限于个别领域,美国银行证券在 3 月 21 日的一份报告中估计,目前生产人形机器人的成本超过 10 万美元。还有潜在的伦理问题也会成为其阻碍之一。
不过即便如此,黄仁勋乐观的预测,未来2-3年机器人技术将取得重大突破,在更久的未来人形机器人将变得像汽车一样普遍。
NVIDIA做了什么?
人形机器人开发是一个复杂的系统工程,涉及到从机器人大脑到四肢控制、感知能力及协同能力等多个方面的技术。这个过程需要机械设计、电子工程、计算机科学和人工智能等众多学科的交叉融合。
那么,NVIDIA做了什么呢?
首先,NVIDIA提供了三大计算平台,为人形机器人构筑底层基础。
(一)“大脑”
NVIDIA DGX系列是用于高性能计算和 AI 模型训练的超级计算机。NVIDIA DGX B200是NVIDIA DGX系统的最新迭代版本。它在训练阶段用于处理大规模数据,优化机器学习模型。这个过程可以比作是机器人的“大脑”,因为它为机器人提供了智能决策和学习的能力。
NVIDIA DGX平台是专为企业AI开发的,从头开始整合了NVIDIA的软件、基础设施和专业知识,提供现代化、统一的AI开发和训练解决方案。自2016年推出NVIDIA DGX系统以来,DGX代表了AI性能的巅峰,创造了无数超级计算机性能和能源效率的记录。
NVIDIA DGX B200(图源:NVIDIA)
(二)“感官系统”
人形机器人要在现实世界中灵活应对各种复杂任务,传统编程已无法满足需求。为了让机器人能够自主学习和适应环境,我们必须将其置于一个高度逼真的虚拟环境中进行训练。NVIDIA Omniverse 提供了一个这样的虚拟仿真平台,它允许开发者在模拟的物理世界中对机器人进行设计、仿真和测试。
这相当于是为人形机器人打造“感官系统”,因为它帮助机器人在虚拟环境中感知和适应不同的情况,为现实应用中的决策和行动做准备。
基于NVIDIA Omniverse,NVIDIA强大的Isaac工具家族为人形机器人的行动提供支持。
NVIDIA Isaac Sim是基于NVIDIA Omniverse构建的一款参考应用,可帮助开发者在基于物理的虚拟环境中设计、仿真、测试并训练AI机器人和自主机器。开发者可以通过业界领先的传感器和机器人类型测试生成合成数据和各种虚拟复杂测试环境,从而进行高度逼真的仿真,同时对数千个机器人进行实时测试。
Figure AI公司所推出新一代对话式人形机器人 Figure 02 就是使用的NVIDIA H100 GPU训练生成式AI模型。借助NVIDIA Isaac Sim来获取合成数据,Figure 02的推出速度大大加快,距离Figure推出其通用人形机器人第一版仅10个月。
NVIDIA Isaac Lab 是一款基于Isaac Sim平台构建的轻量级参考应用,它在机器人基础模型训练中发挥着举足轻重的作用。Isaac Lab 是一个适用于机器人学习的开源模块化框架,它的模块化高保真仿真适用于各种训练环境,可提供各种物理AI功能和由GPU驱动的物理仿真。Isaac Lab能够同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器人具身提供了灵活的训练方法。Isaac Lab是目前业界唯一一款为机器人学习提供高保真渲染的工具,它能够显著缩小仿真与现实之间的差距。借助Isaac Lab高效的训练方法,傅利叶智能的GR1人形机器人具有类似人类的自由度。
NVIDIA Isaac Perceptor是一款适用于自主移动机器人(AMR)和自动导引车(AGV)的参考工作流。Isaac Perceptor可以为基于AI的自主移动机器人提供多摄像头3D环视功能,其核心是nvblox,它是一个由CUDA加速的3D重构库,可以识别五米以外的障碍物,从而提供2D成本图并在300毫秒内完成更新。
NVIDIA Isaac Manipulator为工业机械臂提供全新的基础模型和参考工作流。开发者能够使用它为机械臂或机械手带来AI加速功能,包括使用cuMotion来加速路径规划、利用FoundationPose统一基础模型进行姿态估计和追踪、利用SyntheticaDETR物体检测模型来一次性预测所有物体,使其能够无缝感知、理解环境并与环境互动。
(三)“神经系统”
NVIDIA Jetson Thor是一个嵌入式计算平台,主要用于在机器人内部运行训练好的模型,处理实时感知和控制任务。它可以被视为机器人的“神经系统和运动系统”,因为它负责在机器人实际运行中执行任务和处理实时数据。
在今年3月份的GTC大会上,NVIDIA发布了人形机器人通用基础模型Project GR00T。GR00T由Jetson Thor SoC驱动。作为机器人的大脑,让机器人学习技能。GR00T驱动的机器人将能够理解自然语言,并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能,以便导航、适应现实世界并与之互动。
其次,为了加速人形机器人的开发,在今年SIGGRAPH上,NVIDIA又为开发者提供了两大服务:用于机器人仿真和学习的全新NVIDIA NIM微服务和框架、用于运行多阶段机器人工作负载的NVIDIA OSMO编排服务。这两款工具的推出,标志着NVIDIA在机器人领域布局的进一步深化,将极大的加速人形机器人的开发进程。
NVIDIA NIM是一个为开发者量身打造的AI推理服务平台,它能够帮助开发者快速、轻松地将预训练模型部署到生产环境中。NIM提供了标准化的API接口,使得开发者可以将NIM 无缝集成到自己的应用程序中。无论是构建智能助手、聊天机器人还是其他AI应用,NIM都能提供强大的支持。此外,NIM还支持多种推理引擎,包括TensorRT和TensorRT-LLM,能够自动优化模型的性能,确保应用的低延迟和高吞吐量。
图源:NVIDIA
像人形机器人这样的自主机器人的开发是一个复杂而漫长的过程,涉及数据生成、模型训练、部署等多个环节,需要跨越异构计算资源。传统的开发方式往往需要多个团队协作,且缺乏统一的管理平台。NVIDIA OSMO应运而生,它提供了一个统一的云原生工作流程编排平台,能够有效地调度和管理这些复杂的工作负载,包括合成数据生成、深度学习训练、强化学习以及仿真等。OSMO打破了团队和计算资源的壁垒,让开发者可以专注于创新,而无需过多地关注底层基础设施。
使用 NVIDIA Isaac Sim、Isaac Lab、OSMO 和 GR00T 简化机器人的物
结语
综上所述,在人形机器人领域,NVIDIA构建了一个全面的生态系统。这个生态系统包括三个计算平台、两大服务以及一个通用基础模型Project GR00T,为人形机器人的研发提供了强大的算力支持和开发工具,全面覆盖了从模型训练到实际部署的整个流程。相信在NVIDIA的助力下,接下来的几年,会有更多人形机器人取得更大的成果和进步,甚至将撼动一些劳动力市场。