这篇文章是“NVIDIA 机器人研究与开发摘要 (R²D²)”的一部分,旨在让开发者更深入地了解 NVIDIA 研究中心在物理 AI 和机器人应用方面的最新突破。
本期 NVIDIA 机器人研究与开发摘要 (R²D²) 将探讨 NVIDIA 研究中心针对机器人装配任务的多种接触密集型操作工作流,以及它们如何解决传统固定自动化在鲁棒性、适应性和可扩展性等方面的关键挑战。
什么是接触密集型操作?
接触密集型操作是指机器人与环境中的物体进行持续或重复物理接触的任务,需要精确控制力和运动。与简单的抓取和放置操作不同,这些任务需要精细的交互来处理不确定性下的摩擦、顺应性和对齐问题。
接触密集型操作在机器人、制造和汽车等行业中起着关键作用,常见任务包括插入销钉、啮合齿轮、旋紧螺栓以及组装卡扣零件。作为机器人装配的核心能力之一,接触密集型操作使机器人能够执行复杂的高精度任务,这对于自动化装配和应对真实世界的多样化变化至关重要。
NVIDIA 研究中心应对机器人装配任务的工作流
由于需要在动态环境中进行精确操作,机器人装配一直是极具挑战性的课题。传统的机器人装配依赖固定自动化,灵活性受限。然而随着 AI、机器学习和机器人仿真技术的进步,机器人能够处理更复杂的任务。NVIDIA 研究中心开发的以下一系列装配工作流,标志着从刚性自动化向灵活、可扩展的机器人系统的转变:
- Factory:基于物理的快速仿真与学习工具包,用于实时接触密集型交互。
- IndustReal:使机器人能够通过强化学习在仿真中学习装配任务,并将其迁移到真实世界的一套算法和系统工具包。
- AutoMate:用于在不同几何形状的装配任务中训练专用和通用机器人装配策略的全新策略学习框架。
- MatchMaker:使用生成式 AI 自动生成多样化、可用于仿真的装配资产对的全新流程。
- SRSA:从现有技能中进行检索,用以对新的机器人装配任务进行微调的框架。
- TacSL:基于 GPU 的视触觉传感器仿真与学习库。
- FORGE:利用力测量作为输入,实现零样本仿真到现实迁移的强化学习策略框架。
机器人装配的基础性突破:
Factory、IndustReal 和 AutoMate
长期以来,接触密集型交互的实时仿真一直被视为计算上难以实现的难题,但是 Factory 实现了突破。Factory 是一个基于 GPU 的仿真框架,使用 SDF 碰撞、接触简化和 Gauss-Seidel 求解器。
NVIDIA Isaac Lab 中已经可以提供这些环境,如图 1 所示。在此基础上,在仿真感知策略更新、基于 SDF 的奖励、基于采样的课程和策略级动作整合器等创新的推动下,IndustReal 的发布实现了装配技能从仿真到现实世界的零样本迁移,在 600 次试验中成功率达 83% 至 99%。这项技术已经在 Franka Panda 和 UR10e 机器人上进行了测试,为现实工业应用铺平了道路。
图 1. Isaac Lab 中的接触密集型仿真环境
AutoMate 进一步推动了这项技术的发展。通过引入首个基于仿真的框架,将强化学习与模仿学习相结合,解决了广泛的挑战性装配任务,实现了大规模的零样本仿真到现实的迁移。它提供了 100 个仿真兼容的装配资产、解决约 80 项任务的专用策略,以及通过蒸馏和微调训练可处理 20 项任务的通用策略(成功率均达到约 80%)。
值得注意的是,这两种策略类型均展示了零样本仿真到现实迁移的能力,有时甚至超过了仿真性能。如图 2 所示,AutoMate 经过超过 500 万次仿真试验和 500 次真实试验的评估。专用策略通过拆卸实现装配 (assembly-by-disassembly)、强化学习与模仿学习、以及 Dynamic Time Warping (DTW) 的组合进行训练。通用策略使用 PointNet 自动编码器进行几何表示,从专用策略中提取知识,并基于强化学习进行微调。
图 2. 在仿真和真实世界中部署的 AutoMate 策略,每个示例上方显示唯一的装配 ID
借助先进学习算法和自动化,探索机器人装配领域的边界
在 Factory 和 IndustReal 突破性成果的基础上,研究团队利用自动化资产生成、技能检索与适应、强化学习和模仿学习,以及不同的感官输入,应对更复杂和多样的装配挑战,推动接触密集型操作的边界。下面将重点介绍这一系列创新技术。
MatchMaker:机器人装配的自动化资产生成
图 3. MatchMaker 资产生成流程
MatchMaker(在 ICRA 2025 上展示)是一种全新的生成式流程,可自动生成多样化、兼容仿真的装配资产对,以促进装配技能的学习。它通过生成无贯穿、几何匹配的零件,解决了手动创建管理资产的挑战。MatchMaker 支持三种可能的输入——无输入、单个资产或装配对,并输出具有可调间隙的可用于仿真的资产对。
主要功能:
自动转换:将不兼容的资产对转换为与仿真兼容的模型。
资产对生成:从单个资产创建几何匹配的零件,用于新的装配任务。
真实接触交互:根据用户定义的间隙贴近接触表面,确保零件之间的真实交互。
如图 3 所示,MatchMaker 作为形状补全任务,分三个阶段生成装配对:
接触面检测:基于VLM (GPT-4o) 识别资产类型、装配方向与接触轴;
形状补全:使用3D生成模型生成装配对中的第二个资产;
间隙设定:贴近接触面,避免穿模,并确保与仿真器兼容。
图 4 展示了生成的资产示例。MatchMaker 已在仿真和真实环境中得到验证,证明了其在开发稳健的装配策略方面的有效性。
图 4. MatchMaker 生成的装配对示例
SRSA:机器人装配任务的技能检索与适应
SRSA(ICLR 2025 上的一个亮点)是一个数据高效的机器人学习框架,能从装配任务技能库中重用和调整预训练技能。该框架根据几何形状、动力学、动作和预测成功率,为新任务选择最优现有策略,并针对目标任务进行策略微调。
图 5. SRSA 可检索和微调已有的最佳技能,然后再将其添加到技能库中
与从零开始学习(比如使用 AutoMate 技术进行学习)相比,SRSA 具有更好的性能、效率和稳定性,同时支持持续学习。它在新任务上的成功率提高了 19%,所需样本减少了 2.4 倍,在真实世界测试中达到了 90% 的平均成功率。
TacSL:用于视触觉传感器仿真和学习的库
TacSL (taxel) 是一个基于 GPU 的视触觉加速仿真库(即主流机器人触觉传感器的输出),可实现视触觉传感器及相应接触力场的仿真,速度比现有最先进技术快 200 倍以上。
图 6. TacSL 工具包的组件
触觉感知对人类理解世界至关重要,能帮助我们感知压力、纹理和形状。在机器人中,触觉感知 (tactile sensing) 是指使用特殊的触觉传感器检测与物体的接触,这一能力在抓取物体、零件装配或调整抓握力等任务中尤为重要。尽管触觉感知非常重要,但受限于数据分析难度大、真实触觉仿真存在挑战,以及训练机器人基于触觉数据执行动作的复杂性较高,与视觉感知相比,触觉感知在机器人中尚未广泛应用。
TacSL 通过针对视触觉传感器的快速 GPU 加速触觉仿真模块和学习算法,解决了这些长期存在的挑战。它使机器人能够在仿真中借助真实的触觉反馈,学习接触密集型任务,比如插入销钉。TacSL 支持大规模训练以及仿真到现实的成功迁移(成功率 83% 至 91%),使基于触觉的学习更具实用性和可扩展性。
FORGE:
在不确定性下实现稳健的
接触密集型操作的力引导探索
图 7. FORGE 训练流程和多级行星齿轮箱装配示例
FORGE 引入了一种方法,使以力测量值为输入的强化学习策略能够实现零样本仿真到现实的迁移。这种方法在零件位姿存在显著不确定性或任务需要高精度和准确性时非常重要。
主要功能:
力观测输入:自适应调节操作期间施加的力度。
力阈值机制:限制最大力度以保护精密零件。
动态随机化方案:在训练期间对机器人动力学和零件属性进行随机化处理,以实现稳健的真实世界泛化能力。
成功预测器:实现自主完成任务,而不依赖固定持续时间的执行。
凭借这些功能,即使在位置估计误差高达 5 毫米的情况下,FORGE 仍能够支持安全探索和成功执行。图 8 展示了这一能力在多级行星齿轮系统装配中的应用。该任务需要三项装配技能:插入销钉、齿轮啮合和螺母螺栓拧入。
图 8. FORGE 在三项不同装配技能中的应用:插入销钉、齿轮啮合和螺母螺栓拧入
FORGE 能够处理如卡扣插入等需要施加力的任务,并在所需力未知时,使用成功预测自动调整力度限制。这展示了其具备高精度处理复杂任务并适应真实世界不确定性的能力。
总结
机器人装配非常复杂,需要精确的接触和真实世界的适应性。本文重点介绍了在仿真到现实的迁移、触觉和力传感以及自动化资产生成方面的研究进展,为更灵活、适应性更强的自动化打下基础。
这篇文章是“NVIDIA 机器人研究与开发摘要 (R²D²)”的一部分,旨在让开发者更深入地了解 NVIDIA 研究中心在物理 AI 和机器人应用方面的最新突破。
了解 NVIDIA 研究中心的更多信息:
https://www.nvidia.cn/research/
立即注册 NVIDIA 机器人基础课程,即刻开始您的机器人技术之旅: