具身智能和人形机器人产业生态研究系列（一）

2024年一季度，人形机器人厂商纷纷推动自家人形机器人“进厂打工”，早有特斯拉明确Optimus目标为代替人劳动，预计24年将用于特斯拉工厂，前有Figure 01进入宝马的斯巴坦堡汽车从事“高危工作”，现有优必选的工业版人形机器人Walker S在合肥蔚来工厂“实训”。

在这个产业化重要节点的背后，是AI和机器人的融合发展当前来到了临界点，机器人不再仅仅是AI的一种应用，人形机器人成为未来具身智能通往AGI的重要载体。随着各大人形机器人制造商陆续公布量产计划，这个未来正逐渐变得清晰。

在此背景下，「甲子光年智库」推出具身智能和人形机器人产业生态研究系列短报告。希望共同探讨以下几个话题：

1.具身智能和人形机器人融合发展的产业生态是一个什么样的架构？

2.本体层面，人形机器人关键零部件技术进步和方案创新升级，如何推动更高自由度的实现？

3.智能体层面的技术进展和挑战有哪些？大模型为代表的技术创新突破如何改变了智能体？

4.如何看待软硬解耦与软硬一体的争议？

......

在AI与机器人技术的融合进程中，我们正见证着一个高级阶段的到来，即具身智能的诞生。这一概念指将AI的高级认知功能与机器人的物理形态相结合，创造出能够在现实世界中自主行动和学习的智能体。具身智能的出现标志着我们向AGI迈进的关键一步，它不仅是技术发展的必然趋势，也是实现真正智能机器人的必经之路。

在机器人技术的发展轨迹中，我们通常采用从L0到L5的等级划分来衡量机器人的自主性和智能化程度。这一划分体现了机器人从完全依赖人类操作到完全自主执行复杂任务的演进过程。

L0级别也称为无自动化，其操作完全依赖于人类智能，没有自主决策的能力。

L1级别的机器人开始具备有限的自动化功能，如自动执行预设的简单任务，但仍然需要人类的操作。

L2级别的机器人则进一步发展，通过算法驱动能够在特定条件下自主执行任务，但一旦遇到未知情况或任务失败，仍需人类介入。

L3级别的机器人则能够在更广泛的操作环境中实现自主性，它们可以在没有人类直接控制的情况下完成人类设计的任务，但仍需人类在系统出现问题时进行干预。

L4级别时，机器人已经能够在大多数情况下自主完成任务，即使在复杂和动态的环境中也能保持稳定的表现，人类在大多数时候可以作为一个观察者的角色。

L5级别的机器人代表着未来的具体智能人形机器人，能够在任何环境和任务中无需人类干预自主操作。这是机器人自主性和智能化程度的最高等级，也是人工智能领域追求的终极目标。

L0级别也称为无自动化，其操作完全依赖于人类智能，没有自主决策的能力。

L1级别的机器人开始具备有限的自动化功能，如自动执行预设的简单任务，但仍然需要人类的操作。

L2级别的机器人则进一步发展，通过算法驱动能够在特定条件下自主执行任务，但一旦遇到未知情况或任务失败，仍需人类介入。

人形机器人，作为机器人技术发展的高级形态，旨在模拟人类的外形结构和行为能力，实现从特定任务专用向多功能通用的转变。这一转变的核心在于两个关键要素：本体的自由度和智能体的复杂性。

本体自由度是指机器人身体各部分能够独立运动的能力。根据汉纳范人体力学模型，人拥有 76 个自由度，工业机器人的自由度一般为 4-6，人形机器人的自由未来可以达到工业机器人的十倍以上，在模拟人类动作如行走、跑步、跳跃、抓取物体等方面也就不成问题。这种高自由度决定了人形机器人具备应用场景的通用性和人类社会的适应性，成为最佳的通用机器人形态。未来如何使机器人的机械结构更加灵活，以支持更复杂的动作和任务执行，还需要对关节、传感器、执行器等关键零部件的创新，以及对机器人运动学和动力学的持续发展。

智能体的复杂性涉及到机器人的感知、理解、决策和控制能力。智能体能够理解和响应环境，执行复杂的任务，并在与人类的交互中表现出适应性和灵活性。这要求人形机器人具备高级的感知系统，如视觉、听觉和触觉，以及强大的数据处理和分析能力。此外，智能体还需要集成先进的人工智能算法，如机器学习、自然语言处理和情感计算，以实现自主学习和决策，以及与人类用户的有效沟通。

「甲子光年智库」梳理了具身智能与人形机器人产业形成的生态体系，本体分为人形机器人零部件及系统、本体制造、系统集成和应用的产业链，智能体的要素包含交互，算法和数据。本体自由度和智能体的复杂性是相辅相成的。高自由度为智能体提供了丰富的物理交互能力，而智能体的进步又能够更好地控制和优化本体的运动，二者相互耦合，形成了一个生态。

这一生态强调智能体必须具备与环境互动的能力，这种互动不仅仅是通过传感器和执行器进行的简单反馈，而是涉及到复杂的感知、理解、决策和行动，需要有交互，算法和数据三个核心要素来支撑。

交互：是智能体与外部世界沟通的界面，它负责处理智能体的感知输入和执行输出。这一层的关键技术包括UI/UX设计，NLP、计算机视觉、情感计算和通信。

算法：是智能体的“大脑”，负责处理数据、做出决策和规划行动。这一层的关键技术是机器学习，尤其是多模态大模技术的突破性进展显著加速了人形机器人产业的发展。在运动控制领域，通过在仿真环境中应用大模型进行“See to Learn”训练，人形机器人在行走和执行复杂动作方面取得了显著进步。在认知层面，可以看到谷歌的RT-2（VLA模型）进一步提升了人形机器人的智能水平，使得机器人能够自主进行判断和识别，执行复杂的多阶段语义推理任务。例如，机器人能够决定在特定情境下哪种物体可以作为临时工具，或者选择最适合的饮料。这种能力不仅提高了机器人的泛化能力，也快速推动了人形机器人通往量产的进程。

数据：是智能体的知识库，负责存储、管理和处理所有收集到的数据。这一层的关键技术包括数据采集、数据存储、数据隐私与安全、数据处理分析和数据通信。

这三个要素相互协作，共同构成了具身智能和人形机器人智能体的核心。随着技术的进步，这些层次将不断优化，使得智能体能够更加智能、灵活地在各种环境中执行任务。

推荐阅读

目录