VLA 应该是自动驾驶以及机器人产业前沿最热的 AI人工智能词语。我们之前文章《2025年,自动驾驶即将开“卷”的端到端大模型 2.0 - VLA (Vision Language Action)》也分享和预言过它是自动驾驶大模型2.0。
那其实到今天,理想 VLA应该要上车了,小鹏也发布下一代图灵芯片的车型要上 VLA,基本上所有用英伟达 Thor 超过500Tops的大算力芯片都会切换到 VLA这个算法概念上。
- 为什么 VLA呢?
- VLA 怎么样的结构?
- VLA 怎么起源的?
- VLA 还在哪里广泛研究和应用?
- VLA 在当前国内外自动驾驶的应用情况?
本文通过自己的行业认知,结合各个 VLA Paper 来做一个科普,希望给大家带来一些信息和启发。
1.为什么 VLA呢?
VLA 除了大算力需求这个缺点,其他都是优点。
通过预训练提高数据效率:
VLA 模型可以使用视觉-语言对(例如,图像和字幕或教学视频)在大规模互联网或模拟数据集上进行预训练,从而减少对特定任务数据的依赖。例如自动驾驶可能不要再讲你有1000万clips数据,这些数据可能都是重复和无效的。VLA 这种预训练有助于引导其功能,使其能够以极少的微调很好地推广到下游任务中。
更好的人类指令交互:
可以听懂人类的语言,看懂人类的环境,VLA 模型可以解释和执行人类的指令,例如“前面红绿灯路口左转”或“开进前面的停车场”,这是从手动编码的动作策略或符号规划管道进行的范式转变。
端到端大模型统一训练:
VLA 模型本质上也是一种端到端算法,它将感知、任务理解和控制合成一个整体模块,对场景、目标和行动方式进行联合推理。这种整体方法提高了鲁棒性并简化了系统设计。
跨领域和跨平台泛化:
视觉和语言的共享嵌入空间使单个模型能够跨任务、对象和机器人实例迁移知识。这也就是当前不少新势力车企既能造车也能造机器人,采用VLA算法架构和设施都可以泛化。
简而言之,VLA 模型为构建能够在多样化和动态的现实环境中理解和执行任务的通用机器人包括自动驾驶奠定了良好的基础,使其成为下一代具身人工智能。
2.VLA 怎么样的结构?
当前自动驾驶也好,机器人也罢,他们执行的任务都需要融合视觉和语言信号,以理解空间关系、预测驾驶/行动意图并生成情境感知的驾驶或者行为。
一般 VLA需要包含以下三个结构:
- 视觉编码器(例如 CNN、ViT、CLIP),对场景中的物体(例如道路、车辆、行人)进行分割和分类,将像素转换为概念Token化。
- 语言模型(例如Deepseek、LLaMA-2、阿里巴巴的 Qwen类别LLM、Transformer),将指令编码为高维嵌入,推理给出高阶的意图
- 策略模块或规划器(Policy modules or Planners),使车辆能够推理高级目标并将其转化为低阶精细化的运动。
这些模型通常采用多模态融合技术(例如交叉注意、级联嵌入或标记统一),以将视觉类信息与文本指令对齐。
与传统的视觉运动流程不同,VLA 支持语义基础,从而实现情境感知推理、可供性检测和时间规划。
典型的 VLA 模型通过摄像头或激光雷达等传感器数据观察环境,可以解读用语言表达的目标(例如“前方右转”),并输出高阶(例如左转)或者低阶的精细化运动序列(例如方向2度,前进2m等)。
3. VLA 怎么起源的?
VLA 模型的概念形成于 2021-2022 年左右,由 Google DeepMind 的 Robotic Transformer 2 (RT-2) 等项目开创。
提出了一种变革性架构,将感知、推理和控制统一在一个框架内。
VLA 集成了视觉输入、语言理解和运动控制功能,使具身智能体能够感知周围环境、理解复杂指令并动态执行适当的动作。
VLA 一词最早出现在 Google RT-2论文中,该论文使用 PaLI-X 和 PaLM-E 作为将“像素转化为动作”的主干。
随着Google RT-2论文的爆火和引用,VLA也被广泛传播。
4. VLA 还在哪里广泛研究和应用?
VLA应该是在机器人行业发展更迅速,毕竟当前机器人产业创业和实验成本都低于汽车。
所以,我们从机器人产业的相关研究来看看 VLA应用的发展。
截至 2025 年本文发布时间,业内认为,比较先进的视觉语言动作模型 (VLA)采用的是双层专家系统,结合 VLM 和Diffusion扩散解码器。
这两个专家系统共同模仿了丹尼尔·卡尼曼的双重过程理论,将高级规划与低级快速执行相结合。
- 专家系统 2(“慢思考”):视觉语言模型( VLM ) 将视觉和文本作为上下文,对其所见的复杂场景和中间任务做出方法论决策。由于其对机器人世界的出色理解,这可以指导机器人的整体行为。它充当高级规划器,通过对多模态输入进行推理,深入到多个中间子任务并生成轨迹,从而实现其主要目标。
- 专家系统 1(“快速思考”):Transformer 解码器或Diffusion扩散模型充当低级控制和灵巧运动的动作专家。扩散模型具有丰富的图像先验知识,该系统利用其卓越的语义场景关系,翻译并执行系统 1 的引导路径或指令,从而执行敏捷且精细的运动动作。
例如Nvidia Groot N1和FigureAI 的 Helix,采用此类策略
Nvidia 发布的 GR00T N1 是通用人形推理和控制的开放基础模型。
N1 是一个 2B 参数模型(eagle2_hg_model主干),基于 Omniverse 和 Cosmos 的海量合成数据以及人形机器人数据集的真实捕获数据进行训练,该预训练策略可以无缝适配跨实体系统。
在 GR00T N1中环境感知、语言指令和机器人状态被编码为标记,并传递给系统 2 和系统 1,以预测可以直接控制机器人的动作标记。
规划器将长期目标(例如“清理桌子”)解析为原子子任务,而低级控制器则确保实时执行。
- 系统 2: VLM 通过推理来规划正确的行动,用视觉和语言指令解释物理世界。
- 系统 1:Diffusion Transformer 扩散变压器,遵循系统 2 的指令,通过去噪以 120Hz 产生有意义的平滑和精确的运动动作,延迟为 10 毫秒。
Figure AI 的 Helix 类似,该系统由两个主要部分组成即,
- S2 是 VLM 主干,是一种较慢的思维模型,可以处理场景的视觉线索和语义目标,S2 基于一个拥有 7B 参数的开源、开放权重 VLM 构建。
- S1 是一种以 200Hz 运行的快速模型,能够快速适应伙伴机器人的实时动作,S1 是一个 80M 参数的交叉注意力编码器-解码器 Transformer,负责处理低级控制。它依赖于一个全卷积、多尺度视觉主干网络进行视觉处理,该主干网络由完全在模拟环境中完成的预训练初始化。
虽然 S1 接收与 S2 相同的图像和状态输入,但 S1以更高的频率处理它们,以实现响应更快的闭环控制。
来自 S2 的潜在向量被投影到 S1 的标记空间中,并沿着序列维度与 S1 视觉主干网络中的视觉特征连接起来,从而提供任务调节。
Helix 的训练方式是,它映射视觉场景和文本命令的原始像素,以产生具有标准回归损失的连续动作。
此外,比较早期和学术的 VLA模型有:
OpenVLA
它由四个主要部分组成:
- 视觉编码器:采用双视觉编码器方法,结合 DINOv2(约 3 亿参数)和 SigLIP(约 4 亿参数),接收图像并创建嵌入的扁平化块。DINOv2 擅长处理空间关系,而 SigLIP 则提供强大的语言对齐特性。
- 投影:使用 MLP 投影将视觉嵌入映射到 LLM 的共享嵌入空间中。
- LLM:Llama2 7B 模型接收语言指令并进行标记化。视觉嵌入和文本标记一起作为序列传递给 LLM,以生成诸如位置、旋转和夹持器状态变化等动作,这些动作可直接用作连续信号来控制机器人的末端执行器。
- 动作解码:动作解码给执行器执行。
谷歌的 Robotic Transformer (RT-2)
它由预训练的 PaLI-X (55B) 作为视觉模型,以及 PaLM-E (12B) 作为主干模型,并与视觉数据和加权后的机器人动作数据共同训练。
它接收机器人的摄像头输入(图像)和 NLP 查询,并输出离散的动作 token。这些 token 随后被去 token 化,生成基于代码的指令,这些指令可以控制机器人
Physical Intelligence的 π
π 推出的用于通用机器人控制的基础视觉-语言-动作流 VLA模型,此 VLA 模型在图像和文本标记的末尾附加了额外的动作和状态标记,类似于把Detoken也组合进来了,它包含:
- 一个约 30 亿预训练的 Paligemma VLM 模型作为基础骨干,
- 一个 3 亿的扩散模型作为基于 π 跨实体机器人数据集训练的动作专家。
伯克利的SuSIE
SuSIE(SUbgoal Synthesis via Image Editing (SuSIE))更是一绝了,他采用的方法是通过将图片“编辑”成一个有意义的子目标,然后使用低级目标达成策略来实现该子目标来执行该命令。
- 首先利用一个简单的图像生成模型,根据给定目标来生成未来状态图片。
- 然后执行机构依靠低级策略来确定精确的运动驱动,完成机器动作。
显然在机器人的产业和学术界 VLA做了很多的探索,那么当前汽车界使用的呢?
5.VLA 在当前自动驾驶的应用情况?
最早在汽车智能驾驶上应用 VLA的应该是英国自动驾驶创业公司Wayve,他在 2023 年 9 月推出的 LINGO-1算法就在自动驾驶上应用了 VLM,他可以生成连续的评论,解释驾驶行为背后的原因。
这可以帮助用户用自然语言理解自动驾驶模型正在关注什么以及它正在做什么。
到了2024年3月份,Wayve就发布了其 VLA模型 LINGO-2。
目前 Wayve已经和 Uber合作在美国和英国部署L4 robotaxi。日产将在2027年基于Wayve的技术推出下一代ProPilot智能辅助驾驶。
另外一家推出过类似 VLA概念的就是Google自动驾驶公司Waymo。
Waymo的EMMA,是Waymo在2024年10月发布的一个探索项目论文,应该没有批量应用。
在中国这边跟特别紧的就是理想汽车了,走了类似于Wayve的路。
理想汽车在2024年2月份左右推出VLM论文,紧接着大概7月份宣发上车。
到了年底开始推出VLA相关论文,然后将会在2025年7月基于英伟达Thor以及双Orin平台上市 VLA新的智能辅助驾驶。
具体了解理想的VLA可以查看之前文章《理想智驾的VLA模型及其结构》.
小鹏在最近发布的G7已经明确表示采用 VLA,但具体实现形式不清楚,不过通过其发布的720亿(72B)云端算法架构图,显然这是一个 云端VLA的架构,未来估计可以蒸馏成一个车端 VLA模型放到车端芯片上。
根据小鹏6月12 G7发布会上宣布的信息,小鹏智能驾驶采用三块图灵芯片共计2200Tops的算力,支持车端 VLA+VLM 的架构。
其实可以瞄一眼上图理想的VLA架构,两家应该趋同了,不同点是理想的 VLM是放在云端,小鹏凭借大算力芯片将 VLM放在了车端。
华为在年初发布的ADS 4.0采用的WEWA,总体上是宣布华为到了端到端,WE 世界引擎也就是世界模型的一个应用,用于生成虚拟验证的场景。WA应该是一个端到端的范式,华为目前应该缺少跑VLA的芯片。
6.写在最后
VLA采用视觉信息,语言信息结合,基本上就是类人的仿生,人类也就是采用这类方式与物理世界交互。
所以 VLA就是解决 Physical AI而生,自动驾驶以及机器人都是Physical AI最大的落地应用,自动驾驶以及机器人产业,他们的人工智能算法逻辑,储能以及运动电机等核心零部件类似,所以,做智能汽车的基本上也会做人形机器人了。
那么是不是 VLA需要自研呢?
其实至少里面的 LLM大语言模型肯定不需要自研的,毕竟一个LLM是一个人工智能的基础范畴,不需要也没必要重新发明轮子。
目前已知国外自动驾驶或者机器人基本用Open AI、Meta、Google的LLM; 国内汽车界理想和小鹏应该通用采用Deepseek或者阿里的Qwen。
最终大家都是利用人工智能模型组合好自己的 VLA,进行落地应用。
不过最后,提醒,先进的技术_≠ 好的产品体验。_
参考文章以及图片
- SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment - wayve
- ZERO-SHOT ROBOTIC MANIPULATION WITH PRETRAINED IMAGE-EDITING DIFFUSION MODELS - University of California, Berkeley 2Stanford University 3Google DeepMind
- π0:用于通用机器人控制的视觉-语言-动作流模型 - Physical Intelligence
- ORION:基于视觉语言指导动作生成的整体端到端自动驾驶框架 - Huazhong University of Science and Technology, 2 Xiaomi EV
- HybridVLA: 统一视觉-语言-动作模型中的协同扩散和自回归.pdf - 1State Key Laboratory of Multimedia Information Processing, School of Computer Science, Peking University; 2Beijing Academy of Artificial Intelligence (BAAI); 3CUHK
- 视觉-语言-行动模型:概念、进展、应用与挑战.pdf - aCornell University, Biological & Environmental Engineering, Ithaca, New York, USA bThe Hong Kong University of Science and Technology, Department of Computer Science and Engineering, Hong Kong cUniversity of the Peloponnese, Department of Informatics and Telecommunications, Greece
- 全球自动驾驶模型综述 - Tuo Feng, Wenguan Wang, Senior Member, IEEE, Yang Yi, Senior Member, IEEE
END
作者:Pirate Jack
文章来源:Vehicle
微信公众号:
相关文章推荐
- 自动驾驶新风口:DeepSeek-R1 的“车端革命”
- 2025 中国车市预测:高阶智驾普及,L3 自动驾驶量产落地元年
- 一文深度看懂视觉语言模型 (VLM)
- 2025年,自动驾驶即将开“卷”的端到端大模型 2.0 - VLA
更多汽车行业干货请关注Vehicle专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。