MiniMax AI 开源首个感知+推理的强化学习框架 V-Triune: 统一视觉-语言任务

导读

随着 DeepSeek-R1 的火爆出圈，LLMs 和 VLMs 俨然已从 pretrain 转变为 test-time scaling 范式，从而促使 CoT Reasoning 愈演愈烈。今天让我们继续聚焦 Reasoning in VLMs 方面相关的工作。

在这篇文章中《One RL to see Them All》[1]，来自 MiniMax AI 等机构的研究者们提出的 V-Triune 框架和 Orsta 模型，试图用一套统一的强化学习（RL）流程，让视觉语言模型（VLMs）同时学会“看明白”（视觉感知）和“想清楚”（视觉推理）。

为什么“一统江湖”这么难？视觉感知与推理的“次元壁”

在多模态大模型的领域里，我们都希望模型既能像人类一样理解图像中的物体位置、数量（感知能力），又能进行复杂的逻辑思考，比如看图解数学题、分析图表（推理能力）。但这两者在技术实现上，往往有些“水火不容”。这是因为：

推理任务 (如数学题解答、科学问答)：这类任务的答案往往是文本，评估方式也相对直接（比如答案对不对）。研究者们发现，用 RL 结合 CoT 来“教会”模型如何一步步思考，效果拔群。
感知任务 (如目标检测、视觉定位)：这类任务需要模型输出物体的位置框等空间信息，评估指标是 IoU (交并比) 这类几何指标。奖励信号的设计、训练的稳定性都是大挑战。

近期视觉强化学习在多模态推理和感知方面取得重要进展，主要探索如何增强多模态推理和感知能力的不同策略，总结如下：

这里：

Vision-R1[2]、LMM-R1[3]、R1-OneVision[4] 等模型侧重于通过 Instruction tuning 或 RL 来提升性能；
Visual-RFT[5]、R1-V[6]、Reason-RFT[7] 等则偏向于针对特定任务来设计可验证的奖励信号，以此来改进诸如检测、计数之类的感知任务；
Seg-Zero[8]、Perception-R1[9] 等进一步提出了针对分割和 OCR 任务的定制化奖励函数；

为了实现更广泛的跨任务泛化能力，OThink-MR1 有机地结合 GRPO 和动态 KL 正则化；VL-Rethinker 则引入选择性采样重放和强制重新思考机制来增强模型的推理能力；此外，作为更为通用的两大代表性工作，Seed1.5-VL[10] 和 Kimi k1.5[11] 同样展示出了不容小觑的实力。

综上，不难看出，以往很多工作，要么侧重推理，要么专攻感知，想用一套方法把两者都做好，并且还能相互促进，确实不容易。

正如笔者早前的文章中所指出的，当我们给检测任务设计奖励时，一个宽松的 IoU 阈值可能早期学得快，但后期模型就“躺平”了，精度上不去；太严格又可能导致模型初期啥也学不会，“冷启动”困难。

本文提出的 V-Triune 系统的独特之处在于将推理和感知统一在单一强化学习系统下，与以往孤立处理推理和感知的方法形成鲜明对比。

强化学习的核心：算法+奖励函数

当前，强化学习为大语言模型训练引入了两个关键要素：系统化的学习算法和可量化的奖励机制，这种组合为模型优化提供了明确的方向和反馈。

强化学习算法

本文遵循标准做法，也是基于 GRPO[12] 算法做了一些改进。具体地，参考 Open-reasoner-zero[13] 和字节的 DAPO[14] 工作，移除了参考模型及其相关的 KL 损失计算部分，有效限制 RL 过度探索并防止不稳定的 KL 散度估计，同时降低了 GPU 内存占用并加快了训练速度。

其次，作者应用了 clip-high 技巧并使用了 token 级损失，增加输出熵，从而促进更优的探索路径并提高训练的稳定性：

奖励函数

奖励函数的设计包含两部分：视觉推理和视觉感知。需要注意的是，为了避免出现如 Lil' Blog[15] 中提出的 Reward hacking 影响，作者对所有任务均采用了 Rule-based 类型的奖励函数。

其中，对于视觉推理任务，采用了如下基于准确率的二元奖励函数，将模型输出与 GT (Ground-Truth) 通过 math_verify[16] 库进行验证：

对于视觉感知部分，鉴于不同任务之间 GT 的格式差异很大，例如 Counting 和 OCR 任务一般是数字、单词或者开放短语，这类型任务可直接封装到 \boxed{} 格式中，并沿用上述的准确率公式。

相较之下，grounding 和 detection 这类任务通常由于会涉及多个目标框和类别，因此本文采用了经典的 COCO 风格的 JSON 格式封装。

然而，经过初步的实验得知，模型其实难以学会将这种 JSON 格式封装在限定词 \boxed{} 内，但却很轻松将其包含在 <answer></answer> 标签内部。

于是，针对这两个任务，本文参考了 Open-R1[17] 仓库的设置来设定格式化奖励函数：

简单理解就是以上 4 个标签，每个 0.25 分，全对就得 1 分，全错就 0 分。

另一方面，对于准确率奖励函数，通常采用具有固定阈值 IoU[18] 下的 mAP[19] 指标：

这里阈值 𝜖 控制奖励函数的严格性，值越高，要求框匹配越严格。

本文采用了一种动态阈值策略，具体的后面讲解。其中，mAP 使用如下插值公式计算：

最后，总的奖励函数如下：

V-Triune 登场：三位一体的“调教”大师

Figure 2 | V-Triune System.

本文的核心贡献就是提出了 V-Triune ，一个视觉三重统一强化学习框架。其主要目标是使用单一的统一训练流程，联合训练 VLMs 完成视觉推理和感知任务。

该系统基于三个核心且相互关联的部分构建，旨在协同处理这些不同的任务。

样本级数据格式化

首先，让我们简单看下数据部分应该如何对齐。

要知道，不同的任务，其依赖的奖励、组件和加权策略等可能都不相同。以往大多数训练框架其实都是通过外置 plugins 即以插件化的模式，允许用户自主为不同的任务自定义奖励函数和组件等。

V-Triune 的处理方式也很干脆，直接在样本层面定义好相关的奖励配置，例如每个样本指定要计算的奖励类型、它们的相对权重以及要使用的相关验证器。

这允许在训练期间进行动态奖励路由和细粒度加权，而无需修改核心训练逻辑。

此外，用户还可以通过简单调整元数据来支持课程学习或数据消融策略，从而使系统更具可扩展性和可维护性。

Figure 3 | Sample-level Data Scheme for Unified Training.

如上所示，强化学习训练器通过客户端-服务器代理与远程服务器交互，其中专门的验证器（例如 MathVerify、Detection）使用特定于任务的逻辑和动态阈值（例如动态 IoU 阈值）计算奖励。

这好比给每个“学员”（数据样本）发了一张“定制学习卡”。每个样本都明确定义了自己需要什么样的奖励、用哪个“考官”（验证器）来打分、各个奖励的权重是多少等。这样一来，无论是数学题还是检测框，都能在同一个流程里得到个性化的训练指导。

验证器级奖励计算

Figure 4 | Architecture of the Asynchronous Reward Server.

与使用固定奖励函数的方法不同，本文实现了一个独立的异步奖励服务器来生成强化学习信号。将奖励计算与主训练循环分离。

简单理解就是，V-Triune 设置了“专业裁判团”。不同的任务类型（比如数学验证、目标检测验证）由不同的“裁判”（Verifier）负责。这些裁判独立工作在一个异步的奖励服务器上（基于 FastAPI 构建服务）。

这样做的好处是，主训练流程不用操心复杂的奖励计算逻辑，也方便未来扩展新的任务类型和奖励机制。

源级别指标监控

在多任务、多数据源的训练中，一个关键问题是怎么知道哪个环节出了问题，或者模型在哪些数据上学得好与不好。

V-Triune 对每个数据来源都进行了细致的指标监控，比如各个任务的奖励值、响应长度、甚至模型生成答案时的“反思”词汇比例（比如是否包含"re-check", "re-think" 及 "verify"等词）。

这就像给RL 训练装上了“实时仪表盘”，能及时发现问题，保证训练的稳定。

针对老大难的感知任务（特别是目标检测和视觉定位），V-Triune 还引入了一个额外的机制——动态 IoU 奖励。

Figure 5 | COCO Test Set Performance with Various Reward Designs.

前面提到，固定的 IoU 阈值要么太松要么太严。动态 IoU 奖励的步骤如下：

训练初期（比如前10%的steps）：用一个相对宽松的 IoU 阈值（比如0.85），让模型先建立基本的定位感觉，拿到一些正反馈。
训练中期（比如10%-25%的steps）：提高阈值（比如到0.95），要求更精确。
训练后期：使用非常严格的阈值（比如0.99），促使模型达到高精度。

Figure 6 | Training accuracy rewards under Dynamic IoU versus a fixed Rule-based IoU (IoU@99).

如图所示，这种动态调整的策略，相比固定的严格IoU（IoU@99），能让模型在训练过程中的准确率奖励更平滑地上升，避免了“冷启动”学不到东西的尴尬。

【话说这里 0.85 的启动阈值会不会高了点？】

训练工程策略

基于 V-Triune 框架，MiniMax AI 团队基于 Qwen2.5-VL 训练了一个新的模型——Orsta。

经常训练模型的同学可能清楚，多任务联合训练通常会导致一系列问题，例如：

评估性能下降
梯度范数突然飙升
熵波动较大
响应长度突然增加

那么，Orsta 为什么能在 MEGA-Bench Core 这类综合性基准测试上取得好成绩呢？

其中最核心的当然是 V-Triune 框架本身。通过将感知和推理任务置于一个统一的 RL 流程中，模型有机会学习到更泛化的能力。感知能力的提升可能反过来帮助理解复杂的场景，从而促进推理；而推理能力的训练，也可能让模型在感知时更有“章法”。

此外，还得益于以下几点原因：

😀稳定训练是关键

Figure 7 | Analysis of ViT Training Instability.

作者们在早期实验中发现，如果同时训练 ViT 和 LLM，ViT 部分的梯度很容易爆炸，导致训练极其不稳定，感知性能反而下降（如上图所示）。

于是，他们做了一个关键决策：在RL微调阶段，冻结 ViT 的参数，只更新 LLM 部分。这大大稳定了训练过程，使得 LLM 可以更好地与固定的视觉特征对齐。

针对这个现象，文中也给出了两点见解：

首先，RL 不仅激活了 VLMs 的功能，还通过将响应基于视觉内容来强制模态对齐。当 ViT 和 LLM 联合训练时，视觉表征（即对齐目标）会不断变化，导致类似于机器学习中概念漂移问题的不稳定性。这种动态目标会破坏稳定的优化，并可能导致模型崩溃。类似于 GAN[20] 的交替训练（冻结一个组件，同时更新另一个组件）可以提供解决方案。

其次，ViT 的对比预训练可能会限制其在 RL 中的适用性，因为它鼓励静态的实例级特征，而不是 RL 任务所需的动态因果表示。为了缓解这种不匹配，可以在 RL 期间引入辅助自监督目标，以帮助 ViT 适应不断变化的任务需求。

【不过这里还是要具体问题具体分析，笔者此前做过其它实验，对于 SFT 来说，全量微调比冻结 ViT 单独微调其它参数效果要好得多🤔，所以有条件的还是自己多做些对比实验总没错】

📌缓解虚假图像特殊标记

Figure 8 | An Example of Spurious Image Tokens.

为了实现准确的优势评估，查询和生成响应的逻辑向量都会重新计算，因为推理引擎返回的逻辑向量可能不够精确。在正向传递过程中，图像占位符（图 8 中红色框中突出显示，位于“vision_end”标记之前）会被 ViT 和 Adapter 模块提取的视觉特征所取代。

然而，模型可能会错误地生成缺少相应特征的特殊标记（图 8 中蓝色框中突出显示），例如图像或视频占位符，尤其是在 RL-zero 设置下。

为了确保输入特征对齐并保持训练稳定性，这里会应用一个过滤步骤，在重新计算之前将所有此类特殊标记从 rollout 序列中移除。

🔍构建推理提示语池

在视觉数学任务（比如图文数学问答）中，我们经常用 CoT 推理方式来提升模型表现，比如加一句话 “Let's think step by step”。但即使这句话的“意思”一样，不同的表达形式也会影响模型的输出准确率、长度等指标。

作者们尝试构建了一个“CoT提示语池”，具体包括：

10 个 “Let's think step by step” 的不同变体；
10 个 “Place the answer in \boxed{}” 的不同变体。

在训练时，从每组中各随机挑一句加到输入提示里。这就像给模型“随机出题”，训练它适应各种可能的表达方式。

如此依赖，便可以有效降低 prompt 多样性带来的“噪声”（prompt variance），同时避免模型只在一种固定表达下表现好。需要注意的是，该机制仅用于 MathVerifyVerifier 验证的数学类样本。

这其实就是在训练中引入Prompt 多样性增强的一种方法，提升模型对不同指令风格的鲁棒性。

🧠 系统内存管理

V-Triune 用于训练 VLMs 时，模型本身大（7B、32B），训练数据也多，尤其是图像数据，很容易吃满训练节点的内存，特别是主控节点。训练过程中还需要定期评估模型的表现（例如在 MEGA-Bench 上评估），如果不做优化，会导致系统内存爆炸，甚至 OOM。

解决方案就是引入定期测试机制来评估表现，即不直接在主训练流程中做评估，而是把评估流程拆分出去，单独用批处理来跑；同时，绕过默认的 vLLM 数据加载机制，进一步降低内存开销。

如此一次，通过“评估与训练分离”的工程手段，可以有效解决大模型训练过程中的内存瓶颈问题，确保训练流程稳定可靠。

跳转原文查看滑动长图
https://mp.weixin.qq.com/s/r4Ni4MDBjf5vr3oYln3ZQw?version=4.1.33.70494&platform=mac
简单总结下，这些工程策略虽然看起来“细节”，但对于训练稳定性和最终效果提升至关重要。它们共同构成了 V-Triune 能够成功运行在真实大模型上的底层保障机制。

实现细节

本文在在 64 张 NVIDIA H20 GPU 上，基于 Qwen2.5-VL[21] 系列大模型，使用 verl[22] 框架和 vLLM[23] 推理引擎共同完成了 V-Triune 的 RL 训练与实验验证。

🔢 数据配比

Figure 9 | Data Curation Process.

上图展示了数据整理流程。首先，视觉推理和视觉感知数据会经过基于规则的过滤器，该过滤器会移除不符合预设标准的样本。随后，数据会进入难度过滤器，该过滤器会根据模型性能移除过于简单或过于困难的样本，最终生成满足条件的数据集。

Figure 10 | Example query format for detection and grounding tasks.

具体地，本文选取四项推理任务——数学、谜题、科学和图表——因为它们的推理需求各不相同，并选取四项感知任务——检测、Grounding、计数和光学字符识别——因为它们对视觉理解的覆盖范围更广。每项任务的数据来源如下：

最终，此流程在 18 个数据集和 8 个任务中生成了 47.7K 个高质量样本。为了降低数据集偏差，puzzle data 被复制以确保足够的覆盖范围。最终语料库包含约 20.6K 个感知样本和 27.1K 个推理样本，主要由单图单轮对话组成。

第一阶段：基于规则的过滤策略

这部分描述了 V-Triune系统中第一阶段的基于规则的数据过滤方法。

针对视觉推理任务过滤规则，采用最朴素的通用过滤方式，例如：

移除容易被攻击的多选题和判断题
移除包含特殊符号（"="、"["、"]"、"("、")"、";"）的答案，避免符号不匹配问题
移除超过20个字符的长答案，避免过于复杂

其次，对于视觉感知任务特定过滤主要针对具体任务来设计：

Detection（检测）： 转换为相对坐标格式，单框样本每类别一个框，多框样本保持原始标注；移除每类别超过10个框或框占图像50%以上的样本；最后强制 1:2 的单框到多框比例，避免类别长尾分布。
Grounding（定位）： 同样先处理为相对坐标，并移除框大小超过图像50%的数据，最后再过滤复杂短语标签。
Counting（计数）： 按类别平衡数据，同时只保留英文数据。
OCR（文字识别）： 只保留英文 OCR 数据；此外，由于没有可验证的奖励模型，因此最终标签必须通过 math_verify 验证。

第二阶段：基于难度的过滤策略

这一阶段的目标是移除低价值样本，过滤掉基础模型已能轻松解决的简单问题：

推理任务过滤： 只使用 Qwen2.5-VL-32B-0321 计算 pass@8 指标，同时仅保留 0 ≤ pass@8 < 100% 的样本（即基础模型无法完全解决的问题）
感知任务过滤（检测和定位）： 使用 Qwen2.5-VL-7B 计算 pass@16 指标，并设置 0.5 IoU 阈值，选择累积 IoU 奖励在 2-10 之间的样本。
数据存储和训练： 所有筛选后的数据以 Parquet 格式存储，并在训练时统一混合，不进行在线过滤或课程学习。

这种方法确保训练数据既有适当难度又能提供学习价值，避免在过于简单的问题上浪费计算资源。

🗝️训练细节

本文探索了两种不同的强化学习训练范式：在线策略 (on-policy) 和离线策略 (off-policy)。在这两种设置下，所有实验的 rollout 批次大小均固定为 1024。在线策略的 backward 批次大小设置为 1024，离线策略则设置为 128。所有实验均使用 GRPO 算法，每个提示生成 8 个候选序列。

为了在保持稳定性的同时促进探索，进一步采用了 DAPO 的 clip-high 策略，其裁剪阈值分别为和。这鼓励低概率的 token 采样，同时又不会影响训练的稳定性。最终损失仅通过 token 级平均 PPO-clip 损失计算，并未引入参考模型。

此外，为保证进一步稳定学习，ViT 和连接器模块始终保持冻结状态。学习率分别设置为 1×10⁻⁶ 和5×10⁻⁷，并在保持恒定之前进行 5% 的预热。在部署期间，使用 vLLM 推理，其温度参数为 1.0，top-𝑝 为 1.0，最大序列长度为 2048。

🎯评估基准

现实世界任务评估使用 MEGA-Bench 核心子集的440 个多样化任务和 6000+ 专家样本来测试模型的实际应用能力。

视觉推理能力评估采用 MMMU 和 MathVista 基准，使用 VLMEvalKit 进行标准化评估，同时报告基于规则和 GPT-4o 的评分结果。

视觉感知能力评估涵盖 COCO、OVDEval、CountBench、OCRBench 和 ScreenShot-Pro 等五个基准，全面测试目标检测、开放词汇检测、计数、文字识别和屏幕理解等感知任务。

性能表现

综合指标分析

下表清晰展示了 Orsta 模型相较于其底座模型（Qwen2.5-VL）以及其他一些 VLMs 在 MEGA-Bench Core 上的提升👇

Table 1 | Performance of Orsta on MEGA-Bench core.

其中，Orsta-7B 在 MEGA-Bench Core 上达到38.31分（+3.2），Orsta-32B-0326 达到 45.78分（+2.1）。尤其在数学（+3.8% for 7B, +5.4% for 32B-0326）、感知、规划和科学等领域表现突出，这些正是 V-Triune 重点优化的方向。

一开始读论文时，我注意到这个32B模型居然有两个版本，心里挺困惑的🤨？后面读到这里作者有做解释，大致意思是 QwenVL-2.5-32B-0321 是早期公开发布的一个检查点，虽然存在一些已知问题，比如在感知和输出格式上的不足，但依然被保留和使用。

从这个版本的实验数据我们也可以看出，RL 对数学、感知、科学、规划之类的任务提升显著，能有效提高视觉推理和感知能力。但在像编码这样的外部任务上，提升就不那么明显。这说明 RL 实际上充当的是一种良好的对齐机制，它的作用是优化和增强模型已有的能力，而不是引入全新的功能。

而 QwenVL-2.5-32B-0326 则是基于 0321 版本改进后的升级版，专门修复了上个版本在感知和输出格式上的问题，性能更全面。所以大家可以看到最终的提升远没有 0321 版本大。

下游任务分析

![Table 2 | Benchmarking Orsta Against Baselines on Common Visual Reasoning and Perception
Tasks.](http://read.html5.qq.com/imag...)

Table 2 | Benchmarking Orsta Against Baselines on Common Visual Reasoning and Perception Tasks.

表2则展示了在一些常见的下游任务上的表现，如COCO物体检测、MMMU多学科理解、MathVista数学推理等。

可以看出，Orsta-7B 取得了显著提升（单目标检测 mAP 为 +7.81，mAP@50 为 +12.17；多目标检测 mAP 为 +3.77，mAP@50 为 +5.48）。

Orsta-32B-0321 表现出显著的改进，解决了先前的感知问题，而 Orsta-32B-0326 在两个子集上均实现了 +3% 的 mAP 提升。

特别的，在 OVDEval 上，Orsta-7B 和 32B 分别提升了 +5.3 和 +3.5 的 mAP，验证了动态 IoU 奖励。GUI 和 OCR 任务（ScreenSpotPro、OCRBench）持续呈现 1-2% 的提升。CountBench 的提升最为显著，Orsta-7B 的表现优于 32B 的 SFT 模型，Orsta-32B 也创下了新的最高水平。

训练指标分析

还记得我们上面提到过，V-Triune 框架的一大亮点就是源级别指标监控，这有助于研究人员分析模型在训练过程中的认知行为模式，特别是反思能力的发展情况。

本文主要报告了四种任务类型的三大训练指标：

推理任务：数学(Math)和拼图(Puzzle)
感知任务：目标检测(Detection)和光学字符识别(OCR)

响应长度变化

推理任务的响应长度随训练逐渐增加，拼图任务增长稳定，数学任务波动较大
感知任务初期响应长度上升，之后稳定在约 325 个 token，无明显上升趋势

反思行为发展

• 数学和拼图任务的反思比率明显上升，表明模型越来越多地使用反思步骤
• OCR 任务也显示上升趋势，但变化较大
• 目标检测任务始终保持接近零的低反思比率，几乎不使用反思

准确率表现

拼图任务准确率稳步提升，OCR任务逐渐改善(从0.4提升至0.7-0.8)
数学任务准确率在0.3-0.7间波动，无明显趋势
目标检测任务准确率始终为零，表明未从反思中获益
- *

总的来说，推理任务和 OCR 任务展现出不断增长的反思使用和质量改善，而 OD 任务显然偏离了这一模式，显示出最少的反思行为且没有从延长的推理风格响应中获得明显益处。这表明不同类型的任务对反思训练的响还是存在显著差异的。

消融研究分析

![Figure 14 | Ablation Study on Training Strategies (a), Task Composition (b), and Learning Rates
(c).](http://read.html5.qq.com/imag...)

Figure 14 | Ablation Study on Training Strategies (a), Task Composition (b), and Learning Rates (c).

消融研究部分主要通过三个维度的实验分析了不同训练策略对模型性能的影响。

训练策略消融

仅更新LLM部分：性能从35分提升到38分（120步时），表明推理权重是性能提升的主要驱动力
仅调优视觉骨干网络：收益微乎其微，分数停滞在35.5分左右
联合优化两个分支：初期表现与仅LLM策略相似，但后期略有超越，峰值约38.5分

任务组合消融

推理+感知数据：表现最强，达到约37.5分
仅推理数据：紧随其后（差距0.3分内），训练中期甚至短暂超越，说明该基准更重视逻辑能力而非纯感知
仅感知数据：持续落后0.7-1.0分，但仍显示稳定改善，表明视觉监督提供了可迁移的对齐信号

这说明一致的性能层次（推理+感知 > 推理 > 感知）强调了混合任务语料的价值——结合互补信号产生累加收益，而非稀释优化效果。

学习率消融

对Orsta-32B模型的学习率敏感性分析如下：

1e-6：产生最高且最稳定的平台期（45.5分），为最优选择
1.5e-6：表现相似直到80步后出现轻微退化
2e-6：导致后期崩溃，降至38分
3e-6：50步后发生灾难性发散，跌破36分

可以发现，较大模型更接近损失景观的边缘，需要小而稳定的更新步长。1e-6 在收敛速度和 MEGABench 最终性能之间提供了最佳平衡。

整体来看，消融研究证实了训练策略设计的重要性：LLM权重是核心，混合任务数据产生协同效应，而保守的学习率对大模型稳定性至关重要。

总结

结合全文，笔者认为这篇工作有几个值得关注的点：

首先是RL 仍然是 VLMs 能力对齐的有效手段：这篇论文再次向我们证明，强化学习并非要教会模型全新的知识，而更多的是一种“对齐”策略——让模型更好地理解指令，更准确、鲁棒地输出我们期望的内容和思考过程。

其次是统一框架的潜力：将看似不同的任务（感知与推理）纳入统一框架，并通过精巧设计（如动态奖励、模块化验证）来解决其间的矛盾，是未来多模态大模型发展的一个重要方向。

最后是实践出真知：像本文做的各种 solid 的实验和工程技巧在实际操作中非常有价值，提醒我们在探索复杂模型训练时，也要敢于尝试和验证一些“反直觉”的设定。

当然，文章的最后作者们也坦承了一些局限，比如感知任务的性能扩展性，以及 RL-zero（从头开始用 RL 训练 Base 模型不依赖 SFT）在 VLMs 中的潜力还有待挖掘。

总的来说，本文为我们展示了一条颇具前景的道路：通过一个精心设计的统一强化学习框架，让视觉语言模型能够同时提升感知世界的“眼力”和理解世界的“脑力”。这对于未来构建更强大、更通用的多模态AI助手无疑是重要的一步。

希望这次的解读能帮助大家更好地理解这篇工作。欢迎在评论区一起交流！

引用链接

END

作者：派派星
来源：CVHub

推荐阅读

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

导读