VisionReasoner首提统一框架，检测/分割/计数3类任务超越YOLO-World等专用模型

精简阅读版

本文主要解决了什么问题

现有视觉语言模型（LVLMs）在处理多样化视觉感知任务时依赖任务特定模块和奖励函数，导致可扩展性和泛化能力受限
视觉感知任务（检测、分割、计数）缺乏统一框架，现有方法需分别设计任务专属流程
多目标认知与结构化推理能力不足，难以在共享模型中实现跨任务协同优化

本文的核心创新是什么

提出VisionReasoner统一框架，首次将检测、分割、计数三类任务整合到共享架构中
设计多目标认知学习策略：
• 基于匈牙利算法的高效多目标匹配机制（批量计算+最优分配）
• 从原始Mask标注中自动提取边界框和中心点的多目标数据构建方法
构建复合奖励函数体系：
• 格式奖励（思考过程约束、非重复推理惩罚）
• 准确率奖励（IoU/L1距离联合优化，多目标匹配最大化）
开发结构化推理生成机制，通过可解释的中间过程提升任务泛化性

结果相较于以前的方法有哪些提升

性能突破：
• COCO检测任务相对Qwen2.5VL提升29.1%
• ReasonSeg分割任务提升22.1%
• CountBench计数任务提升15.3%
效率优化：
• 多目标匹配速度提升6×10³⁵倍（对比暴力匹配算法）
• 仅使用7,000训练样本即达到SOTA性能
泛化能力：
• 零样本迁移支持10种视觉任务（覆盖66,023测试样本）
• VQA任务未训练情况下仍超越基线模型

局限性

数据规模瓶颈：训练集仅包含7,000样本，限制了模型对复杂场景的建模能力
定位精度局限：在COCO等检测任务中仍落后于部分专用模型（如GroundingDINO）
推理模式约束：过度采样会导致泛化能力下降，需平衡训练分布
复杂交互限制：对需要深度物理推理或跨模态逻辑推导的任务处理效果待提升

深入阅读版

导读

大型视觉语言模型展现出处理多样化视觉感知任务的内生能力。在本文中介绍了VisionReasoner，一个能够在共享模型内推理和解决多种视觉感知任务的统一框架。具体而言，通过设计新颖的多目标认知学习策略和系统化的任务重构，VisionReasoner增强了其推理能力以分析视觉输入，并在统一框架内处理多样化的感知任务。该模型在生成结构化推理过程后，才会根据用户 Query 提供所需的输出。

为了严格评估统一的视觉感知能力，作者在涵盖检测、分割和计数3个关键领域的10个多样化任务上评估了VisionReasoner。实验结果表明，作为统一模型，VisionReasoner取得了优异的性能，在COCO（检测）上相较于Qwen2.5VL提升了29.1%，在ReasonSeg（分割）上提升了22.1%，在CountBench（计数）上提升了15.3%。

1 引言

大型视觉语言模型（LVLMs）[1, 44, 7, 31]的最新进展在视觉对话方面展现了卓越的能力。随着该领域的不断发展，研究行人正越来越多地将LVLMs应用于更广泛的视觉感知任务，例如视觉定位[35]和推理分割[12, 24]，通常包含特定任务的模块或技术。

受大语言模型（LLMs）涌现的测试时推理能力[8, 30]的启发，近期研究探索了将强化学习（RL）与视觉语言模型（LVLMs）[43, 25, 24, 50]相结合。VisualRFT和Seg-Zero等研究证明了RL能够增强视觉感知任务的推理能力。然而，这些方法通常以任务特定的方式使用RL，依赖于不同的任务 Reward 函数，这限制了它们的可扩展性和泛化能力。

通过对多种视觉感知任务的分析，作者观察到许多任务可以归为三种基本类型：

• 检测（例如，目标检测、视觉定位）
• 分割（例如，指代表达分割、推理分割）
• 计数（例如，目标计数）
值得注意的是，作者的分析揭示这三种任务类型具有共同的结构，作为多目标认知问题，表明它们可以通过统一的框架来解决。

基于这一见解，作者提出了VisionReasoner，一个通过共享架构处理多样化视觉感知任务的统一框架。该框架的核心能力，包括High-Level推理和多目标认知，通过精心设计的 Reward 机制得以实现。格式 Reward 包括促进结构化推理的思考 Reward 和防止冗余推理模式的非重复 Reward 。准确度 Reward 包括多目标IoU Reward 和用于精确定位的L1 Reward ，以加强多目标认知。与作者之前使用交叉熵损失的方法，VisionReasoner要求最优的预测到真实标签的匹配。作者通过实现一个结合批量计算和匈牙利算法的高效匹配流程来解决这一挑战，显著提高了计算效率，同时保持了匹配准确度。

为了全面评估模型性能，作者在涵盖检测、分割和计数三种基本类型的10项不同任务上对VisionReasoner进行了广泛的实验。值得注意的是，尽管仅在7,000个样本上进行训练，VisionReasoner-7B模型仍取得了优异的性能，展示了强大的推理能力和有效的多任务泛化能力，如图1 (a)-(b)所示。实验结果表明，与 Baseline 模型相比，VisionReasoner取得了显著提升，在COCO-val（检测）上相对提升了29.1%，在ReasonSeg-test（分割）上相对提升了22.1%，在CountBench-test（计数）上相对提升了15.3%，验证了作者统一方法的有效性。此外，VisionReasoner展现出与最先进模型相当的可视化问答能力，如图1 (c)所示。

本文的贡献总结如下：

• 作者提出了VisionReasoner，一个用于视觉感知任务的统一框架。通过精心设计的 Reward 机制和训练策略，VisionReasoner具备强大的多任务能力，能够在共享模型中处理多种视觉感知任务。
• 实验结果表明，VisionReasoner在单一统一框架下，在10个多样化的视觉感知任务中均取得了优异性能，显著优于 Baseline 模型。
• 通过广泛的消融研究，作者验证了设计的有效性，并就强化学习在大型视觉语言模型中的应用提供了关键见解。

2 相关工作

2.1 大型视觉语言模型

在LLaVA对大型视觉语言模型进行视觉指令微调的开创性工作之后，后续研究 [44, 28, 31, 1, 16, 51] 采用了这一范式进行视觉语言对话。除了视觉对话任务之外，视觉语言模型已被扩展到多种视觉应用中，包括视觉定位和推理分割。值得注意的是，最近的GPT-4.1 在多模态信息处理和视觉推理方面展现了最先进的性能。尽管这些模型在特定任务上进行了评估，但它们在统一的视觉感知框架下的性能尚未得到系统性的评估。

2.2 大型模型中的强化学习

在大语言模型（LLMs）领域，多种强化学习（RL）算法被用于提升模型性能，例如人类反馈强化学习（RLHF）、直接偏好优化（DPO）和近端策略优化（PPO）。近期使用GRPO训练的DeepSeek R1展现了卓越的测试时扩展能力，显著提升了推理能力和整体性能。

基于这些进展，研究行人尝试将这些RL技术应用于视觉语言模型（LVLMs）。值得关注的努力包括Visual-RFT、EasyR1和Seg-Zero[24]，这些模型均表现出强大的推理能力，并取得了令人印象深刻的性能表现。

3 方法

为开发一个能够解决多样化视觉任务的统一视觉感知模型：

首先识别并分析了具有代表性的视觉感知任务，然后将它们的输入和输出重新表述为三类基本任务类别（第3.1节）。
接下来，详细阐述了VisionReasoner模型的架构（第3.2节）。此外，介绍了用于训练VisionReasoner的 Reward 函数（第3.3节）。
最后，详细说明了新颖的多目标认知训练策略（第3.4节）。

3.1 任务重述与分类

作者对Papers With Code中列出的视觉任务进行的分析表明，大约有50种任务类型（约占500种已分类视觉任务类型的10%）可以被归为三种基本任务类型。这表明，一个能够处理这些基本任务类型的单一模型有可能解决现有10%的视觉任务。更多细节请参见补充材料。

3.2 视觉推理器模型

3.3 Reward 函数

3.4 多目标认知

4 实验

4.1 评估基准

4.2 实验设置

训练数据。训练数据来源于四个数据集：LVIS、RefCOCOg、gRefCOCO 和 LISA++，遵循第3.4节中概述的策略。这些数据集提供了多样化的文本标注：LVIS 使用简单的类别名称作为文本，RefCOCOg 包含指代表达式，其中每个文本对应单个目标，gRefCOCO 包含可能指向多个目标的表述，而 LISA++ 具有需要推理的文本。这些数据集共同构成了多样化的文本类型，总共有大约7,000个训练样本。

强化学习。使用GRPO算法训练VisionReasoner。在训练过程中，策略模型为每个输入生成多个响应样本。这些样本由 Reward 函数进行评估，策略模型通过KL散度正则化来优化其参数，以在保持与参考模型接近的同时最大化 Reward 。

实现细节。使用与Seg-Zero类似的设置初始化VisionReasoner，采用批处理大小为16和学习率为1e-6。整个训练过程耗时6小时。

4.3 主要结果

作者将结果与LVLMs和特定任务模型在三种基本任务类型中的每一种进行了比较。值得注意的是，VisionReasoner能够在同一模型中处理不同任务，并以零样本方式进行评估。

检测。将VisionReasoner与几种最先进的LVLMs进行比较，包括Shikra、Qwen2-VL-7B和Qwen2.5VL-7B。对于特定任务的模型，将其与VGTR、TransVG、RefTR、MDETR、OWL-ViT、YOLO-World、GroundingDINO、DQ-DETR、GLIP进行评估。由于LVLMs不输出置信度分数，作者使用边界框面积与图像总面积的比值（bbox_area / image_area）来近似它，以实现与COCOAPI的兼容性。然而，这种粗略的近似会导致AP分数被低估。

如表2所示，VisionReasoner在LVLMs中实现了优异的性能。虽然VisionReasoner在COCO数据集上与一些特定任务的 Baseline 模型存在性能差距，但由于其优越的泛化能力，它仍然保持着具有竞争力的优势。

分割。作者评估VisionReasoner与最先进的LVLMs，包括LISA、GLaMM、PixelLM、Seg-Zero、Qwen2-VL和Qwen2.5VL。对于这些LVLMs，首先提取边界框预测，随后将它们发送到SAM2以生成分割 Mask 。作者还比较了特定任务的模型，包括LAVT和ReLA。对于未报告gIoU的模型，作者报告其cIoU作为替代。如表3所示，VisionReasoner实现了最先进的性能，在通用LVLMs和特定任务方法方面均表现优异。

计数。作者评估VisionReasoner与最先进的LVLMs，包括LLaVA-OneVision、Qwen2-VL-7B和Qwen2.5VL-7B。作者以先检测后计数的方式评估这些LVLMs。如表3所示，VisionReasoner达到了最先进的性能。

4.4 消融实验

4.5 定性结果

在图7中展示了部分结果。值得注意的是，VisionReasoner在一个共享模型中处理多个视觉感知任务。VisionReasoner在生成预期输出的同时，为所有任务生成了全面的推理过程。作者发现VisionReasoner能够有效区分相似物体，如图像定位和指代表达分割所示。VisionReasoner还能准确定位多个目标，如图像检测和计数所示。作者还观察到推理过程的长度会动态适应：更复杂的图像 Query 对会引出详细的推理，而简单的输入则产生简洁的解释。

参考

[1]. VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

END

作者：小书童
来源：集智书童

推荐阅读

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。