导读
大型视觉-语言模型(LVLMs)通常遵循两阶段训练范式——预训练和监督微调。最近,从语言领域衍生出的偏好优化已成为一种有效的后训练强化策略,用于提升 LVLMs 的能力。然而,构建高质量的标注偏好数据以及开发能够模拟这些偏好的鲁棒奖励模型既昂贵又具有挑战性。受此启发,作者提出了 Vision-R1,这是一种新颖的视觉引导 R1-like 强化学习算法,用于 LVLMs,它通过明确的视觉反馈奖励模型。它仅利用精心挑选的指令数据,消除了对专用奖励模型和手工制作的偏好数据集的需求。作者引入了一个以标准驱动的奖励函数,该函数进一步整合多维反馈,根据视觉任务逻辑全面评估模型完成情况。
此外,作者引入了一种渐进式规则细化策略,在训练过程中动态调整奖励标准,实现模型的持续改进并减轻奖励黑客攻击。在分布内和分布外基准上的大量实验表明,使用 Vision-R1 微调 7B LVLMs 可以实现一致的性能提升,甚至达到 50%的改进,并超越了最先进的 10 倍规模模型。
1. 引言
近期,在大型视觉语言模型(LVLMs)[2, 12, 25, 30, 31, 42]方面取得了显著进展,这些模型能够将图像编码为文本 Token ,并根据视觉线索响应指令。这些模型通常遵循两阶段训练范式,其中相关阶段建立对视觉信息的基础理解,而监督微调[30]则增强了它们遵循指令和解决问题的能力。通过这一过程,先进的 LVLMs 在将视觉与语言结合以解决复杂任务方面展现出巨大的潜力。
尽管取得了这些进展,视觉语言模型(LVLMs)在满足人类期望方面仍然无法像大语言模型(LLMs)[1, 5, 29, 43]那样有效,这主要是因为视觉语言数据的局限性。为了弥合这一差距,借鉴了 LLMs[10, 35, 36]的数据效率和性能优势的偏好优化[13, 40, 46, 53],被引入作为一种后训练强化策略,以基于人类反馈来细化 LVLM 的响应。尽管这些方法将数据消耗降低到千级水平,但构建高质量的视觉语言偏好数据集仍然需要大量资源。同时,训练一个可靠的奖励模型以捕捉具有不同主观性的细微偏好仍然是一个主要挑战。
随着 LLM Deekseek-R1 [17]的成功,基于规则的组相对策略优化(GRPO)[38]算法为追踪这一挑战提供了一种新的方法。虽然之前在数学[38]和代码[16]等推理任务中得到了验证,但 R1 模型进一步证明了基于规则的奖励可以增强多个领域的理解和推理能力,从而提高推理和非推理任务的表现。此外,通过引入视觉信息,视觉-语言问答数据变得更加客观和明确,提供了更清晰的解决方案和线索。现有的人类标注指令数据[26, 51]自然提供了与人类偏好一致的确切响应。这引发了一个关键问题:类似于 R1 的强化学习方法能否通过精心制作的视觉-语言指令数据进一步增强 LVLM 的能力?
在本文中,作者提出了 Vision-R1,这是一种新颖的视觉引导 R1-like 强化学习算法,用于 LVLM,它消除了对专用奖励模型和手工制作的偏好数据集的需求。为了实现这一点,作者如图 1 所示对奖励建模和训练策略进行了全面的研究。作者首先引入了一个以标准驱动的奖励函数,该函数根据视觉反馈对每个完成项进行定量评估,提供了一个客观的绝对奖励标准,而不是基于偏好数据进行相对排名。该函数提供了由视觉任务标准引导的多维奖励信号,例如通过将文本数值 Token 转换为坐标来衡量精度的准确性。作者的设计使模型能够更深入地理解任务特征,并生成更准确的响应,超越了 SFT 中使用的忽略空间身份的 Token 级监督。在奖励建模的基础上,作者进一步引入了一种渐进式规则细化策略,该策略在整个训练过程中动态调整奖励标准,以促进持续改进。受课程学习[4]和人类学习过程启发,该策略遵循两个关键原则:差异化和分阶段进步。这种差异化机制鼓励模型不断细化其预测以实现最佳性能。同时,训练被结构化为初学者和 High-Level 阶段,在 High-Level 阶段有越来越严格的奖励标准,以防止奖励黑客攻击并确保持续进步。
为了验证 Vision-R1 的有效性,作者在精选数据上训练了两种先进的 LVLM,Griffon-G-7B [50] 和 Qwen2.5-VL-7B [3],并在多个领域内和领域外物体定位任务以及通用问答基准上进行评估。大量实验表明:(1) Vision-R1 在包括野生视觉基座和密集目标检测在内的多种任务中实现了显著的性能提升,甚至超过了最先进的 Qwen2.5-VL-72B [3]模型。(2) 与 SFT 相比,Vision-R1 在未见过的场景上表现出更好的泛化能力,平均提高了 6%,同时保持了先进的问答能力。
本文的贡献总结如下:
- 作者提出了一种新颖的视觉引导强化学习方法 Vision-R1,用于 LVLMs,该方法通过视觉反馈提供奖励,以促进对任务的理解超越 SFT。
- 作者提出了一种有效的渐进式规则细化策略,该策略通过在训练过程中动态调整奖励标准来确保持续改进。
- 全面实验表明,Vision-R1 在不同模型上,无论是在领域内还是领域外场景下,均实现了卓越的性能提升,Qwen2.5-VL 模型甚至达到了 50%的改进,同时保持了良好的泛化能力。
2. 相关工作
2.1 大型视觉语言模型
近年来,低资源语言模型(LVLMs)[2, 12, 25, 30, 31, 39, 42]取得了显著进展。通过与先进的语言模型[5, 29, 43]对齐,并利用高质量的指令数据进行端到端训练[26, 42],LVLMs 在问答和推理等任务上的能力得到了大幅提升,在各个领域实现了显著的突破。在这些进步中,众多开源 LVLMs 通过在数据构建、对齐方法、模型架构等方面的深入研究做出了贡献。目前,InternVL-2.5[11]和 Qwen2.5-VL[3]是领先的 LVLM 系列,逐渐缩小与闭源[1]模型的差距,甚至在 MMMU[49]等挑战性基准测试中超越了它们。
除了这些成就之外,越来越多的关注点集中在更具挑战性的目标定位任务[3]上,如视觉基座和目标检测。虽然 LVLMs 在简单的细粒度定位任务(如指称表达式理解[21])中已经超越了专家模型,但在复杂和密集的目标检测任务中,它们仍然远远落后于专业模型。尽管一些研究,如 Griffon[50]和 Lumen[20],已经探索了这个领域,但它们仍然局限于监督微调,这只能带来有限的性能提升。由于目标定位是使 LVLMs 能够进行更 High-Level 推理的基本能力,它既是一个关键的研究方向,也是一个主要挑战。在本文中,作者进一步探索了基于强化学习的后训练方法,以增强最先进的 LVLMs 在更具挑战性的目标定位任务上的性能。
2.2 视觉-语言强化学习
随着 LVLMs 的快速发展,研究行人开始探索强化学习方法,以更好地将这些模型与人类偏好对齐,受到强化学习在 LLMs 中成功应用的启发[10, 35, 36]。LVLMs 中的第一个应用名为 RLHF[40],旨在通过基于人类反馈的迭代优化模型响应来减少幻觉。为了进一步增强对齐并简化训练,引入了直接偏好优化(DPO)[36],允许模型直接在人类标注的偏好数据上训练。从那时起,已经开发了各种偏好优化算法[47, 48],以提高对话能力、减轻幻觉等。
随着 LVLMs 的持续发展,一些方法[13, 45]也尝试利用强化学习来增强长序列推理。尽管与预训练相比减少了计算成本并提高了模型性能,但这些方法仍然依赖于手动标注的偏好数据和奖励模型训练,使得它们资源密集且具有挑战性。受基于规则的 GRPO[38]方法在 DeepSeek-R1[17]中成功应用的启发,作者探索了其在视觉-语言领域的应用,其中具有精确标注的指令数据集与人类偏好内在对齐。作者的工作表明,在视觉反馈的指导下,基于规则的强化学习可以显著增强目标定位任务,而无需重新标注偏好数据或奖励模型训练。这进一步突显了其在 LVLMs 中更广泛应用的潜力。
3. 视觉-R1
在本节中,作者系统地介绍了视觉 Anchor 定的 R1-like 强化学习算法 Vision-R1,这是 GRPO[38]强化学习算法在视觉领域的成功扩展。作者首先简要介绍基于规则的 GRPO 算法,它是 R1 模型成功之源和作者的基础。然后,在第 3.2 节中详细阐述了 Vision-R1 算法的关键组件——基于标准的奖励函数,特别是基于标准的奖励函数。此外,在第 3.3 节中,作者介绍了渐进式规则细化策略。图 2 展示了 Vision-R1 的框架。
3.1. 前言
基于 GRPO 在 DeepSeek-R1 中实现自我进化和多领域推理的成功,该强化学习算法为语言和视觉社区提供了宝贵的见解。由于其监督完全基于最终结果,GRPO 特别适用于具有明确、客观答案的任务。
与其他依赖奖励模型或价值模型的偏好优化方法不同,它显著降低了 LVLMs 的内存开销。此外,GRPO 计算给定样本在完成组内的相对优势,消除了手动标注偏好数据的需求。以下是作者对其训练过程和优化损失的详细说明。
3.2 基于标准的奖励函数
先前的方法[16, 38]主要关注数学和编码等领域,在这些领域中,答案通常使用结构化模板进行总结,并通过字符级匹配进行评估。相比之下,视觉语言任务本质上具有明确的答案,而目标定位任务通常不涉及中间步骤,而是直接输出最终结果。虽然目标定位任务具有明确的目标,可以识别所有感兴趣的目标,但这种视觉反馈并不需要严格的字符级匹配。简单应用基于匹配的奖励机制忽视了视觉任务的独特特性和其反馈,以及强化后训练在完成层面的优势。
为了解决这个问题,作者研究了设计一个奖励函数,该函数能够考虑到目标定位任务的本质以及当前 LVLMs 在处理这些任务时的局限性。如图 2 中的任务分析所示,LVLMs [3, 11, 50] 在目标定位任务中面临三个主要挑战。首先,在多实例、长序列预测中,它们往往无法正确遵循指令,导致格式错误。其次,模型产生的有效预测数量不足,未能检测到所有提到的目标。第三,它难以处理小型或具有挑战性的目标,导致预测不准确。除了格式错误外,后两个问题通常在目标检测中进行评估。因此,作者提出了一种以标准为导向的奖励函数,结合双格式奖励、召回奖励和精确度奖励,全面评估模型性能并激励改进。
Box 优先预测匹配。由于统一的序列建模,LVLMs 在目标定位任务中输出目标坐标作为文本序列。为了根据视觉反馈计算奖励,作者首先将这些文本序列转换为前面提到的基于坐标的视觉反馈。支持目标定位任务的现有 LVLMs 通常遵循固定的序列表示来表示目标坐标,如图 2 所示的纯文本格式。基于这种表示,作者从序列中提取单个目标。然而,目标定位任务通常涉及多个目标,需要预测与真实值之间的精确匹配。为了在训练中解决这个问题,作者将所有目标定位任务统一在目标检测的一般框架下进行,并在计算奖励之前进行匹配。与检测专家模型不同,LVLMs 不生成类别概率,尽管正确预测了目标类别,但在边界框的准确性方面通常不够精确。根据作者的实验,作者对匈牙利匹配器[6]进行了简化,优先考虑基于框的损失进行对齐。如公式 3 所示,匹配后,每个预测实例包含坐标、类别标签和交并比(IoU)。
精确奖励。与召回率的全局视角不同,精确奖励关注第三挑战中每个完成预测的实例质量。精确奖励与召回奖励协同工作:后者鼓励模型尽可能预测尽可能多的相关实例,而前者确保预测尽可能准确。为了直接激励模型预测高质量的边界框,作者将精确奖励定义为所有有效预测的平均交并比(IoU):
3.3. 逐步规则细化策略
在定位任务中,准确预测与真实值具有高 IoU 的边界框在密集场景中尤为困难。这种困难可能导致同一组内不同预测的完成奖励相似,从而限制模型的优化。为了解决这个问题,作者提出了一种渐进式规则细化策略,该策略受到课程学习[4]和人类学习过程的影响,能够在训练过程中动态调整奖励计算标准,以实现持续的性能提升。如图 2 所示,该策略应用于召回率和精确率奖励,细化其最终值以计算优势 Ai 。它包含两个关键组成部分:差异化策略和分阶段进展策略。
4. 实验
作者在多个目标定位任务和数据集上进行了实验,以验证 Vision-R1 的有效性。在本节中,作者首先介绍了 Vision-R1 的实现细节,包括模型配置和训练数据,详见第 4.1 节。接着,在第 4.2 节中,作者将 Vision-R1 与最先进的 LVLM 模型和基准进行了比较,展示了其在目标检测、指代表达理解以及跨领域场景定位方面的先进性能。此外,在第 4.3 节中,作者提供了深入的实验分析和消融研究,以检验 Vision-R1 设计各个方面的细节。
4.1 实施细节
模型设置。作者将 Vision-R1 与多个先进的 LVLMs 集成,以验证 VisionR1 的广泛有效性。具体来说,作者基于最新的 Qwen2.5-VL-7B [3] 和 Griffon-G-7B [50] 模型实现 Vision-R1。Qwen2.5-VL-7B 是最最新且最全面的多模态大型模型,除了其先进的 VQA 性能外,还展示了有竞争力的物体定位能力。相比之下,Griffon-G 是第一个接近专业定位模型性能的 LVLM。鉴于它们不同的定位能力,作者选择这两个模型来评估 Vision-R1 在不同模型熟练程度上的有效性。作为一种后训练强化学习方法,作者直接使用作者下面介绍的包含 49K 个样本的构建数据集对开源模型进行微调。训练使用开源的 Open-R1 [15] 及其多模态变体框架 [8],采用默认配置。具体来说,作者将B设置为 0.2,并以 1e-6 的学习率进行 1 个 epoch 的训练。对于比较方法 SFT,作者使用相同的数据,并以 2e-6 的学习率和 128 的批量大小对每个模型进行 1 个 epoch 的微调。为了快速评估,作者采用 VLMEvalKit [14] 和 Griffon [51]。
训练数据。如前所述,Vision-R1 不需要人工标注的偏好数据,可以直接使用带有精确答案标注的问答对进行训练。为了构建强化学习数据,作者从先前精心标注的目标定位指令数据集中仔细挑选样本。在挑选过程中,作者遵循两个关键原则:多样性和挑战性。最终,作者构建了一个包含 49K 个样本的强化学习数据集,其中包含 30K 个目标检测样本、9K 个视觉定位样本和 10K 个指代表达理解样本,因为目标检测通常比其他两个任务更具挑战性。在每个数据类别中,作者确保大约 50%的样本具有挑战性,这些样本具有更多的目标类别和实例,以及一定比例的负样本。数据集的详细说明见附录。
4.2 目标定位的主要结果
设置。作者在广泛的目标定位基准测试集上提供了大量的实验结果,这些测试集挑战模型在多样化和复杂环境中准确检测和定位目标,展示了其先进的目标定位能力。作者纳入了多个广泛认可且具有代表性的领域数据集,涵盖了密集目标检测和真实场景定位。
COCO [28] 作为评估密集场景中多目标定位的严格且公认的基准。ODINW-13 [27] 涵盖了 13 个不同的真实世界场景,包含罕见的目标类别,测试模型在实际场景中应用其知识进行目标推理的能力。作者还评估了方法在具有挑战性的场景中,对域外未训练定位数据集的泛化能力。作者分别从 ODINW [27] 中采用四个不重叠的子集。
域内目标定位。表 1 的结果展示了 Vision-R1 在目标定位任务中的广泛有效性。当应用于在目标检测方面表现卓越的 Griffon-G 模型时,Vision-R1 进一步提升了其性能,在 COCO 上提高了 1.8,在 ODINW-13 上实现了平均 mAP 提升 2.5。这显著优于 ODINW-13 上的最先进 Qwen2.5-VL72B,并将 Griffon-G-7B 的性能拉近了与专业视觉模型。当与定位能力相对较弱的 Qwen2.5-VL-7B 模型结合时,Vision-R1 带来了更加显著的提升,将 COCO 目标检测性能提升了 8.9 点,在 ODINW 上实现了 8.7 点的提升,超过了其更大的 72B 版本。
与监督微调方法相比,Vision-R1 在这两个模型上分别平均优于 1.25 和 7 点。值得注意的是,SFT 降低了 Qwen2.5-VL-7B 在 ODINW-13 上的性能,这可能是由于在数据有限的情况下训练时出现过拟合。这些结果突显了 Vision-R1 在增强不同模型和场景下 LVLMs 目标定位能力方面的优势,尤其是对较弱模型有显著益处。
域外目标定位。如设置中所述,作者为域外定位评估从 ODINW 中纳入了四个不重叠的数据集。与传统域外检测设置不同,作者放宽了训练期间图像和目标类别都必须完全未知的约束。鉴于 LVLMs 的大规模训练数据,严格确保完全新颖性具有挑战性,因此作者在此定义了一个实验设置,其中在训练后阶段目标类别或场景之一缺失,以评估泛化能力。
如表 2 所示,Vision-R1 在集成 Griffon-G-7B 和 Qwen2.5-VL-7B 模型时提升了性能,分别实现了 7.1 和 4.8 的平均增益。值得注意的是,它在 BoggleBoards 和 MountainDewCommercial 上超过了专家模型,进一步证明了其超越特定数据集的强大泛化能力。虽然 SFT 在涉及 Heatmap 等挑战场景中表现具有竞争力,在这些场景中 LVLMs 最初表现不佳,但在更常见的场景中与 Baseline 模型相比,它表现出显著的性能下降。这表明 SFT 缺乏鲁棒的泛化能力,而 Vision-R1 有效地提升了域内和域外性能。
4.3 消融研究
在本节中,作者提供了全面的实验来验证 Vision-R1 的设计,突出了作者的主要贡献。除非另有说明,作者使用从构建的数据集中提取的检测数据进行消融实验,这些数据可以视为定位任务的通用形式,使实验更具代表性和广泛适用性。
不同匹配方法讨论。如第 3.2 节所述,先验框匹配通常基于匈牙利匹配,通过考虑框准确性和类别预测分数来最小化损失。然而,与检测专家模型不同,LVLMs 不依赖于具有概率输出的预定义类别集,而是直接产生确定性类别标签。基于此,作者通过仅考虑框准确性或结合框准确性和类别正确性来简化分配过程。
如表 3 所示,两种方法在性能上表现出有限的显著差异,仅基于框的匹配方法表现略好。作者将其归因于 LVLMs 强大的分类能力,在预测少量目标时很少误分类目标。仅基于边界框的匹配有助于模型召回更多目标,通过使预测更准确,在训练后略微提升性能。
奖励函数设计有效性。为了全面评估作者的奖励函数设计,作者首先进行了一项消融研究,以比较三个奖励组件的效果。其中,双重格式奖励主要作为对模型未能遵循预期格式或内容模板的一些完成的反馈。因此,作者将消融比较集中在精确度奖励和召回率奖励上。当排除召回率奖励时,作者引入了一个二元预测计数奖励,仅在预测的实例数量与真实值匹配时给予奖励。这防止了模型持续生成冗余输出。
如表 4 所示,当仅考虑精确度时,模型产生了更高质量的边界框,导致所有 AP Level 均有所提升。然而,召回的实例数量减少了。引入召回率奖励后,与 Baseline 相比,模型的召回率提高了 2%,整体 mAP 进一步提升了 0.6,这表明作者整合召回率和精确度的设计导致了更有效的性能。
渐进式规则精炼的有效性。渐进式规则精炼策略作为一种促进模型持续改进的机制。在作者的实验中,作者根据目标检测评估标准设定并固定了
,同时调整 STEP 以确定 High-Level 阶段的最优过渡点。为了检验不同配置的影响,作者对 Griffon-G-7B 模型进行了比较研究,评估了将 STEP 设置为 1/3、1/2 和 1 的三种设置,并在 COCO 数据集上测试了性能。
对通用问答的影响。Vision-R1 将 LVLMs 与人类自然倾向于用于提升其目标定位能力的主观标注相一致。然而,保持 LVLMs 强大的通用问答能力也受到高度青睐。作者在表 1 和表 2 中评估了与 Vision-R1 集成的 LVLMs 在各种通用视觉问答(VQA)上的表现,包括知识(AI2D [22])、常识(GQA [19])、图表(ChartQA [34])和跨学科(SEED [24])领域。
如表 6 所示,使用 VisionR1 进行训练导致通用问答性能的波动最小,保持了与 Baseline 模型相似的性能,而基于微调(SFT)的方法则表现出显著的下降。这表明 Vision-R1 在显著提升目标定位能力的同时,并未严重损害通用问答能力。此外,目标定位能力的提升还导致基于目标感知的常识任务(如 GQA)的性能提升,进一步展示了 Vision-R1 的优势。作者还在附录中提供了 Qwen2.5-VL-7B 的实验结果,进一步证明了 Vision-R1 的有效性。
5. 结论
本文介绍了 Vision-R1,一种针对 LVLMs 的新型强化学习算法,该算法结合了视觉标准驱动的奖励函数和渐进式规则细化策略,以增强其目标定位能力。通过设计此算法,作者提出了一种无需人工标注的方法,以利用大量包含主观和明确响应的指令数据,从而提升 LVLMs 的定位性能。
在多种场景下,对各种基准的全面评估展示了 Vision-R1 的一般化有效性,鼓励更多研究为 LVLMs 配备先进的精确目标定位能力,以支持复杂任务和实际应用。
参考
[1]. Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning
END
作者:小书童
来源:集智书童
推荐阅读
- TVM Relax:通过跨层次抽象实现动态 shape 的 LLM 高效部署
- 分享一个DeepSeek V3和R1中 Shared Experts和普通Experts融合的技巧
- Mobile-MMLU:专注真实端侧场景下大模型性能厮杀的 Benchmark 数据集
- MQA/GQA/YOCO/CLA/MLKV笔记: 层内和层间KV Cache共享
欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。