LLM 技术报告系列 | Google 团队正式放出 Gemma 3 技术报告

导读

作者推出了 Gemma 3,它是轻量级开源模型家族 Gemma 系列的新成员,参数规模从 10 亿到 270 亿不等。本版本引入了视觉理解能力、更广泛的语言覆盖范围和更长的上下文长度——至少 128K 个 Token 。作者还改变了模型的架构,以减少长上下文下容易爆发的 KV 缓存内存。这是通过增加局部到全局注意力层的比例,并保持局部注意力跨度较短来实现的。

Gemma 3 模型采用蒸馏技术进行训练,在预训练和指令微调版本上都优于 Gemma 2。特别是,作者新颖的后续训练配方显著提高了数学、聊天、指令遵循和多语言能力,使得 Gemma3-4B-IT 在基准测试中与 Gemma2-27B-IT 相媲美,而 Gemma3-27B-IT 则与 Gemini-1.5-Pro 相当。作者将所有模型发布给社区。

1. 引言

作者推出了 Gemma 开放语言模型的最新版本,该版本与 Gemini 前沿模型系列共同设计。这个新版本的大小与 Gemma 2 相当,并新增了一个 1B 模型。这些模型旨在在标准消费级硬件上运行,如手机、笔记本电脑和高端 GPU。这个版本为 Gemma 家族带来了几项新功能;即多模态、长上下文和多语言能力,同时保持了或超越了先前版本的性能。

在多模态方面,大多数 Gemma 3 模型兼容 SigLIP 视觉编码器的定制版本。语言模型将图像视为由 SigLIP 编码的软 Token 序列。作者通过将视觉嵌入压缩为 256 维固定大小的向量来降低图像处理的推理成本。编码器在固定分辨率下工作,作者借鉴了 LLaVA(Liu 等,2024 年)的方法,通过使用平移和扫描(P&S)方法来实现灵活的分辨率。

第二个主要架构改进是将上下文大小增加到 128K 个 Token ,而不降低性能。长上下文的一个挑战是在推理过程中 KV 缓存的内存爆炸。为了减少这个问题,作者在每个全局层之间交错多个局部层,并将局部层的跨度分配为更小的 1024 个 Token 。因此,只有全局层关注长上下文,每 5 个局部层对应 1 个全局层。

预训练优化方案与 Gemma 2 类似,但在架构设计上有所修改。作者使用与 Gemini 2.0 相同的分词器,并重新审视作者的数据混合方式,以提升模型的多语言能力,同时引入图像理解。所有 Gemma 3 模型均采用知识蒸馏进行训练。

在训练后,作者专注于提升数学、推理和聊天能力,以及整合 Gemma 3、长上下文和图像输入的新功能。作者采用了一种新颖的训练后方法,该方法在包括数学、编码、聊天、指令遵循和跨语言在内的所有能力上均取得了提升。由此产生的 Gemma 3 指令调整模型既强大又灵活,大幅超越了其前辈。

在以下章节中,作者简要概述了 Gemma-3,包括架构和预训练及后训练方案。作者还对广泛的定量和定性基准进行了详细评估。作者讨论了作者的安全与负责任部署方法,并概述了 Gemma 3 的更广泛影响、局限性以及优势。

2. 模型架构

Gemma 3 模型遵循与之前迭代相同的仅解码器 Transformer 架构,其大多数架构元素与前两个 Gemma 版本相似。作者使用带有后归一化和前归一化的 Grouped-Query Attention(GQA)以及 RMSNorm。受 Dehghani et al.(2023)、Wortsman et al.(2023)和 Chameleon Team(2024)的启发,作者用 QK-norm 替换了 Gemma 2 的软上限。在本节中,作者将重点介绍与之前版本的一些关键差异。

5:1 局部/全局层交错。作者交替使用局部滑动窗口自注意力和全局自注意力,每 5 个局部层对应 1 个全局层,模型的第一层为局部层。

Gemma 3 模型支持的最大上下文长度为 128K 个 token,除了 1B 模型,其支持长度为 32K。作者将全局自注意力层的 RoPE 基频率从 10k 提升至 1M,同时保持局部层的频率为 10kΩ。作者遵循与 Chen 等人(2023)类似的位置插值过程,以扩展全局自注意力层的跨度。

2.1 视觉模态

视觉编码器。作者使用 SigLIP 编码器的 400M 变体,这是一种使用 CLIP 损失变体训练的视觉 Transformer。Gemma 视觉编码器以 896×896 大小的正方形图像作为输入,并在视觉助手任务的数据上进行微调。为了简化,作者在 4B、12B 和 27B 模型中共享视觉编码器,并在训练过程中将其冻结。

P&S。Gemma 视觉编码器以固定的分辨率 896×896 运行。这导致在处理非正方形宽高比和高分辨率图像时出现伪影,导致文字难以辨认或小物体消失。作者在推理过程中采用自适应窗口算法来解决此问题。该算法将图像分割成大小相等的非重叠块,覆盖整个图像,并将它们调整到 896×896 像素以传递给编码器。此窗口化仅在必要时应用,并控制最大块数。它是一种推理时优化,可以禁用以加快推理速度。

2.2 预训练

作者遵循与 Gemma 2 中类似的方案进行知识蒸馏的预训练。

训练数据。作者在比 Gemma 2 略大的 Token 预算上预训练 Gemma-3,即 Gemma 3 27B 版本训练于 14T Token ,12B 版本为 12T,4B 版本为 4T,1B 版本为 2T。 Token 数量的增加是为了应对预训练过程中使用的图像和文本的混合。作者还增加了多语言数据量以提升语言覆盖范围。作者添加了单语种和并行数据,并采用受 Chung 等(2023)启发的策略来处理语言表示的不平衡问题。

分词器。作者使用与 Gemini 2.0 相同的分词器:一个具有分割数字、保留空白字符和字节级编码的 SentencePiece 分词器。生成的词汇表包含 262k 个条目。该分词器在非英语语言方面更加均衡。

过滤。作者采用过滤技术以降低不希望或危险言论的风险,并移除某些个人信息和其他敏感数据。作者从预训练数据混合中净化评估集,通过最小化敏感输出的扩散来降低背诵的风险。此外,作者还应用了受 Sachdeva 等人(2024)启发的质量重新加权步骤,以减少低质量数据的出现。

蒸馏。作者对每个 Token 采样 256 个 logits,并按教师概率进行加权。学生通过交叉熵损失学习教师在这些样本中的分布。教师的目标分布将未采样的 logits 的概率设置为零,并进行重新归一化。

2.3 量化感知训练

除了原始预训练权重外,作者还提供了不同标准格式下模型的不同量化版本。这些版本通过使用量化感知训练(QAT)对每个模型进行少量步骤的微调获得,通常为 5,000 步。作者使用非量化预训练权重的概率作为目标,并调整数据以匹配预训练和后训练分布。基于最受欢迎的开源量化推理引擎(例如 llama.cpp),作者专注于三种权重表示:每通道 int4、每块 int4 和切换 fp8。在表 3 中,作者报告了对于 32k 个 token 的序列,不同权重表示下原始和量化模型占用的内存,包括带 KV 缓存和不带 KV 缓存的情况。

2.4 计算基础设施

作者使用表 2 中概述的 TPUv4、TPUv5e 和 TPUv5p 来训练 Gemma-3。每个模型配置都经过优化以最小化训练步骤时间。对于视觉编码器,作者预先计算每个图像的嵌入,并直接使用嵌入进行训练,这不会给语言模型的训练增加任何成本。

优化器状态采用 ZeRO-3 的实现进行分片。对于多 Pod 训练,作者在数据中心网络中执行数据副本减少,使用 Barham 等(2022 年)的 Pathways 方法。作者采用 Jax 和 Pathways 的“单一控制器编程范式”,以及 GSPMD 分区器和 MegaScale XLA 编译器。

以下内容,包括多语言能力,同时最小化模型的有害性。这包括从使用人类反馈数据、代码执行反馈以及解决数学问题的真实奖励训练的权重平均奖励模型中学习。

数据过滤。作者仔细优化了用于训练后的数据,以最大化模型性能。作者过滤掉显示特定个人信息、不安全或有害的模型输出、错误的自我识别数据和重复的示例。包括那些鼓励更好的情境归因、对冲和拒绝以最小化幻觉的数据子集,这也有助于提高事实性指标的性能,而不会降低模型在其他指标上的性能。

[BOS] Token 。对于 PT 和 IT 模型,文本以[BOS] Token 开头,需要显式添加,因为文本“[BOS]”并不对应[BOS] Token 。例如,Flax 有一个选项 add_bos=‘True,可以在分词时自动添加此 Token 。表 4 展示了 IT 模型的格式化示例,PT 与 IT 格式化比较。所有模型共享相同的分词器,其中一些控制 Token 专门用于 IT 格式化。一个关键的区别是,PT 模型在生成结束时输出<eos>Token ,而 IT 模型在生成结束时输出,如表 4 所示。因此,微调任何模型类型都需要添加它们各自对应的结束 Token 。

3. 指令微调

预训练模型通过改进后的后训练方法转变为指令微调模型,与作者的先前配方相比(见表 6)。

技术。作者的训练后方法依赖于从大型 IT 教师改进的知识蒸馏,以及基于改进版 BOND、WARM 和 WARP 的强化学习微调阶段。

强化学习目标。作者使用多种奖励函数来提高实用性、数学、编码、推理和指导能力。

4. 最终模型评估

在本节中,作者评估了 IT 模型在一系列自动化基准测试和多个领域的专家评估中的表现,以及静态基准测试如 MMLU。

4.1. LMSYS 聊天机器人竞技场

在本节中,作者报告了作者的 IT 27B 模型在 LMSys Chatbot Arena 上的性能,该性能是通过人类评分员进行的盲法对比评估得出的,与其他最先进的模型进行了比较。作者在表 5 中报告了 Elo 分数。Gemma 3 27B

IT(1338)位列前 10 名最佳模型,得分高于其他非思考型开放模型,如 DeepSeek-V3、LLaMA 3 405B 和 Qwen2.5-70B,这些模型规模更大。最后,Gemma 3 的 Elo 值显著高于 Gemma 2,达到 1220。请注意,Elo 得分不考虑视觉能力,上述所有模型均不具备视觉能力。

4.2. 标准基准

在表 6 中,作者展示了作者的最终模型在各种基准测试中的性能,与之前的模型迭代和 Gemini 1.5 进行了比较。由于在作者的设置中运行它们不能保证公平的比较,作者没有直接与那些经常报告自己评估设置的模型进行比较。作者鼓励读者参考第三方静态排行榜以实现模型间的公平比较。作者还在附录中包含了作者在其他基准测试上对模型进行的额外评估。

5. 消融

在本节中,作者重点关注了架构变更的影响,以及该模型新增的一些视觉能力。

5.1. 预训练能力检测

作者使用多个标准基准作为预训练期间的检测工具,以确保 Gemma-3 能够捕捉到一般能力,如图 2 所示,作者比较了 Gemma 2 和 3 预训练模型在这些一般能力方面的质量,即科学、

代码、事实性、多语言性、推理和视觉。这些图表中使用的不同公共基准测试的性能细节总结在附录中。总体而言,尽管增加了视觉功能,新版本在大多数类别中都有所提升。作者特别关注了本版本的多语言性,这对 Gemma-3 的质量产生了直接影响。然而,尽管使用了去污染技术,这些 Prob 仍然存在被污染的风险,这使得得出更明确的结论变得更加困难。

5.2 局部-全局注意力层

作者测量了在推理过程中,对局部和全局自注意力层的修改对性能和内存消耗的影响。

局部与全局比率。图 3 中,作者比较了不同局部注意力层与全局注意力层的比率。Gemma 2 模型中使用 1:1 的比率,而 Gemma 3 模型中使用 5:1 的比率。作者发现改变这个比率对困惑度的影响最小。

滑动窗口大小。如图 4 所示,作者比较了不同全局:局部比例配置下,局部注意力层的不同滑动窗口大小。滑动窗口可以显著减小,而不会影响困惑度。

image.png

图 6 中,作者计算了 KV 缓存使用的内存作为上下文长度的函数,与作者 2B 架构(L;G=5;1 sw=1024)相比,与“仅全局”2B 模型。

5.3. 启用长上下文

与从头开始训练 128K 序列不同,作者首先使用 32K 序列进行预训练,然后在预训练结束时将 4B、12B 和 27B 模型扩展到 128K 个 Token ,同时调整 RoPE。作者发现实际应用中 8 的缩放因子效果良好。请注意,与 Gemma 2 相比,作者还将全局自注意力层的 RoPE 基本频率从 10k 增加到 1M,而局部自注意力层仍保持 10k。在图 7 中,作者展示了不同上下文长度对困惑度的影响。Gemma-3 可以泛化到 128K,但随着作者继续扩展,性能迅速下降。

5.4 小型教师与大型教师

一个常见的发现是,为了训练一个小型模型,从较小的教师模型中提取知识更为可取。

作者怀疑这是因为这些研究通常是在使用较差教师时的正则化效果超过使用较好教师的好处的情况下进行的。作者使用两个不同大小的教师,一个大型和一个小型,针对不同的训练范围训练学生。在图 8 中,作者观察到在短训练范围内,较小的教师表现更好,但长期训练的趋势则相反。

5.5 视觉编码器

图像分辨率的影响。作者使用基于 SigLIP 的视觉编码器。视觉编码器被冻结,仅训练语言模型。在这多模态数据中的每张图像都由来自相应视觉编码器的 256 个图像 Token 表示。因此,更高分辨率的编码器使用平均池化来将其输出减少到 256 个 Token 。例如,896 分辨率的编码器对其输出进行 4x4 的平均池化。如表 7 所示,更高分辨率的编码器比较小的编码器表现更好。

P&S。P&S 技术能够捕捉接近原始宽高比和图像分辨率的图像。在表 8 中,作者比较了带有和未带有 P&S 的 27B IT 模型。正如预期,处理接近原始分辨率的图像的能力对于需要某种形式在图像上读取文本的任务有很大帮助,这对于视觉语言模型尤为重要。

6. 记忆与隐私

大语言模型可能会产生与训练中使用的某些文本的近似副本。一些先前的研究报告发布了审计,通过测量记忆率来量化这一风险。这个“记忆率”定义为模型生成的与训练数据匹配的部分与所有模型生成内容之比。作者采用以下设置来定义它。作者遵循 Gemma 团队(2024b)中描述的方法来测量它。具体来说,作者从不同语料库中均匀分布的大量训练数据中抽取一部分,并使用长度为 50 的前缀和长度为 50 的后缀来测试该内容的可发现提取(Nasr 等人,2023 年)。作者称文本为“完全记忆”如果其后续的所有 Token 都与源后缀完全匹配,或者称为“近似记忆”如果它们与源后缀的编辑距离不超过 10%。

作者还研究了生成内容中可能包含个人信息的发生率。为了识别潜在的个人信息,作者使用了谷歌云敏感数据保护(SDP)服务。2 SDP 采用广泛的检测规则来识别可能包含个人信息的文本。SDP 旨在具有高召回率,不考虑信息可能出现的上下文,这导致了许多误报。因此,作者可能高估了被归类为记忆内容的输出中包含的潜在个人信息量。SDP 还提供了广泛的严重程度 Level :低、中、高。如果 SDP 在任何严重程度 Level 上将其归类为个人信息,作者将文本归类为个人信息。作者观察到,在所有 Gemma 3 模型中,被描述为记忆内容的输出中均未发现个人信息。这表明,在归类为记忆内容的输出中,个人数据的发生率很低,低于作者的检测阈值。

7. 责任、安全、保障

责任、安全与保障在 Gemma 模型的发展中至关重要。为了降低 Gemma 3 用户的风险,作者持续整合增强的内部安全流程,贯穿整个开发工作流程,与近期谷歌 AI 模型的做法保持一致。这侧重于训练时间的安全缓解,以及对作者引入的新图像到文本功能的稳健且透明的模型评估。

7.1. 治理与评估

作者评估 Gemma 的益处和风险的方法与为 Gemma 1 概述的方法类似,考虑到所支持的模态的变化。作者仍然认为,AI 的开放性可以促进这些技术在全社会范围内传播益处,但必须评估其恶意使用带来的风险,这种风险可能对个人和机构层面造成伤害。自 Gemma 首次发布以来,作者见证了这些模型推动了众多具有社会效益的应用,例如作者自己的 ShieldGemma 2,这是一个使用 Gemma 3 构建的 4B 图像安全分类器,为图像安全提供了一种现成的解决方案,能够在危险内容、色情和暴力类别中输出安全标签。

发布 Gemma 3 模型需要特别注意模型能力的变化,以及现有多模态 LLM 风险演变的密切监控,同时还需要理解模型在实际应用中的使用方式。尽管作者尚未收到任何关于 Gemma 恶意使用的报告,但作者仍致力于调查此类报告,并与学术界和开发者社区合作,同时进行自我监控,以 Token 此类案例。

尽管在能力上有所提升,但作者认为,鉴于现有大量的大型强大开源模型,此次发布对整体风险格局的影响将微乎其微。

7.2 安全策略与列车运行时间缓解措施

Gemma 的安全方法的关键 Pillar 是将微调后的模型与谷歌的安全政策相一致,与 Gemini 模型保持一致。它们旨在帮助防止 Gemma-3 生成有害内容,即:儿童性虐待和剥削

  • 揭示可能导致危害的个人可识别信息(例如,社会保障号码)
  • 仇恨言论与骚扰
  • 危险或恶意内容(包括推广自残或指导有害活动)
  • 性内容
  • 违反科学或医学共识的医疗建议

作者对预训练数据进行了大量的安全过滤,以降低预训练和微调的预训练权重产生有害内容的风险。对于微调模型,作者还同时使用强化学习与人类反馈(RLHF)和监督式微调(SFT)来引导模型避免不良行为。

7.3 确保性评估

作者还将作者的 IT 模型通过一系列 Baseline 保障评估,以了解 Gemma-3 可能造成的潜在危害。作为作者倡导开放模型,作者也认识到权重释放的不可逆性需要严格的风险评估。作者的内部安全流程据此设计,对于之前的 Gemma 模型,作者也进行了与极端风险相关的能力评估。随着作者继续开发和共享开放模型,作者将遵循这样的启发式方法:对更强大模型的彻底评估通常可以为能力较弱的模型提供足够的保障。因此,作者为 Gemma 3 优先选择了一套简化的评估流程,将深入的危险能力评估保留在特定模型可能呈现潜在更高风险的情况下(如下文所述的 CBRN 评估)。作者在开发速度和有针对性的安全测试之间取得平衡,确保作者的评估既专注又高效,同时遵守作者在前沿安全框架中提出的承诺。

基准评估

Baseline 保证通过使用大量合成对抗性用户 Query 和人工评分员来标注答案是否违反安全策略,捕捉模型违反率。总体而言,Gemma 3 在这些安全策略上的违反率显著较低。

化学生物辐射核(CBRN)知识

由于在 STEM 相关任务上的性能提升,作者使用一个封闭式、基于知识的单选题内部数据集评估了与生物、辐射和核风险相关的知识。对于化学知识的评估,作者采用了 Macknight 等人开发的基于知识的化学危害封闭式方法。作者的评估表明,Gemma 3 模型在这些领域的知识水平较低。

7.4 负责任的开源模型方法

设计安全、可靠和负责任的应用需要系统级的方法,旨在减轻与每个特定用例和环境相关的风险。作者将继续采用与模型潜在风险成比例的评估和安全缓解措施,并且只有在作者确信其带来的益处显著大于可预见风险时,才会与社区分享这些措施。

8. 讨论与结论

在本研究中,作者介绍了 Gemma 3,这是 Gemma 系列开放语言模型在文本、图像和代码领域的最新成员。在本版本中,作者专注于增加图像理解和长上下文功能,同时提升多语言能力和 STEM 相关能力。Gemma-3 规模和架构设计旨在与标准硬件兼容,并且大部分架构改进都是为了适应这种硬件,同时保持性能。

参考

[1]. Gemma 3 Technical Report

END

作者:AGI灵魂写手
来源:AGI之门

推荐阅读

欢迎大家点赞留言,更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。

推荐阅读
关注数
18938
内容数
1441
嵌入式端AI,包括AI算法在推理框架Tengine,MNN,NCNN,PaddlePaddle及相关芯片上的实现。欢迎加入微信交流群,微信号:aijishu20(备注:嵌入式)
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息