万字Gemini技术报告来啦 | Gemini这么强，GPT-4输的有点多，多模态超过人类专家 - 极术社区

报告介绍了一种新的多模态模型家族Gemini，该家族在图像、音频、视频和文本理解方面表现出显著的性能。Gemini家族包括Ultra、Pro和Nano尺寸，适用于从复杂的推理任务到设备上内存受限的使用场景。
在广泛的基准测试上的评估表明，最强大的Gemini Ultra模型在30个这些基准中的32个上取得了领先的性能 -- 特别是成为在经过广泛研究的考试基准MMLU上实现人类专家性能的第一种模型，并改进了作者检查的每个20个多模态基准的领先状态。
作者认为Gemini模型在跨模态推理和语言理解的新能力将使各种使用案例成为可能，并讨论了作者将它们负责任地部署到用户的方法。

1 Introduction

作者提出了Gemini，这是一个由Google开发的具有高度能力的多模态模型家族。作者训练Gemini模型共同处理图像、音频、视频和文本数据，目的是构建一个在各个模态上都有强大泛化能力，同时在每个领域都具有尖端理解和推理性能的模型。

Gemini 1.0是作者的第一个版本，分为三个尺寸：Ultra用于处理高度复杂的任务，Pro用于增强在规模上的性能和可部署性，Nano用于设备上的应用。每个尺寸都是专门针对不同的计算限制和应用要求进行调整的。作者在一个广泛的内部和外部基准测试套件上评估了Gemini模型在语言、编码、推理和多模态任务上的性能。

Gemini在大规模语言建模、图像理解、音频处理和视频理解等领域都取得了最先进的状态。它还依赖于序列模型、基于神经网络的深度学习的大量工作、机器学习分布式系统的工作，这些工作使得大规模训练成为可能。

作者最强大的模型Gemini Ultra在报告的32个基准测试中，取得了30个最先进的结果，包括12个流行的文本和推理基准、9个图像理解基准、6个视频理解基准和5个语音识别和语音翻译基准。Gemini Ultra是第一个在MMLU上实现人类专家性能的模型 -- 这是一个著名的基准测试，它通过一系列考试来测试知识和推理能力 -- 得分超过90%。

除了文本之外，Gemini Ultra在具有挑战性的多模态推理任务上也取得了显著的进展。例如，在最近的MMMU基准测试上，该基准测试涵盖有关需要多学科知识并进行深思熟虑的图像的多学科任务问题，Gemini Ultra取得了新的最先进得分62.4%，比以前最好的模型提高了5个百分点以上。它在视频问题回答和音频理解基准上提供了统一的性能提升。

定性评估展示了令人印象深刻的多模态推理能力，使模型能够本地方法地理解和推理输入的音频、图像和文本序列（参见图5和表13）。以图1中描绘的教育场景为例。一名教师画了一个物理问题，描述一个滑雪者在下山坡，一个学生已经解决了它。利用Gemini的多模态推理能力，模型能够理解混乱的手写，正确理解问题陈述，将问题和解决方案转换为数学排版，确定学生在解题过程中推理的具体步骤，然后给出解题的正确答案。这为教育领域开启了令人兴奋的可能性，作者相信Gemini模型的新多模态和推理能力在许多领域具有巨大的应用价值。

大型语言模型的推理能力显示了构建通用代理以解决更复杂的分步问题的潜力。AlphaCode团队构建了AlphaCode 2，这是一个新的基于Gemini的代理，它将Gemini的推理能力与搜索和工具使用相结合，以在解决竞争编程问题方面脱颖而出。AlphaCode 2在Codeforces编程竞赛平台上排名前15%，这是与其前代在 top 50% 中的状态相比的显著改进。

与此同时，作者利用Gemini Nano（一系列针对设备部署的小模型）推进了效率的边界。这些模型在设备上的任务，如总结、阅读理解、文本补全任务等方面表现出色，相对于其大小，在推理、STEM、编程、多模态和多语言任务方面也表现出令人印象的能力。

在接下来的部分中，作者首先提供了模型架构、训练基础设施和训练数据集的概述。然后，作者详细介绍了Gemini模型家族的评估，涵盖了文本、代码、图像、音频和视频等领域的知名基准和人类偏好评估 -- 包括英语表现和多语言能力。作者还讨论了作者的方法，包括影响评估、制定模型政策、评估和部署决策之前的安全缓解的过程。最后，作者讨论了Gemini的更广泛的影响、其局限性以及其潜在的应用 -- 为AI研究创新开辟新纪元。

2 Model Architecture

Gemini模型基于Transformer解码器，这些解码器通过改进架构和模型优化，实现了在大规模上的稳定训练和在Google的Tensor Processing Units上的优化推理。它们被训练以支持32k的上下文长度，并使用高效的注意力机制（例如，多 Query 注意力）。作者的第一个版本，Gemini 1.0，包括三个主要尺寸，以支持各种应用，如表1中所述。

Gemini模型被训练以适应与各种音频和视觉输入（如自然图像、图表、截图、PDF和视频）交织的文本输入，并可以产生文本和图像输出（参见图2）。Gemini模型的视觉编码受到作者自己的基础工作（如Flamingo、CoCa和PaLI）的启发，其中重要的区别在于这些模型从一开始就是多模态的，并且可以使用离散图像 Token原生地输出图像。

视频理解是通过将视频编码为在大语境窗口中的帧序列来实现的。视频帧或图像可以自然地与文本或音频作为模型输入的一部分交织在一起。模型可以处理输入分辨率的变量，以便在需要细致理解的任务上分配更多的计算资源。此外，Gemini可以直接从通用语音模型（USM）中以16kHz的音频信号进行输入。这使得模型能够在将音频直接映射到文本输入（例如，参见网站上的音频理解演示）时通常丢失的细微差别。

训练Gemini模型家族需要创新训练算法、数据集和基础设施。对于Pro模型，作者基础设施和学习算法的固有可扩展性使作者能够在几周内完成预训练，同时利用Ultra资源的一小部分。Nano模型系列利用了蒸馏和训练算法的额外先进性，以产生各种任务（如总结和阅读理解）的最佳小型语言模型，这些模型为作者的下一代设备体验提供动力。

3 Training Infrastructure

作者使用TPUv5e和TPUv4训练Gemini模型，根据其大小和配置。Gemini Ultra使用了一个大型TPUv4加速器舰队，横跨多个数据中心。这代表了作者以前旗舰模型PaLM-2所面临的基础设施挑战的显著增加。加速器数量的比例减少导致整个系统硬件故障的平均时间。作者尽量减少了计划重排和暂停的速率，但由于外部因素（如宇宙射线），在如此大的规模下，所有硬件加速器都常见故障。

TPUv4加速器被部署在“超级模块”中，每个模块包含4096个芯片，每个芯片都与一个专门的交换机连接，该交换机可以在大约10秒内动态地将4x4x4芯片立方体配置为任意3D环形拓扑。对于Gemini Ultra，作者决定保留每个超级模块中少量立方体，以便在热备份和滚动维护方面提供支持。

TPU加速器主要通过高速芯片间互连进行通信，但在Gemini Ultra规模上，作者使用Google的内部集群和跨集群网络将多个数据中心中的超级模块组合起来。Google的网络延迟和带宽足够支持常用的同步训练范式，利用超级模块内的模型并行和跨超级模块的数据并行。

Jax和Pathways的单控制器编程模型允许单个Python进程来编排整个训练运行，极大地简化了开发工作流程。XLA编译器中的GSPMD分段器将训练步骤计算分段，而MegaScale XLA编译器静态地调度适当的集体，以便它们最大限度地重叠与非常小的步骤时间变化。

在这个规模上保持高吞吐量3是不可能的，使用传统的周期权重检查点到持久性集群存储的方法。对于Gemini，作者使用了模型状态的冗余内存副本，并在任何计划外的硬件故障时，从完整的模型副本中快速恢复。与PaLM和PaLM-2相比，这提供了显著的加速，尽管使用了显著更大的训练资源。因此，最大规模训练作业的总吞吐量从85%提高到97%。

在前所未有的规模上训练通常会暴露新的和有趣的系统故障模式。在这个实例中，作者需要解决的一个问题是“沉默的数据损坏（SDC）”。尽管这些是非常罕见的，但由于Gemini的规模，作者可以预期SDC事件每周或每两周一到两周发生一次。快速检测和排除有故障的硬件需要几种新技术，这些技术利用确定性重放来隔离错误的计算，并结合空闲机器和热备份的主动SDC扫描器。作者的完全确定性基础设施使作者能够在开发过程中快速确定根本原因（包括硬件故障），这是稳定训练的关键因素之一。

4 Training Dataset

Gemini模型是在一个同时包含多模态和多语言的数据集上进行训练的。作者的预训练数据集使用来自网页文档、书籍和代码的数据，其中包括图像、音频和视频数据。

作者使用了SentencePiece Token 器，并发现对整个训练语料库的大样本进行 Token 器的训练可以提高推理词汇，从而提高模型性能。例如，作者发现Gemini模型可以有效地 Token 非拉丁字符，这反过来可以提高模型质量，以及训练和推理速度。

训练最大模型的 Token 数是根据Hoffmann等人（2022年）的方法确定的。较小的模型进行了更多的 Token 训练，以提高给定推理预算的性能，类似于Touvron等人（2023年）所提倡的方法。

作者对所有数据集应用质量过滤，包括启发式规则和基于模型的分类器。作者还进行安全过滤，以删除有害内容。作者从训练语料库中过滤作者的评估集。最终的数据混合和权重是通过在较小模型上的ablation确定的。作者在训练过程中阶段训练，以在训练过程中改变数据混合组成 - 在训练后期增加与领域相关的数据的权重。作者发现数据质量对高度表现模型至关重要，并认为在找到预训练的最佳数据集分布方面仍然存在许多有趣的问题。

5 Evaluation

Gemini模型是原生的多模态的，因为它们是在文本、图像、音频和视频方面共同训练的。一个开放的问题是，这种跨模态的联合训练是否可以产生一个在每个领域都具有强大能力的模型 - 即使与专门针对单一领域的模型和方法相比也是如此。作者发现这是真的：Gemini在文本、图像、音频和视频基准测试方面都设立了新的最先进水平。

Text

5.1.1 Academic Benchmarks

作者将Gemini Pro和Ultra与一系列文本为基础的学术基准进行比较，这些基准涵盖了推理、阅读理解、STEM和编程等领域。作者将在表2中报告这些结果。总体而言，作者发现Gemini Pro的性能超过了推理优化的模型（如GPT-3.5），并与可用模型中的许多最强大模型相媲美，而Gemini Ultra则超过了所有现有模型。在本节中，作者将探讨这些发现。

在MMLU上，Gemini Ultra可以超越所有现有模型，达到90.04%的准确率。MMLU是一个全面的考试基准，它衡量了57个主题的知识。该基准的作者认为，人类专家表现被评估为89.8%，而Gemini Ultra是第一个超过这一阈值，先前的最先进结果为86.4%。实现高性能需要多个领域的专业知识（例如法律、生物学、历史等），以及阅读理解和推理。作者发现Gemini Ultra在与思路链提示方法结合使用时，实现了最高准确率。该方法考虑了模型的不确定性。该模型为k个样本（例如8或32）生成思路链，例如8或32。如果存在共识，它将选择这个答案，否则它将根据最大似然选择无思路链的贪心样本。读者请参阅附录，了解这种方法与仅使用思路链提示或仅使用贪心取样的详细比较。

在数学中，一个常用的领域来衡量模型的分析能力，Gemini Ultra在基础考试和竞争级别的题目集上都表现出色。对于小学数学基准，GSM8K，作者发现Gemini Ultra通过思路链提示和自我一致性达到94.4%的准确率，而使用相同的提示技术，先前的最佳准确率为92%。类似的有利趋势也观察到，来自中学和高中数学竞赛的增加难度数学问题（MATH基准），其中Gemini Ultra模型在4-shot提示下，击败了所有竞争对手模型，达到53.2%的准确率。该模型还超越了美国数学竞赛（2022年和2023年）的更难任务，达到150道题的32.2%的正确率，而GPT-4的准确率为30%。

Gemini Ultra在编程方面也表现出色，是当前LLM的流行用例之一。作者在许多传统和内部基准上评估模型，并将其性能作为更复杂的推理系统的一部分进行测量，例如AlphaCode 2（见第5.1.7节复杂推理系统）。例如，在HumanEval，一个标准代码补全基准上，将函数描述映射到Python实现，指令调优的Gemini Ultra正确实现了74.4%的问题。在一个新的用于python代码生成任务的独立评估基准Natural2Code上，作者确保没有网络泄漏，Gemini Ultra实现了最高74.9%的分数。

在这些基准测试上的评估具有挑战性，可能会受到数据污染的影响。作者在训练后进行了广泛的泄漏数据分析，以确保报告的结果尽可能科学，但仍发现了一些 minor 问题，并决定不在例如LAMBADA等基准上报告结果。作为评估过程的一部分，在流行的基准HellaSwag上，作者发现，在特定的网站提取（对应于HellaSwag训练集，该集合并未包括在Gemini预训练集中）上额外的一百个微调步骤，对应于HellaSwag训练集（这些步骤并未包括在Gemini预训练集中），可以提高Gemini Pro的验证准确率到89.6%，Gemini Ultra的准确率到96.0%，当使用1-shot提示进行测量（作者通过API测量GPT-4时，其1-shot提示结果为92.3%）。这表明基准结果对预训练数据集的组成非常敏感。因此，作者选择在10-shot评估设置中报告HellaSwag去污染的结果。作者认为需要更强大和细微的标准化评估基准，其中没有泄漏数据。因此，作者在最近发布的几个新的持仓评估数据集中评估Gemini模型，例如WMT23和Math-AMC 2022-2023问题，或从非web源内部生成的，例如Natural2Code。请参阅附录，以获取作者的评估基准的完整列表。

尽管如此，这些基准测试上的模型性能可以给作者一个指示，即模型在哪些方面具有能力，并可能在实际任务上产生影响。例如，Gemini Ultra在推理和STEM方面的出色表现，为教育领域的LLM带来了进步。解决复杂数学和科学概念的能力，为个性化学习和智能辅导系统开辟了令人兴奋的可能性。

5.1.2 Trends in Capabilities

作者通过评估Gemini模型家族在6种不同能力下的50多个基准测试来研究其能力的趋势，这些能力包括：涵盖开/闭书检索和问答任务的“事实性”；涵盖长篇摘要、检索和问答任务的“长上下文”；包括数学问题解决、定理证明和科学考试的“数学/科学”；需要算术、科学和常识推理的“推理”任务；以及包括翻译、摘要和多个语言的“多语言”任务。请参阅附录，以了解每个能力包括的具体任务列表。

作者观察到，随着模型大小的增加，图3中的质量提升呈现出一致的趋势，特别是在推理、数学/科学、总结和长上下文中。Gemini Ultra是所有六个能力的最佳模型。Gemini Pro，即Gemini家族中第二大模型，也非常有竞争力，同时比Gemini Ultra更高效地服务于用户。

5.1.3 Nano

将AI更贴近用户，作者讨论了专门为设备部署而设计的Gemini Nano 1和Nano 2模型。这些模型在概括和阅读理解任务上表现出色，通过每个任务的微调进行优化。图3显示了这些预训练模型与更大规模的Gemini Pro模型相比的性能，而表3更深入地探讨了特定的事实、编程、数学/科学和推理任务。

Nano-1和Nano-2模型的大小分别为1.8B和3.25B参数。尽管它们的尺寸较小，但在事实性，即检索相关任务上表现出非常强大的性能，同时在推理、STEM、编程、多模态和多语言任务上也有显著的性能。通过新的能力可供更广泛的平台和设备使用，Gemini模型使每个人都能获得可访问性。

5.1.4 Multilinguality

为了评估Gemini模型的多语言能力，作者使用了一组需要多语言理解、跨语言泛化和多种语言文本生成的任务。这些任务包括机器翻译基准（WMT 23，用于高/中/低资源翻译；Flores，NTREX，用于低/非常低资源语言）、总结基准（XLSum，Wikilingua）、以及常见基准的翻译版本（MGSM：专业翻译成11种语言）。

机器翻译是机器学习的典型基准测试之一，具有丰富的历史。作者在WMT 23翻译基准的所有语言对上，使用指令调优的Gemini Ultra进行了几轮的评估，这是一个少样本设置。总体而言，作者发现Gemini Ultra（以及其他Gemini模型）在将英语翻译成任何其他语言方面表现出色，并在翻译非英语语言方面超过了基于LLM的翻译方法，无论是在高资源、中资源还是低资源语言上。在WMT 23的出外翻译任务中，Gemini Ultra获得了最高的LLM翻译质量，平均BLEURT得分为74.8，而GPT-4的得分为73.6，PaLM 2的得分为72.2。当对所有语言对和方向进行平均时，作者在这个基准上看到类似的结果，Gemini Ultra 74.4，GPT-4 73.8和PaLM 2-L 72.7平均BLEURT得分。

除了上述语言和翻译任务外，作者还评估了Gemini Ultra在非常低资源语言上的表现。这些语言是从以下语言集合的尾部中抽样得到的：Flores-200（塔马齐特语和坎努尔语），NTREX（北尼德贝勒）和内部基准（奇楚亚语）。对于这些语言，无论是从英语到英语还是从其他语言到英语，Gemini Ultra在1-shot设置下平均实现了chrF得分27.0，而排名第二的PaLM 2-L实现了25.3。

除了翻译之外，作者还评估了Gemini在各种语言下执行具有挑战性的任务的能力。作者特别调查了数学基准MGSM，它是一个翻译版本的数学基准GSM8K。作者发现Gemini Ultra在8-shot设置下达到了79.0%的准确性，超过了PaLM 2-L的74.7%平均分数。作者还对Gemini在多语言总结基准（如XLSum和WikiLingua）上的表现进行了基准测试。在XLSum中，Gemini Ultra达到了17.6的ROUGE分数，而PaLM 2的15.4。对于WikiLingua，Gemini Ultra（5-shot）在BLEURT分数上落后于PaLM 2（3-shot）。请参阅表5以查看全部结果。总的来说，多种语言基准测试表明，Gemini家族模型具有广泛的语言覆盖范围，可以到达使用低资源语言的地方和地区。

Long Context

Gemini模型使用32,768个 Token 长度进行训练，并发现它们有效地利用了上下文长度。作者首先通过运行一个合成检索测试来验证这一点：作者在上下文中放置键值对，然后添加填充文本，并询问与特定键相关联的值。作者发现，当在上下文长度内 Query Ultra模型时，其准确率达到98%。

作者进一步通过绘制图4中一个隔离文档集的负对数似然度（NLL）与 Token 索引之间的关系来探究这一问题。作者发现，NLL随着序列位置上升到32K上下文长度时而降低。Gemini模型的上下文长度较长，可以实现新的用例，如文档检索和视频理解，这在第5.2.2节中讨论。

5.1.6 Human Preference Evaluations

人类对模型输出的偏好是补充自动化评估质量的重要指示。作者在面对面的盲目评估中评估了Gemini模型，其中人类评估者判断两个模型对相同提示的响应。作者在第6.4.2节中讨论的技术进行了指令调优。指令调优的模型在各种特定能力上进行评估，如遵循指令、创意写作、多模态理解、长上下文理解和安全性。这些能力涵盖了一系列受当前用户需求和科学研究启发的使用案例和潜在的未来使用案例。

指令调优的Gemini Pro模型在各种能力上都有显著的改进，包括相对于PaLM 2模型API的偏好度、创意写作、遵循指令和安全响应等，如表6所示。这些改进直接转化为更有益和更安全的用户体验。

5.1.7 Complex Reasoning Systems

Gemini也可以与搜索和工具使用等技术相结合，创建强大的推理系统，可以解决更复杂的分步问题。一个例子是AlphaCode 2，这是一个新的最先进的智能代理，擅长解决竞争编程问题。AlphaCode 2使用了一种专门针对竞争编程数据的Gemini Pro版本，在可能程序空间上进行大规模搜索。然后进行定制的过滤、聚类和重排机制。Gemini Pro既被调优为生成 Proposal 解决方案候选人的编码模型，也被调优为利用奖励模型识别和提取最有前途的代码候选。

AlphaCode 2在Codeforces上进行了评估，Codeforces与AlphaCode是相同的平台，总共参加了12个来自division 1和2的竞赛，总共77个问题。AlphaCode 2解决了这些竞赛问题的43%，比先前的记录-breaking AlphaCode系统提高了1.7倍，AlphaCode解决了25%的问题。将此映射到竞赛排名中，AlphaCode 2基于Gemini Pro的系统平均位于第85百分位，即其表现优于85%的参赛者。这相对于AlphaCode的50%的参赛者表现有了显著的提高。

结合搜索和推理机制的强大预训练模型的组合是朝着更通用代理迈出的激动人心的方向；另一个关键的配料是跨多种模态的深入理解，作者将在下一节中讨论。

Multimodal

Gemini模型是原生的多模态的。这些模型表现出将不同模态的能力（例如从表格、图表或图像中提取信息和空间布局）与语言模型的强大推理能力（例如在数学和编程方面处于最先进水平）无缝结合的独特能力，如图5和12所示的示例。这些模型在识别输入的细微细节方面也表现出强大的性能，在空间和时间上汇总上下文，并在时间相关的视频帧和/或音频输入上应用这些能力。

下面的部分提供了对模型在不同模态（图像、视频和音频）下的更详细评估，以及模型在图像生成方面的能力以及在不同模态间组合信息的能力的定性示例。

5.2.1 Image Understanding

作者在四个不同的能力上评估了模型：使用图像描述或问答任务（例如VQAv2）进行高级目标识别；使用需要模型识别低级细节的任务（例如TextVQA和DocVQA）进行细粒度转录；使用需要模型通过ChartQA和InfographicVQA任务理解输入布局的空间理解进行图表理解；以及使用需要模型进行Ai2D，MathVista和MMLU等任务进行多模态推理。对于零样本问答评估，模型被指示提供与特定基准相符的短答案，所有数字均通过贪心采样获得，无需使用任何外部OCR工具。

作者发现Gemini Ultra在Table 7中的各种图像理解基准上都处于最先进水平。它在一系列多样化的任务上表现出强大的性能，例如在自然图像和扫描文档上回答问题，以及理解图表、科学图解等。与公开报道的其他模型（特别是GPT-4V）相比，Gemini在零样本评估中明显优于它们。此外，它还超过了大多数特定于该基准训练集上进行微调的现有模型。Gemini模型的能力在MathVista（+3.1%）和InfographicVQA（+5.2%）等学术基准上的最先进水平上带来了显著的改进。

MMMU是一个最近发布的评估基准，它由6个学科中关于图像的多个问题组成，每个学科需要大学级别的知识才能解答这些问题。Gemini Ultra在这项基准测试上取得了最佳成绩，比以前的最佳结果提高了5个百分点以上，并在6个学科中的5个学科上超过了先前的最佳结果（表8），从而展示了其跨模态推理能力。

Gemini模型还可以同时跨模态和多种全球语言操作，无论是图像理解任务（例如包含冰岛语的图像）还是生成任务（例如为各种语言生成图像描述）。作者在XM-3600（Crossmodal-3600）基准的选定子集语言上的生成图像描述的4-shot设置中评估了Gemini模型的性能，使用Flamingo评估协议，所有模型都没有进行微调。如表9所示，Gemini模型相对于现有的最佳模型Google PaLI-X取得了显著的改进。

图5的定性评估示例说明了Gemini Ultra的多模态推理能力。模型需要解决的任务是生成matplotlib代码，该代码将用户提供的子图重新排列。模型输出显示，它成功地结合了用户图的理解、生成所需代码的推理、遵循用户指令将子图放置在所需位置以及关于输出图的抽象推理能力来完成这个任务。这突显了Gemini Ultra的原生多模态性，并暗示了其跨图像和文本交织序列的更复杂的推理能力。读者可以参阅附录获得更多的定性示例。

5.2.2 Video Understanding

理解视频输入是实现有用通用代理的一个重要步骤。作者在几个已建立的基准测试上测量了视频理解能力，这些任务是从训练中排除的。这些任务衡量模型是否能够理解并推理出一个与时间相关的帧序列。对于每个视频任务，作者从每个视频片段中采样16个等间隔的帧，并将其输入到Gemini模型中。对于YouTube视频数据集（除NextQA和Perception测试外），作者在2023年11月仍然公开可用的视频中评估了Gemini模型。

Gemini Ultra在各种少样本视频字幕任务和零样本视频问答任务上达到了最先进的结果，如表10所示。这表明它具有在多个帧之间进行强烈的时间推理能力。附录中的图21提供了一个定性示例，说明了理解一个足球运动员的击球力学视频并推理出运动员可以通过改进他们的比赛来提高他们的游戏。

5.2.3 Image Generation

Gemini能够原生态地输出图像，不需要依赖中间的自然语言描述来限制模型表达图像的能力。这独特地使模型能够在少样本设置下，通过图像和文本的交织序列使用提示来生成图像。例如，用户可能提示模型为博客文章或网站设计图像和文本的建议（参见附录中的图10）。

图6展示了在1-shot设置下的图像生成示例。Gemini Ultra模型被提示一个交叉图像和文本的示例，其中用户提供了两种颜色（蓝色和黄色），并提供了创建一个可爱的蓝色猫或蓝色狗的建议。然后，模型被要求使用这两种新颜色（粉红色和绿色）生成两个想法。模型成功地生成了一个交叉图像和文本序列，其中包含建议创建一个可爱的粉红色鳄梨或一个粉红色兔子。

图6 图像生成。Gemini可以输出与文本交叉的多个图像，给定一个包含图像和文本的提示。在左图的示例中，Gemini Ultra在1-shot设置下被提示一个用户示例，即在给定两种颜色（蓝色和黄色）时，生成猫和狗的建议。然后，模型被提示使用两种新颜色（粉红色和绿色）生成创意建议，并生成了一些创意建议的图像，如在左图所示的可爱粉红色鳄梨或绿色兔子。

5.2.4 Audio Understanding

作者在各种公共基准测试上评估了Gemini Nano-1和Gemini Pro模型，并与通用语音模型（USM）进行了比较和Whisper（大型v2或大型v3）（如上所述）。这些基准测试包括自动语音识别（ASR）任务，例如FLEURS，VoxPopuli，Multi-lingual Librispeech，以及CoVoST 2（将不同语言翻译成英语）。作者还报告了一个内部基准YouTube测试集。ASR任务报告一个单词错误率（WER）指标，其中较低的数字更好。翻译任务报告双语评估助教（BLEU）分数，其中较高的数字更好。FLEURS在具有语言重叠的62种语言上进行报告。四种分段语言（汉语、日语、韩语和泰语）报告字符错误率（CER），而不是WER，类似于Whisper。

表11表明，作者的Gemini Pro模型在所有ASR和AST任务上显著优于USM和Whisper模型，无论是针对英语还是多语言测试集。请注意，与USM和Whisper相比，在FLEURS上的大幅提高，因为作者的模型也与FLEURS训练数据集一起进行训练。然而，在没有任何FLEURS数据集的情况下训练相同的模型会导致WER为15.8，这仍然优于Whisper。Gemini Nano-1模型在所有数据集上除FLEURS外，也分别优于USM和Whisper。请注意，作者尚未在音频上评估Gemini Ultra，尽管作者预计随着模型规模的增加，性能将会有所提高。

表12展示了与USM和Gemini Pro的进一步错误分析。作者发现，Gemini Pro生成的回答更易理解，尤其是在罕见词汇和专有名词上。

5.2.5 Modality Combination

多模态演示通常包括与单一模态（通常是图像）交织的文本。作者展示了处理音频和图像序列的原生能力。

考虑一个烹饪场景，关于制作煎蛋。作者向模型提供一个序列的音频和图像，然后与模型进行逐步交互，表13提供图片并询问关于制作煎蛋的下一步操作。作者注意到模型响应的文本相当准确，表明模型能够处理细图像细节，以评估煎蛋何时完全煮熟。请参阅网站上的演示。

6 Responsible Deployment

在Gemini模型的开发过程中，作者遵循负责任部署的结构性方法，以识别、测量和管理作者模型可能带来的可预见下游社会影响，这与Google之前AI技术的发布相符。在整个项目生命周期中，作者遵循以下结构：本节概述了作者的总体方法及在此过程中获得的关键发现。作者将在即将到来的报告中分享更多细节。

Impact Assessment

作者开发了模型影响评估，以识别、评估和记录与开发高级Gemini模型相关的关键下游社会利益和危害。这些评估是基于语言模型风险的前期学术文献，来自行业内的类似前练习的发现，与内部和外部专家的持续接触，以及无结构化的尝试发现新的模型漏洞。重点领域包括：事实性、儿童安全、有害内容、网络安全、生物风险、表示和包容性。这些评估与模型开发同步更新。

影响评估用于指导缓解和产品交付努力，并指导部署决策。Gemini的影响评估跨越Gemini模型的不同能力，评估这些能力与Google的AI原则可能带来的后果。

Model Policy

在理解已知和预期影响的基础上，作者制定了一套“模型政策”来引导模型开发和评估。模型政策定义作为标准化标准和优先级方案，用于指导负责任的模型开发，并作为发射准备状态的指示。Gemini模型政策涵盖了多个领域，包括：儿童安全、仇恨言论、事实准确性、公平性和包容性、以及骚扰。

Evaluations

为了评估Gemini模型与影响评估中确定的政策和关键风险领域，作者制定了一套跨模型开发生命周期的评估。

开发评估是为了在整个Gemini模型训练和微调过程中进行“爬坡”的目的。这些评估由Gemini团队设计，或者是与外部学术基准的评估。评估考虑了诸如遵从性（指令遵循和创造力）、安全性和事实准确性等问题。请参阅第5.1.6节和下一节关于缓解措施的样本结果。

确保评估是为了治理和审查的目的，通常在关键里程碑或训练结束后由模型开发团队之外的一组人进行。确保评估是按模态和数据集标准化的，并且数据集严格排除。只有高级见解被反馈回训练过程，以协助缓解措施。确保评估包括对Gemini政策的测试，并包括持续测试危险能力，如潜在的生物危险、说服和网络安全。

外部评估由Google之外的合作伙伴进行，以识别盲区。外部团队通过结构化评估和无结构化红队演练来测试作者的模型，涵盖一系列问题，包括White House承诺的领域（7），并定期向Google DeepMind团队报告结果。

除了这套外部评估外，作者还有一支专门的内部团队在Gemini政策和安全等领域对作者进行持续的红队演练。这些活动包括涉及复杂对抗攻击的不太结构化的过程，以识别新的漏洞。然后，作者可以利用发现的潜在弱点来降低风险并改进内部评估方法。作者致力于持续的模型透明，并计划在将来分享作者评估套件中来自其他方面的更多结果。

Mitigations

应对措施是根据上述评估、政策和评估方法的成果开发的。评估和缓解措施以迭代方式使用，在采取缓解措施后重新运行评估。作者将在以下方面讨论减轻模型危害的努力：数据、指令调优和事实准确性。

Data

在训练之前，作者采取各种步骤来减轻数据策展和数据收集阶段的潜在下游危害。正如在“训练数据”部分中所讨论的，作者对训练数据进行高风险内容的过滤，并确保所有训练数据质量足够高。除了过滤之外，作者还采取步骤确保所有收集到的数据符合Google DeepMind在数据增强方面的最佳实践，这是基于AI合作组织“负责任的增强数据服务采购”10所开发的。这包括确保所有数据增强工作者获得至少当地的最低生活工资。

6.4.2 Instruction Tuning

指令调优涵盖有监督的微调（SFT）和通过人类反馈的强化学习（RLHF），使用奖励模型。作者在文本和多模态设置中应用指令调优。指令调优的食谱精心设计，以平衡有益性的增加与与安全性和错觉相关的模型危害的减少（Bai等人，2022年）。

"质量"数据的策展对于SFT、奖励模型训练和RLHF至关重要。数据混合比例在小模型中进行拆解，以平衡有益性（如指令遵循，创造力）和减少模型危害的指标。这些结果对较大模型也很适用。作者还观察到，对于较大模型，数据质量比数量更重要，尤其是对于奖励模型训练。同样，对于奖励模型训练，作者认为平衡数据集与模型更喜欢说“我无法帮助您”的例子（出于安全原因）和模型输出有益响应的例子至关重要。作者使用多目标优化，以权重和为目标，训练一个多头奖励模型。

作者进一步阐述了减轻有害文本生成的风险的方法。作者列出了大约20种危害类型（例如仇恨言论，提供医疗建议，建议危险行为等），涵盖了各种使用案例。作者在这类危害的类别中生成了一个潜在危害诱导 Query 的数据集，这些 Query 是由政策专家和ML工程师手动生成的，或者通过提示具有主题关键字的强大语言模型来生成。

在面临有害 Query 的情况下，作者通过与模型进行对照评估的方式，分析模型响应，并平衡模型输出响应的有益性和无害性。从作者识别出的风险区域中，作者创建额外的有监督微调数据来演示理想的响应。为了在规模上生成这样的响应，作者非常依赖一个受宪法AI启发的定制数据生成食谱，其中作者将Google的内容政策语言的变体作为“宪法”，并利用语言模型的强大零样本推理能力来修订响应并选择多个响应候选项。作者已经发现这种食谱是有效的 - 例如，在Gemini Pro中，这个整体食谱能够减轻作者识别出的大多数文本危害情况，而没有任何明显的响应有益性降低。

6.4.3 Factuality

重要的是，作者的模型应该在各种场景下生成事实性的响应，并减少幻觉的频率。作者专注于指令调优努力，针对三个关键的期望行为，这些行为反映了现实世界场景：

归因：如果指示模型生成应完全归因于提示上下文的响应，Gemini应该生成对上下文最忠诚的响应。这包括对用户提供的来源进行总结，根据问题和类似Menick等人（2022年）的段落生成详细的引用，从像Mihaylov等人（2018年）这样的长篇来源中回答问题，以及将给定的来源转换为所需的输出（例如从会议记录的一部分中生成一封电子邮件）。

闭书回答生成：如果提供了一个不含任何给定来源的事实寻求提示，Gemini不应编造错误的信息（参见Roberts等人（2020年）第2节对定义的解释）。这些提示可以包括信息寻求提示（例如“谁是中国总理？”）到部分创造性提示，这些提示可能需要事实信息（例如“为采用可再生能源撰写一篇500字演讲”）。

hedging（含糊其辞）：如果提示包含无法回答的输入，Gemini不应编造信息。相反，它应该承认无法提供响应，采用含糊其辞的方式。这包括输入提示包含假定问题，输入提示指示模型进行开放式问答，但答案无法从给定的上下文中推导出来等情况。

作者通过策展有针对性的有监督微调数据集和执行强化学习，从Gemini模型中引出这些期望行为。请注意，这里产生的结果不包括赋予Gemini工具或检索，这些工具或检索据称可以提高事实性。作者将在各自的挑战集下提供三个关键结果。

事实性集合：一个包含事实寻求提示（主要是闭书）的评估集。该评估通过人工标注者手动检查每个响应；作者报告人工标注者判断的准确性百分比。

归因集合：一个包含需要提示中来源进行归因的多种提示的评估集。该评估通过人工标注者手动检查每个响应中的提示来源归因；报告的指标是AIS。

含糊其辞集合：一个自动评估设置，用于测量Gemini模型是否准确地进行含糊其辞。

image-20231207152145662

作者在表14中将Gemini Pro与一个没有进行任何事实性聚焦适应的指令调优Gemini Pro模型进行了比较。作者观察到，在事实性集合中，不准确率减半，归因集合的准确性提高了50%，而在提供的含糊其辞集合任务中，模型成功地提高了70%（从0%提高到70%）。

Deployment

在完成审查后，为每个已批准的Gemini模型创建了模型卡片，用于结构化和一致的内部文档，记录关键性能和责任指标，以及随着时间的推移适当的外部沟通这些指标。

Responsible Governance

在整个负责任开发过程中，作者与Google DeepMind的伦理和安全委员会（RSC）进行伦理和安全审查，该委员会是一个跨学科团队，评估Google DeepMind的项目、论文和合作是否符合Google的AI原则。RSC为影响评估、政策、评估和缓解措施提供输入和反馈。在Gemini项目中，RSC确定了关键政策领域的特定评估目标（例如儿童安全）。

7 Discussion and Conclusion

作者提出了Gemini，这是一个新的模型家族，在文本、代码、图像、音频和视频方面推进了多模态模型的能力。这份技术报告在各种广泛研究的基准测试上评估了Gemini的能力，作者最强大的模型Gemini Ultra在各方面都取得了显著的进步。在自然语言领域，从大规模的数据和模型训练中仔细取得的性能提升继续带来质量改进，在几个基准测试中设置了新的最先进水平。特别是，Gemini Ultra在考试基准MMLU上超过了人类专家的水平，得分90.0%，自2020年首次发布以来，这是语言模型的一个默认的进步衡量标准。在多模态领域，Gemini Ultra在大多数图像理解、视频理解和音频理解基准测试上设置了新的最先进水平，而无需针对特定任务进行修改或调整。特别是，Gemini Ultra在最近的一个多模态推理基准测试MMMU上的最先进性能表明了其多模态推理能力的存在。

在基准测试上的最先进结果之外，作者最兴奋的是Gemini模型为作者带来的新用例。Gemini模型的新能力，如解析复杂的图像（如图表或信息图表），在图像、音频和文本的交错序列上进行推理，以及生成交错文本和图像作为响应，都为各种新应用打开了大门。如报告中的图表和附录所示，Gemini可以在教育、日常问题解决、多语言交流、信息总结、提取和创造力等领域启用新的方法。作者预计，这些模型的用户将发现作者自己在调查中只触及表面的新益处。

尽管它们具有令人印象的能力，但作者应注意到LLM使用的局限性。需要持续进行研究和开发以解决由LLM生成的“幻觉”，以确保模型输出的可靠性更高、更可验证。即使他们在考试基准上实现了惊人的表现，但LLM仍在与需要高级推理能力（如因果理解、逻辑演绎和反事实推理）的任务上存在困难。这强调了需要更具有挑战性和坚固的评估，以衡量它们的真正理解，因为当前最先进的LLM已经饱和了许多基准。

尽管他们具有令人印象的能力，但作者应注意到LLM使用的局限性。需要持续进行研究和开发以解决由LLM生成的“幻觉”，以确保模型输出的可靠性更高、更可验证。LLM也

8 Appendix

Chain-of-Thought Comparisons on MMLU benchmark

在本节中，作者将对比几种在MMLU上的思路链方法，并讨论它们的结果。作者提出了一种新的方法，其中模型产生k个思路链样本，如果模型对结果有信心，则选择多数票，否则将遵循贪心样本选择。这些阈值根据每个模型的验证分割性能进行优化。这种方法被称为“不确定性引导的思路链”。这种方法背后的直觉是，思路链样本在与模型明显不一致的情况下可能会降低性能。

作者将这种方法在Gemini Ultra和GPT-4上的收益进行比较，如图7所示。作者发现，与仅使用思路链样本相比，Gemini Ultra从这种方法中获得的收益更多。GPT-4的性能从使用贪心采样的84.2%提高到使用不确定性引导的思路链方法（32个样本）的87.3%，但这些性能已经在使用32个思路链样本时实现。相比之下，Gemini Ultra从使用贪心采样的84.0%提高到使用不确定性引导的思路链方法（32个样本）的90.0%，而仅使用32个思路链样本时，性能略有提高至85.0%。

Capabilities and Benchmarking Tasks

作者使用超过50个基准测试作为整体框架来评估Gemini模型在文本、图像、音频和视频方面的能力。作者为文本理解和生成六个不同能力的50多个基准测试任务提供了详细的列表。这些能力包括：事实性、长上下文、数学/科学、推理、总结和多语言。作者还列出了用于图像理解、视频理解和音频理解任务的基准测试。

事实性：作者使用了5个基准测试：BoolQ，NaturalQuestions-Closed，NaturalQuestions-Retrieved，RealtimeQA，TydiQA-noContext和TydiQA-goldP。

长上下文：作者使用了6个基准测试：NarrativeQA，Scrolls-Qasper，Scrolls-Quality，XLsum（En），XLSum（非英语语言），以及其他一个内部基准。

数学/科学：作者使用了8个基准测试：GSM8k（带CoT），Hendryck的MATH pass@1，MMLU，Math-StackExchange，Math-AMC 2022-2023问题，以及三个其他内部基准。

推理：作者使用了7个基准测试：BigBench Hard（带CoT），CLRS，Proof Writer，Reasoning-Fermi问题，Lambada，HellaSwag，DROP。

总结：作者使用了5个基准测试：XL Sum（英语），XL Sum（非英语语言），WikiLingua（非英语语言），WikiLingua（英语），XSum。

多语言：作者使用了10个基准测试：XLSum（非英语语言），WMT22，WMT23，FRMT，WikiLingua（非英语语言），TydiQA（无上下文），TydiQA（GoldP），MGSM，翻译后的MMLU，NTREX，FLORES-200。

图像和视频：作者使用了9个基准测试来评估图像理解能力：MMMU，TextVQA，DocVQA，ChartQA，InfographicVQA，MathVista，AI2D，VQAv2，XM3600用于多语言图像理解，以及6个基准测试来评估视频理解能力：VATEX用于两种不同语言的描述，YouCook2，NextQA，ActivityNet-QA，以及Perception Test MCQA。

音频：作者使用了5个基准测试，包括自动语音识别（ASR）任务，如FLEURS，VoxPopuli，Multi-lingual Librispeech，以及自动语音翻译任务，如CoVoST 2。