Mobile-MMLU：专注真实端侧场景下大模型性能厮杀的 Benchmark 数据集

大型语言模型（LLMs）的快速发展增加了在移动设备上部署它们以实现设备端人工智能应用的兴趣。移动用户与桌面用户在与 LLMs 交互时存在差异，形成了独特的期望和数据偏差。
当前的基准数据集主要针对服务器和桌面环境，缺乏专门针对移动环境的广泛数据集。此外，移动设备在存储和计算资源方面面临严格限制，限制了模型的大小和能力，因此需要优化效率。
为解决这些挑战，我们引入了 Mobile-MMLU：
针对移动智能的大型基准数据集。它包含 16,186 个问题，涵盖 80 个与移动相关的领域，旨在评估 LLMs 在现实移动场景中的性能。
具有挑战性的子集 Mobile-MMLU-Pro 提供了与 MMLU-Pro 规模相似但难度显著更高的高级评估。
这两个基准都使用与移动交互顺序无关的多选题，例如食谱建议、旅行规划和日常任务等。

数据集强调了移动设备的关键指标，如推理延迟、能耗、内存使用和响应质量，提供了在移动限制下模型性能的全面见解。此外，它优先考虑隐私和适应性，评估模型在设备端处理、维护用户隐私和适应个性化使用模式方面的能力。Mobile-MMLU 家族为开发和比较针对移动设备优化的 LLMs 提供了标准化框架，推动了移动计算环境中生产力和决策的改进。

下表是在具体设备 Apple iPhone 14 上的性能数据。

标题：Mobile-MMLU：A Mobile Intelligence Language Understanding Benchmark
组织：VILA Lab, MBZUAI、Princeton University、Apple
代码和数据：https://github.com/VILA-Lab/M...
项目地址：https://vila-lab.github.io/Mo...

1. 引言

在过去十年中，移动设备的快速普及改变了人们获取信息和与技术交互的方式。随着移动硬件变得越来越强大和无处不在，对支持实时语言理解的设备端人工智能解决方案的需求不断增长。从虚拟助手到语言翻译应用，移动语言智能正在以前所未有的规模重塑沟通、学习和生产力。尽管取得了这些进展，但仍迫切需要能够严格评估专门为移动环境设计的语言理解模型的基准。像苹果这样的科技公司最近推出了 Apple Intelligence 等倡议，但它们使用的评估数据集或基准仍主要针对桌面和服务器端用例，这在评估和优化设备端应用的 LLMs 方面造成了差距。

通常，这些大型桌面或基于云的系统级语言理解基准无法捕捉移动设备所需的独特约束和性能目标。诸如有限内存、严格的功耗预算和实时推理需求等问题意味着模型在云端的表现可能无法很好地转化为你口袋中的手机。此外，移动设备表现出多样的操作条件、不同的硬件能力、网络连接和传感器输入，这使得直接应用传统基准变得复杂。

为解决这些挑战，我们引入了 Mobile-MMLU，一个全面的基准，用于评估 LLMs 在移动特定环境中的性能。Mobile-MMLU 涵盖了 80 个与移动相关的不同领域，包含超过 16,000 个精心策划的问题，以反映现实世界的移动使用模式。通过专注于与典型移动交互一致的任务，Mobile-MMLU 确保模型在对移动用户最重要的场景中接受测试。此外，我们的基准提供了一个标准化框架，用于测量移动特定和与顺序无关的性能指标，使开发人员能够针对移动计算的独特约束优化 LLMs。

我们基准的顺序无关性通过两个关键方面体现：

正确和错误选项的长度保持一致，有时错误选项比正确答案更长，以防止偏差和小规模 LLMs 在选择上的偏好；
结果与随机顺序排列方案获得的准确度一致。

下图是我们 benchmark 对端侧大模型自身性能的比较：

2. 相关工作

在移动和边缘设备上评估和部署大型语言模型（LLMs）已成为一个关键的研究方向，这一方向由对增强隐私、减少延迟和个性化用户体验的需求驱动。然而，很少有基准是专门为移动场景和移动 LLMs 开发的。

MMLU 评估了 LLMs 在不同领域的功能，包括 STEM、人文学科、社会科学。MMLU-Pro 通过引入以推理为重点的问题并将选择项从四个扩展到十个。包括 HELM、GLUE、SuperGLUE、BigBench、HellaSwag、GPQA 和 ARC 在内的基准进一步有助于评估 LLMs 的泛化和推理能力。像 OpenCompass、Chatbot Arena 和 Open-LLMLeaderboard 这样的平台已经标准化了评估方法，并实现了模型比较的透明化。

然而，这些基准主要设计用于评估桌面环境中语言模型的一般理解能力，忽略了移动平台的独特约束和用例。另一方面，大多数针对移动设备的特定基准主要关注技术性能指标，忽略了移动交互的独特性质。虽然这些基准在评估移动 LLM 部署的具体方面取得了显著进展，但仍需要一个统一的基准，全面评估 LLMs 在移动特定场景中的技术性能和实际效用。最近关于移动信息需求的研究表明，移动用户与桌面用户在交互模式和需求上存在显著差异。我们的工作，即 Mobile-MMLU 家族，通过提供一个全面的评估框架来解决这一差距，该框架考虑了移动平台的独特约束和移动用户交互的独特模式，通过在基准中纳入日常生活场景的不同方面。

3. Mobile-MMLU 基准

3.1 概述

我们的 Mobile-MMLU 基准系列旨在评估语言模型在移动特定情境下的表现，包含两个专业版本：完整 Mobile-MMLU（16,186 个问题）和 Mobile-MMLU-Pro（9,497 个问题）。

如图 2 所示，该系列基准涵盖急救、旅行规划等 80 个实用领域，优先考虑移动级 LLMs 的现实世界移动应用而非传统学术科目。我们的数据集构建流程遵循四个关键阶段：

领域选择。我们旨在通过维基百科、Stack Exchange、Reddit、其他论坛以及 LLM 建议等来源，识别与移动相关的领域。
问题 / 选项生成。我们使用 GPT-4O、O1-preview 和人工验证创建基于场景的多项选择题（MCQ）。
相似性过滤。我们应用 MPNet 嵌入去除重复项（余弦相似度 < 0.98）。
人类 - AI 协作验证。我们通过迭代注释和多模型共识验证进一步优化，去除低质量或简单的问题样本。

在数据构建过程中观察到一些问题和注意事项：

LLM 选择顺序偏差。为了验证 LLMs 是否倾向于选择某些答案位置，我们通过将正确答案（GT）放在不同的排名位置来测试模型性能。
LLM 对选项长度的偏好。我们观察到 LLMs（尤其是移动级 LLMs）更倾向于选择最长的选项。为了缓解这一点，我们将错误选项的长度调整为与正确答案相同或更长，以确保模型是基于知识而非猜测选项长度进行选择的。

3.2 基准构建流程

领域选择：如图 3 所示，我们的基准构建从全面范围的搜索开始，识别与日常活动、工作、购物、游戏、旅行等实际场景相关的领域。目标是确保所选领域与移动设备上的真实用户需求相关，并与人们在手机上通常进行的查询和搜索类型一致。

为此，我们从维基百科和各种网站收集领域，并利用 LLMs 生成额外的领域建议。通过结合这些不同的领域，我们确保所选领域全面、包容，并反映实际用户场景。

问题生成：用户在现实生活中会遇到各种情况，从简单直接的查询到复杂的多步骤问题解决场景。为了反映这种多样性，我们设计的数据集包含两种难度级别的问题。

对于每个选定的领域，初始问题是使用 GPT-4o 和 o1-preview 生成的，涉及简单场景，例如“如何查看谁查看了我的 LinkedIn 个人资料？”或“如何清除车道上的油渍？”；
第二种是复杂的基于场景的问题，需要多步骤推理、决策以及在得出结论之前评估多个因素的能力，这类问题占总数的 6,020 个。例如，“我使用第三方应用在 Facebook 和 Instagram 上安排了一系列帖子，但有些帖子没有发布。考虑到 API 限制、平台政策和应用权限等潜在问题，可能的原因是什么，我该如何解决？”或“我的汽车故障灯刚亮起，但我明天需要长途驾驶。我如何判断是否可以安全驾驶或是否需要立即维修？”

生成正确答案和选项：下一步是为每个问题生成正确（真实）答案，然后生成错误选项。为了避免 LLM 对选项长度的偏好，这些错误选项被设计成与正确答案长度相同或稍长，仅在特定关键词上有所不同。这一原则是在人工验证后采用的，因为发现评估模型更倾向于选择较长的答案。为了缓解这种偏差，错误选项被设计成与正确答案长度相等或更长，同时保持相似的措辞和结构。这不仅解决了长度偏差问题，还增加了我们基准的难度。

相似性过滤：一旦构建了带有选项的问题，便应用余弦相似度指标检测并去除重复项或具有重大重叠的问题。这一步确保数据集由唯一、不重复的问题组成。为了计算余弦相似度，我们使用“all-mpnet-base-v2”模型从 Sentence-Transformer 生成的向量表示。该模型将每个问题编码为大小为 768 的密集向量，其中每个维度捕捉问题的语义和上下文信息。两个问题之间的余弦相似度计算公式为：

3.3 人类标注与优化

在生成过程中的人类标注：人类标注过程从问题生成开始，便会确保质量和相关性。它包括两个关键阶段：

第一阶段：验证问题的相关性。人类评审员评估生成的问题是否与相应领域相关，并适用于移动用例。如果选定的样本包含与移动用例场景不相关或不一致的问题，则通过提示词优化重新生成该批次。
第二阶段：验证错误选项。评审员确认错误选项确实错误，并确保它们的长度等于或长于正确答案。

上述过程会针对每个生成批次重复进行。

单选和多选正确答案的优化：我们观察到，由于第二阶段生成的选项性质，一些问题有多个正确答案。为了解决这个问题，如图 3（步骤 4.2）所示，我们分析了来自三个大型模型（GPT-4o、Claude-3.5 和 Gemini-2.0）的响应。如果所有三个模型的回答都不一致（即所有三个模型的预测都不相同，且没有两个模型选择相同的选项），我们移除这些问题，因为这表明可能有多个正确选项，或者这里没有绝对正确的选择。对于剩余的问题，我们通过投票过程更新正确答案，其中更新后的正确答案对应于至少三个模型中的两个一致认为的答案。结果是，5.8% 的更新问题现在有多个正确选项作为正确答案。

4. Mobile-MMLU-Pro：具有多模型一致性和更具挑战性的版本

目前，大多数现有的多项选择题基准面临一个共同问题：在多次评估或使用不同的强 LLMs 时，会产生不一致的性能结果。为减少这种差异，我们针对移动场景和模型设计了数据集，旨在实现服务器端模型的一致结果，同时最小化差异。此外，我们还通过减少样本数量来增加难度和降低测试开销。

为实现这些目标，我们采取了两个步骤：

过滤掉被两组移动级 LLMs 一致正确回答的问题；
移除在最强 LLMs（包括 GPT-4o、Claude-3.5 和 Gemini-2.0）之间预测不一致的问题。

由此产生的 Mobile-MMLU-Pro 保留了原始数据集的全面覆盖，同时更适合资源受限的环境。下面的表 1 提供了 Mobile-MMLU 和 Mobile-MMLU-Pro 的详细对比，突出了两者在规模和难度上的关键差异。

具体而言，Mobile-MMLU-Pro 是 Mobile-MMLU 的一个子集，通过在两组模型上评估 Mobile-MMLU 创建而成：一组是小型模型集合（Qwen-3B、Llama-3.2 3B、Gemma-2 2B 和 Phi-3.5），另一组是中型模型集合（Qwen-7B、Llama-8B 和 Gemma-9B）（双重模型评估方法）。

借鉴近期在语言模型拒绝采样方面的研究工作，我们为 Mobile-MMLU-Pro 开发了一种两阶段评估框架，结合了基于模型的过滤和选择性拒绝采样。通过移除在最强模型（GPT-4o、Claude-3.5 和 Gemini-2.0）之间预测不一致的问题，进一步施加了一致性约束。

我们的方法与之前的拒绝采样方法在几个关键方面有所不同。虽然 Yuan 等人关注使用拒绝采样来识别数学问题的正确推理路径，Apple 采用了教师委员会（iTeC）进行迭代优化，而我们的方法专门针对识别能够有效区分模型能力的具有区分度的问题。这通过结合多个模型的评估和选择性拒绝采样，精心策划实现。由此产生的 Mobile-MMLU-Pro 基准在不同规模的模型间展现出强大的区分能力和一致性，同时保持对实用、移动相关的场景的关注。

5. 数据统计与分布分析

我们的分析显示，现有通用基准在评估移动特定 LLMs 能力方面存在显著差距。虽然像 MMLU 和 MMLU-Pro 这样的基准对于评估广泛知识和通用能力很有帮助，但它们包含了许多在移动环境中很少遇到的主题，如高级理论概念或大量编码任务。

相比之下，它们在日常移动场景（如快速查找食谱、旅行建议或情境感知辅助）方面的代表性不足。这种基准内容与实际移动用例之间的错位可能导致在移动部署中选择和评估模型时出现次优情况。下面的图 8 展示了 Mobile-MMLU、MMLU 和 MMLU-Pro 基准的数据集主题分布情况。

我们使用“all-mpnet-base-v2”模型从 Sentence-Transformer 中获取每个问题的句子嵌入，然后通过主成分分析（PCA）将每个主题的平均嵌入降维为二维表示。从散点图中可以看出，Mobile-MMLU 主题在语义空间上与 MMLU 和 MMLU-Pro 主题占据不同的区域。这种主题分布的明显分离突显了 Mobile-MMLU 对实用、移动相关场景的独特关注，补充了现有基准，而不是与它们重叠。

为了进一步验证我们的假设，我们使用 GPT-4o 作为评判员来评估我们基准中不同问题的移动相关性分数（MRScore）。然后我们在主题层面汇总这些移动相关性分数。给定一个定义移动专业知识和评估指南的系统提示符，以及一个指定评估标准（实际价值、移动友好性、使用模式）的用户提示符，我们定义问题 q 的 MRScore 为：

其中每个 MRScore（问题）都基于相同的系统和用户提示。下图的图 9a 和 9b 显示了不同基准数据集中 MRScore 的分布情况。分析结果显示，Mobile-MMLU 中的问题始终获得比 MMLU 和 MMLU-Pro 更高的 MRScore。分布显示，Mobile-MMLU 中的问题主要集中在 5 到 9 分之间，而传统基准则集中在 2 到 4 分之间。

这种定量验证确认了我们的基准有效地捕捉了移动特定的使用场景和情况。我们的 Mobile-MMLU 包含 80 个主题，16,186 个问题，通过前面讨论的过程精心策划，用于评估移动特定用例的小型语言模型。每个主题都包含多项选择题，旨在测试基础和实际应用。下图图 10 显示了 Mobile-MMLU 和 MMLU 数据集前 40 个主题以及 MMLU-Pro 所有 14 个主题的问题分布和每个主题的平均问题字数，展示了我们基准的广泛覆盖范围。我们的问题侧重于实用的移动使用场景和日常任务，从“烹饪与食谱”到“数字素养”和“旅行规划”，同时涵盖必要的知识领域。与传统基准如 MMLU 和 MMLU-Pro 相比，我们的问题是精心设计的，更具移动友好性，更好地反映了真实的移动交互和信息获取模式。

图 10 还显示，我们的 Mobile-MMLU 和 Mobile-MMLU-Pro 与 MMLU 和 MMLU-Pro 有显著差异。MMLU-Pro 在专业学术领域非常集中，其中数学（1,350 个问题）、物理（1,300 个问题）和化学（1,150 个问题）占主导地位，而 MMLU 则侧重于专业法律（1,700 个问题）和道德情景（1,000 个问题）等传统教育科目。相比之下，Mobile-MMLU 在逻辑谬误（290 个问题）、生存技能（275 个问题）和汽车护理（270 个问题）等实用主题上分布更均衡，这些主题更符合日常移动信息需求。

问题长度分析进一步突出了这种区别，Mobile-MMLU 问题平均每个问题约 30.84 个单词，即使是最详细的“人力资源”等主题也不会超过 48 个单词，使其更适合移动界面。相比之下，MMLU 和 MMLU-Pro 平均每个问题分别为 46.74 和 46.84 个单词，其中 MMLU 中的“欧洲历史”等主题的问题平均超过 230 个单词。

6. 实验

6.1 实验设置

为了全面评估模型在 Mobile-MMLU 和 Mobile-MMLU-Pro 上的性能，我们选择了一系列最先进的语言模型，其参数范围从 1B 到 9B 不等。我们的模型组合包括了 Gemma-2-9B-it、Qwen2.5-7B-instruct、Llama-3.1-8B-instruct、Qwen2.5-3B-instruct、Phi-3.5-mini-instruct、Llama-3.2-3B-instruct、Gemma-2-2B-it、Ministral-8B-instruct、Qwen2.5-1.5B-instruct 和 Llama-3.2-1B-instruct。

这一选择涵盖了不同架构和参数量的模型，使我们能够深入分析模型大小与移动导向任务性能之间的关系。下表是横跨不同类目的不同模型性能：

在评估框架方面，

在评估框架方面，我们采用了 lm-eval-harness 来评估模型性能。鉴于 Mobile-MMLU 和 Mobile-MMLU-Pro 完全由多项选择题组成，我们以准确率作为主要评估指标。这种方法不仅允许我们客观地比较不同模型，还与该领域现有的基准评估实践保持一致。

6.2 主要结果

我们的评估揭示了不同模型规模和架构之间的一些显著模式。表 2 展示了移动友好型和通用型（稍大尺寸）模型在 MMLU、MMLU-Pro、Mobile-MMLU 和 Mobile-MMLU-Pro 基准上的零样本性能。

在我们的基准上，最强模型和最弱模型之间的性能差距比其他基准更大，突显了我们数据集更大的区分能力：高性能模型获得更好的分数，而较弱的模型表现更差。

例如，性能最低的模型 Nemotron-Mini-4B-Instruct 在我们的数据集上得分为 35.1%，但在 MMLU 上得分为 56.8%。相反，性能最高的模型 Qwen2.5-3B-Instruct 在我们的基准上获得了更高的 68.1%的分数，超过了其在 MMLU 上的 65.4%的分数。

我们强调，一个强大的基准数据集不应仅仅旨在降低模型性能分数，还应突出模型之间的差异，清晰地凸显显著的性能差距，从而更好地区分它们的能力。

此外，我们的结果表明，在传统基准上表现良好，并不一定意味着在移动特定任务上也能表现出色。一个典型的例子是 Phi-3.5-mini-instruct，它在 MMLU 上取得了令人印象深刻的 68.7%的分数，但在 Mobile-MMLU 上的表现相对较低，为 63.7%。相反，Qwen2.5-3B-Instruct 尽管在 MMLU 上的表现较为一般（65.4%），但在 Mobile-MMLU 上表现出色（68.1%），甚至超越了一些参数量更大的 8B 模型。

6.3 分析

性能分布分析

在 Mobile-MMLU 上，不同模型的性能分布比其他基准更为广泛。虽然在 MMLU 上的性能分布范围为 45.9%到 71.8%，在 MMLU-Pro 上为 7.5%到 36.5%，但 Mobile-MMLU 的相对范围更广，从 34.5%到 75.0%。这种在较小模型（1-3B 参数）中尤为显著的更大范围分布，为移动部署场景中模型大小受限的情况提供了宝贵的见解。

此外，模型大小并不一定决定性能。例如，在参数量均为 3B 的模型中，Qwen2.5-3B-Instruct 在 Mobile-MMLU 上的准确率为 68.1%，而 Llama-3.2-3B-Instruct 的准确率为 50.2%，尽管两者的参数量相当，但性能差异显著。

LLM 选择顺序偏差

为了研究正确答案的位置如何影响模型预测，我们考察了以下几种设置：

我们的原始数据集构建策略：最初，正确选项（A/B/C/D）是随机分配的，然后经过筛选，最终数据集的分布略显不均匀，但结果仍然接近并稳定于完全随机顺序的性能（如下面表 3 和表 4 的第一组所示）。
系统性排列：正确答案按系统性顺序排列在 A/B/C/D 中，而错误选项是随机分配的（如表 3 和表 4 的中间组所示）。
完全随机分布：正确和错误选项的位置完全随机（如表 3 和表 4 的最后一组所示）。

表 3 和表 4 中的“Ori.”列分别展示了我们在 Mobile-MMLU 和 Pro 基准上的结果。我们的发现表明，这些结果与随机顺序的结果高度一致，几乎没有变化。因此，我们称我们的数据集为顺序无关的，反映了这些基准的稳定特性。表 3 和表 4 中间组的结果还表明，小型 LLMs 对答案选项的顺序高度敏感，性能变化可达 10%以上。这突显了公平构建数据集的重要性，特别是通过系统性平衡。然而，最稳健的解决方案是采用 open-llm-leaderboard 方案，将多项选择任务转换为开放式生成任务，从而完全消除这个问题。我们计划在这一领域进行进一步研究。

模型大小与基准性能的关系

下面的图 11 和图 12 展示了模型参数与我们在标准和 Pro 版本基准上的性能之间的关系。

在图 11 的标准基准比较中，MMLU（蓝色虚线）在大多数模型大小上始终比 Mobile-MMLU（橙色虚线）表现更好，分数高出 5-10%。此外，正如我们在第 6.2 节中提到的，MMLU 上的模型性能更加集中，缺乏区分度。

在图 12 的 Pro 版本比较中，Mobile-MMLU-Pro 的分数高于 MMLU-Pro，而 MMLU-Pro 上的模型性能仍然比我们的 Mobile-MMLU-Pro 更集中。两个基准系列都显示出模型大小与性能之间的正相关，但绝对分数有显著差异。一些较小的模型（如 Qwen2.5-3B-Instruct）在两个基准变体上都表现出竞争力，表明架构改进有时可以弥补较小的参数量。

6.4 模型大小与基准性能的可视化

前面图 11 和图 12 展示了模型参数量与我们在标准基准和 Pro 版本基准上的性能之间的关系。

在图 11 的标准基准比较中，MMLU（蓝色虚线）在大多数模型大小上始终比 Mobile-MMLU（橙色虚线）表现更好，分数高出 5-10%。此外，如第 6.2 节所述，MMLU 上的模型性能更加集中，缺乏区分度。在图 12 的 Pro 版本比较中，Mobile-MMLU-Pro 的分数高于 MMLU-Pro，而 MMLU-Pro 上的模型性能仍然比我们的 Mobile-MMLU-Pro 更集中。两个基准系列都显示出模型大小与性能之间的正相关，但绝对分数有显著差异。一些较小的模型（如 Qwen2.5-3B-Instruct）在两个基准变体上都表现出竞争力，表明架构改进有时可以弥补较小的参数量。

7. 结论

本文介绍了 Mobile-MMLU 和 Mobile-MMLU-Pro，这是一个新颖的基准系列，旨在评估移动环境中的语言模型，填补了评估移动优化语言模型的关键空白。通过精心策划的 80 个不同主题和 16,186 个问题，我们的 Mobile-MMLU 专注于实用的移动相关场景，更好地反映了现实世界的移动交互。互补的 Mobile-MMLU-Pro 基准通过我们严格的基于多模型一致性的拒绝采样方法创建，提供了一个更具挑战性和一致性的评估集，同时保持对移动特定用例的关注。这两个基准都具有移动中心化和顺序无关的特性。

我们的综合分析表明，Mobile-MMLU 和 Mobile-MMLU-Pro 与传统的 MMLU 和 MMLU-Pro 基准在语义空间上占据不同的位置，并且始终具有更高的移动相关性分数。我们在各种模型大小（1B-9B 参数）上的评估结果揭示了移动语言模型能力的关键见解。

在 Mobile-MMLU 上观察到的更广泛的性能差异，特别是在较小的模型中，突显了其在移动限制下有效区分模型能力的有效性。这些发现表明，在传统基准上表现强劲并不一定意味着在移动特定任务上也能表现出色，强调了为移动应用开发专门评估框架的重要性。

随着移动 AI 的不断发展，Mobile-MMLU 系列为开发和评估更高效、更强大、更以用户为中心的移动语言模型提供了基础。

END

作者：Mobile-MMLU
来源：NeuralTalk

推荐阅读

欢迎大家点赞留言，更多 Arm 技术文章动态请关注极术社区嵌入式AI专栏欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。