端侧大模型火了，但CPU被低估了

当前端侧推理的起点，未来端侧推理的支点。

作者｜赵健

大模型火了之后，GPU也火了。一时间，GPU的持有量几乎成为了评估大模型成败的“度量衡”。

GPU很好，但不是大模型的全部。远比GPU诞生更早的中央处理器芯片——CPU，它在大模型中的地位可能被远远低估了。

尤其是在端侧大模型兴起之后，端侧推理越来越成为CPU的舞台。

过去大半年，端侧推理已经成为继“百模大战”之后下一个行业趋势，由此衍生的AI PC、AI手机等概念，也成为电脑厂商、手机厂商的兵家必争之地。

把大模型装在PC、手机或者其他硬件中，需要足够的算力来支撑，同时也需要兼顾效率和功耗。而CPU很可能是当前阶段端侧推理的算力最优解。

1.端侧大模型火了

今天，如果你想体验业内最领先的大模型对话助手，无论是OpenAI的ChatGPT，还是国内的Kimi、智谱清言等，都必须要联网。这些大模型都部署在云端，适合编排涉及高级推理、数据分析和上下文理解的复杂任务的应用程序。

但是，云端模型不仅要消耗巨大的算力成本，还需要用户上传数据。出于对成本、数据隐私安全等方面的考量，把大模型部署在端侧，已成为大势所趋。

在大模型落地端侧的需求下，我们能看到业内正在发生的两个趋势：

第一个趋势是大模型正在越做越“小”。

Meta、谷歌、微软等大厂在发布大模型时，往往是一个“中杯、大杯、超大杯”的模型家族，其最小的模型参数基本都在10B以下，并且有的会针对手机这样的大众级终端设备做适配。

比如，微软在去年专门成立了一个小模型（SLM）团队，并在今年5月22日的微软Build开发者大会上发布了专门为手机端侧推理而设计的Phi-3系列模型；随后，在6月11日的WWDC开发者大会上，苹果也低调发布了一个3B的端侧小模型。

值得一提的是，小模型并非要取代大模型，而是更适合处理那些不需要大量复杂推理或快速响应的应用程序。

在适合端侧推理的小模型陆续出现之后，第二个趋势很快出现了——终端厂商正在积极尝试把模型装进PC、手机中，也就是现在热议的“AI PC”、“AI手机”等概念。

上个月，苹果、微软先后发布最新的PC设备，AI PC的概念达到了一个高峰——5月8日，苹果在春季发布会上发布了自研Arm架构的M4芯片，直言其中的神经网络引擎“性能强到足以傲视当今的AI PC”；2周后，微软推出了名为“Copilot+PC”的“AI PC新物种”，其搭载了基于Arm架构的高通处理器。

摩根士丹利在5月14日发布的研报中指出，2025年-2026年，AI PC的渗透率将从2024年的8%增至50%。

在AI手机领域，vivo X100系列、OPPO Find X7系列，以及荣耀Magic 6在内的一众安卓旗舰产品已经成功实现了70亿大模型的本地部署；联发科最新发布的天玑9300+旗舰芯片能实现Llama-2-7B端侧大模型更高速的运行。

近期，苹果在WWDC开发者大会上推出了Apple Intelligence，将大语言模型集成到下一代终端设备，让AI能力几乎覆盖了所有重要的原生应用，包括相机、照片、备忘录、语音备忘录、提醒事项、邮件、Safari、Keynote等，为用户提供个性化的智能服务。如果说iPhone让手机用户开始抛弃实体键盘，彻底转向大尺寸多点触控屏，那么AI加持的iPhone，或许将正式引领全球40亿智能手机用户进入下一轮变革。AI手机，有了新的定义。

在新能源汽车、XR等新的终端设备上，大模型也在陆续落地。比如小米SU7也加入了端侧AI大模型，配合小爱同学语音助手带来全新智驾体验。

可以说，模型公司与终端硬件公司正相向而行，共同推动端侧大模型的应用落地。而两者的交汇点，就是端侧设备的算力条件。在现阶段，CPU可以认为是端侧推理的算力最优解。

2.跑端侧推理，还得靠CPU

很多AI从业者对于CPU或多或少带有一些先入为主的“偏见”，认为大模型的大规模并行计算特点更适合GPU来处理，但并不适合CPU。

在大模型的训练阶段的确如此。但在大模型的推理阶段，尤其是端侧推理，实际上CPU也能胜任大部分计算任务。

关于GPU与CPU的关系，可以概括为“专才”与“通才”的对比——GPU像是一名“拥有最强大脑的专才”，其强大的计算能力专门应对图像处理、AI计算等需要大规模并行计算与数据吞吐的任务；而CPU像是一名“十八般武艺的通才”，虽然加速计算能力比不上GPU，但擅长处理操作系统、系统软件与应用程序等复杂指令调度、循环、分支、逻辑判断与执行的任务。

既然是一名“通才”，CPU自然也能处理AI计算任务。实际上，CPU过去一直就是这么做的。比如在智能手机里，有很多功能都涉及AI计算，包括对面部、手部和身体动作的追踪，高级的相机效果和滤镜，以及许多社交应用中的细分功能。此类AI工作负载的处理可能全权交由CPU，或是结合GPU或NPU等协处理器一起提供支持。

到了大模型时代，端侧推理出现了新的计算需求，主要的应用场景包括文本生成——虚拟助理撰写电子邮件；智能回复——即时通讯应用自动提供针对某个问题的建议回复；文本摘要——电子书阅读器提供章节摘要等。

针对不同的设备和应用场景，计算需求也呈现出差异化。在诸如入门级智能手机、汽车智能座舱、AIoT设备等中低端应用场景中，对计算能力的要求相对较低，CPU能够高效处理参数规模在数十亿级别的小型计算任务。在一些高端场景，如PC和旗舰智能手机上，所需处理的任务相对更为复杂和庞大，即便配备了AI专用加速器，CPU仍是不可或缺的算力基石，且能独立承担处理百亿参数级别的更大规模计算任务。以当今的安卓平台来看，第三方应用中有70%的AI运行在Arm CPU上。

今天，智能手机的CPU几乎都是基于Arm架构。得益于Arm CPU本身的AI计算能力，全世界约99%的智能手机都具备在端侧处理大模型所需的技术。这些技术包括：

NEON扩展架构，主要用于加速多媒体和信号处理算法，如视频编码/解码、2D/3D图形处理、游戏渲染、音频和语音处理，以及图像处理等；

SVE（Scalable Vector Extensions）可扩展向量扩展技术，特别适用于需要进行大规模数据处理和高性能计算的场景，如机器学习、数据分析和科学计算等；

SVE技术的进阶版SME（Scalable Matrix Extensions）可扩展矩阵扩展技术，则进一步提升了性能和能效，能够满足人工智能、机器学习和高性能计算等领域对计算能力和效率的严苛需求。

据Arm官方消息显示，预计到2025年底，将有超过1000亿台使用Arm处理器的AI设备。

在2024世界移动通信大会（MWC 2024）上，Arm还专门演示了在搭载Arm Cortex-A700系列的安卓手机上，使用3个CPU核运行Llama-2-7B的性能表现，其文本生成速率达到每秒9.6个单词，这大约是一般成年人平均读取速度的两倍。这一过程全都在手机本地完成，无需联网。

一个70亿参数的模型之所以能够在手机端畅通地运行起来，除了Arm CPU本身就具备的AI算力之外，也得益于Arm针对开发者生态做了一系列优化工作，核心是压缩与量化技术。

其中，int4位量化技术可以将模型压缩至足够小，以便能在RAM资源有限的设备上流畅运行；高效的线程绑定技术能够轻松提升各类设备的CPU工作负载性能，确保系统的稳定运行；深度优化的矩阵乘CPU例程，使得LLM的Token首次生成时间缩短50%以上，文本生成速率提升20%，不仅进一步降低了延时，还为用户带来了更为高效和流畅的使用体验。

AI手机是现阶段CPU做端侧推理最大的应用场景，当然这仅仅只是开始。随着大模型的不断演进，越来越多新的模型与应用涌现，相信这些都将会在CPU上率先跑通。

3.从硬件基础到软件生态的持续迭代

在移动互联网时代，Arm计算平台是移动计算的底座。如今到了AI时代，Arm计算平台依然保持着持续迭代和创新。

在日前台北电脑展举办前夕，Arm推出了面向智能手机、PC等设备的全新平台型解决方案——Arm终端计算子系统（CSS），结合了最新Armv9架构的特性，其中CPU和GPU在AI方面都有大幅性能提升。据Arm介绍，Arm终端CSS是迄今为止运行速度最快的Arm计算平台，在计算和图形性能方面实现了30%以上的提升，同时AI推理速度也提高了59%，适用于更广泛的AI、机器学习和计算视觉工作负载。

为了让开发者能够快速获得开发生成式AI应用所需的性能、工具和软件库，Arm还专为此量身定制了Arm Kleidi软件开发平台，其中包括面向生成式AI的KleidiAI和针对计算机视觉应用的KleidiCV。KleidiAI支持Neon、SVE2和SME2等Arm架构的关键功能，并与PyTorch、Tensorflow、MediaPipe等热门AI框架深度集成，能有效加速Llama-3、Phi-3等关键模型的性能。

可以说，Arm为移动端AI的落地打造了一个功能完备的“百宝箱”。

全新Arm Kleidi软件开发平台

Arm CPU以及Arm生态所提供的强大支持能力可广泛适用于各类消费电子设备，包括旗舰智能手机、AI PC，以及主流移动设备、XR和可穿戴设备等在内的各类消费电子设备。虽然不同设备的端侧算力分布参差不齐，但CPU的通用性使其能够快速响应端侧大模型的落地需求。

此外，若要实现高能效与低功耗的目标，Arm CPU无疑是端侧算力的首选。在主流CPU阵营中，Arm架构以其低功耗特性而著称，这一优势在AI PC、AI手机等应用场景的能效竞争中尤为关键。

举例来说，在一系列热门手游的运行测试中，当游戏画面以平均每秒120帧的速度运行时，Arm最新发布的终端CSS在相同功耗条件下，可带来37%的平均性能提升，同时GPU功耗降低30%。

Arm CPU低功耗的特性吸引了PC厂商的青睐。2020年，苹果率先发布了首款基于Arm架构的M1芯片，并将其搭载在Mac电脑上，成为“第一批吃螃蟹”的厂商。今年，苹果的M系列芯片已经迭代到第四代。

苹果的这一举动让PC厂商意识到，原来Arm CPU不仅能装在手机里，还能装进电脑里，而且性能抗打。此后，PC厂商逐渐转向Arm CPU阵营。比如，微软近期发布的第一款Copilot+PC，也就是最新的Surface系列，首发搭载的正是高通基于Arm架构的处理器。

随即在AI PC概念的基础上，还专门产生了一个更加细分的名词——WoA AI PC，即Windows on Arm。

在微软Build大会上，微软特别提到一组数字——现有Arm PC应用程序中，有87%都是原生的Arm版本。除了Microsoft Office、Dropbox、Zoom、Adobe套件，越来越多的主流应用正在成为Arm原生应用。

摩根士丹利在近期的研报中指出，WoA AI PC趋势可能会重新洗牌全球PC半导体供应链。报告预计，到2027年，WoA AI PC的芯片出货量将达到5000万件，较市场预期高出60%。此外，根据Arm高管的预测，Arm在Windows PC领域的市场份额也在加速扩大，在未来五年内可能会超过50%。

Arm CPU在Windows PC的市场份额

4.既是今天的计算起点，更是明天的计算支点

CPU可能是当前阶段端侧推理的最优解，那么未来呢？

随着端侧推理的需求越来越高，所需处理的任务日益复杂，数据量也不断攀升。当GPU以其出色的并行计算能力稳坐云端AI算力的宝座时，AI芯片市场的竞争愈演愈烈。其中NPU作为一种关键的技术支撑，以其优秀的能耗比，也在悄然崭露头角，成为实现AI大模型在终端设备上运行的关键。

NPU全称为Neural Processing Unit（神经网络处理单元）。从名字就可以看出，它专门针对神经网络进行设计与优化，能更加高效地运行Transformer架构的AI模型。

随着AI手机、AI PC概念的普及，NPU的重要性也日益凸显，它可以在视频、图像、系统管理等各类场景中发挥出色的AI加速能力，解决日益增长的终端推理需求。

本届微软Build开发者大会上，微软甚至专门定义了AI PC的入门门槛——只有配备性能达到40 TOPS的NPU，才能被称为AI PC。

回看国内市场，中国最大的芯片IP设计厂商安谋科技在成立之初就已布局AI赛道，并在2018年发布了首款本土自研的“周易”NPU。经过多年发展，“周易”已相继推出了多款迭代产品，满足多样化计算需求。

其中，“周易”X系列主要面向ADAS、智能座舱、平板电脑、台式机和手机等应用场景提供更高的算力，最高可达320Tops。同时，“周易”NPU针对端侧大模型场景也进行了专门的升级优化，据悉下一代“周易”NPU将会适配国内外多个主流的开源大模型方案，覆盖硬件及其配套的软件工具。

需要明确的一点是，虽然都能解决AI需求，但NPU、GPU与CPU并非替代关系。三者通常是集成在一起，形成“CPU+GPU+NPU”的异构计算组合，每个处理器擅长不同的任务。CPU擅长顺序控制和即时性，GPU适合并行数据流处理，NPU擅长标量、向量和张量数学运算，可用于核心AI工作负载。

这种异构计算的组合方式，能够实现最佳应用性能、能效和电池续航，以最大化发挥生成式AI终端用户体验。

今天，异构计算已经成为芯片公司布局市场不可或缺的一环，好为未来端侧推理市场的爆发做好准备。

例如，安谋科技结合了Arm CPU、GPU等通用计算单元与本土自研的NPU专用计算单元，打造了一体化、高质量的异构计算IP平台，支持并推动芯片公司在异构计算领域的创新。

安谋科技的异构计算平台

安谋科技市场及生态副总裁梁泉认为，未来端侧AI应用要迎来爆发，不仅需要以高端的异构计算平台作为样板落地，更要在大众的终端设备上快速普及。

他表示：“Arm CPU作为普及率最高的计算单元，已经完全可以胜任合适规模的端侧生成式AI计算，且有着极其平衡的能效。配合全新的Kleidi软件，以及Arm持续更新的CPU技术和CSS方案，接下来将成为端侧AI快速普及的核心平台。同时，安谋科技投入研发的‘周易’NPU已历经六年深耕，目前产品将迎来新一轮的迭代升级。在国内市场，我们提供灵活且丰富的计算平台及方案组合，与芯片客户、终端厂商及生态伙伴共同推动端侧AI的高速发展。”

当前，国内外已有很多GPU和AI芯片企业在云端开展大模型相关工作。但在边缘端与终端，还没有一个成熟、统一的硬件平台能够支撑大模型部署到手机、PC或机器人等设备上，因此市场潜力巨大。

但不论市场如何变化，CPU的重要性都无可替代。Arm终端事业部产品管理副总裁James McNiven在接受采访时表示，不论CPU还是GPU，即便有AI专用加速器，仍需要计算基础，正如CPU支撑万物。

纵观当前端侧推理的存量市场，CPU是端侧算力的最优解，也是实现端侧推理的起点；而在未来端侧推理的增量市场，在CPU、GPU及NPU组成的异构计算平台中，CPU又是支撑万物计算的支点。

如何有效释放CPU在端侧推理的能力，或将成为决定端侧大模型落地竞赛的赛末点。

1.端侧大模型火了

2.跑端侧推理，还得靠CPU

3.从硬件基础到软件生态的持续迭代

4.既是今天的计算起点，更是明天的计算支点

推荐阅读

目录