当前端侧推理的起点,未来端侧推理的支点。
作者|赵健
大模型火了之后,GPU也火了。一时间,GPU的持有量几乎成为了评估大模型成败的“度量衡”。
GPU很好,但不是大模型的全部。远比GPU诞生更早的中央处理器芯片——CPU,它在大模型中的地位可能被远远低估了。
尤其是在端侧大模型兴起之后,端侧推理越来越成为CPU的舞台。
过去大半年,端侧推理已经成为继“百模大战”之后下一个行业趋势,由此衍生的AI PC、AI手机等概念,也成为电脑厂商、手机厂商的兵家必争之地。
把大模型装在PC、手机或者其他硬件中,需要足够的算力来支撑,同时也需要兼顾效率和功耗。而CPU很可能是当前阶段端侧推理的算力最优解。
1.端侧大模型火了
今天,如果你想体验业内最领先的大模型对话助手,无论是OpenAI的ChatGPT,还是国内的Kimi、智谱清言等,都必须要联网。这些大模型都部署在云端,适合编排涉及高级推理、数据分析和上下文理解的复杂任务的应用程序。
但是,云端模型不仅要消耗巨大的算力成本,还需要用户上传数据。出于对成本、数据隐私安全等方面的考量,把大模型部署在端侧,已成为大势所趋。
在大模型落地端侧的需求下,我们能看到业内正在发生的两个趋势:
第一个趋势是大模型正在越做越“小”。
Meta、谷歌、微软等大厂在发布大模型时,往往是一个“中杯、大杯、超大杯”的模型家族,其最小的模型参数基本都在10B以下,并且有的会针对手机这样的大众级终端设备做适配。
比如,微软在去年专门成立了一个小模型(SLM)团队,并在今年5月22日的微软Build开发者大会上发布了专门为手机端侧推理而设计的Phi-3系列模型;随后,在6月11日的WWDC开发者大会上,苹果也低调发布了一个3B的端侧小模型。
值得一提的是,小模型并非要取代大模型,而是更适合处理那些不需要大量复杂推理或快速响应的应用程序。
在适合端侧推理的小模型陆续出现之后,第二个趋势很快出现了——终端厂商正在积极尝试把模型装进PC、手机中,也就是现在热议的“AI PC”、“AI手机”等概念。
上个月,苹果、微软先后发布最新的PC设备,AI PC的概念达到了一个高峰——5月8日,苹果在春季发布会上发布了自研Arm架构的M4芯片,直言其中的神经网络引擎“性能强到足以傲视当今的AI PC”;2周后,微软推出了名为“Copilot+PC”的“AI PC新物种”,其搭载了基于Arm架构的高通处理器。
摩根士丹利在5月14日发布的研报中指出,2025年-2026年,AI PC的渗透率将从2024年的8%增至50%。
在AI手机领域,vivo X100系列、OPPO Find X7系列,以及荣耀Magic 6在内的一众安卓旗舰产品已经成功实现了70亿大模型的本地部署;联发科最新发布的天玑9300+旗舰芯片能实现Llama-2-7B端侧大模型更高速的运行。
近期,苹果在WWDC开发者大会上推出了Apple Intelligence,将大语言模型集成到下一代终端设备,让AI能力几乎覆盖了所有重要的原生应用,包括相机、照片、备忘录、语音备忘录、提醒事项、邮件、Safari、Keynote等,为用户提供个性化的智能服务。如果说iPhone让手机用户开始抛弃实体键盘,彻底转向大尺寸多点触控屏,那么AI加持的iPhone,或许将正式引领全球40亿智能手机用户进入下一轮变革。AI手机,有了新的定义。
在新能源汽车、XR等新的终端设备上,大模型也在陆续落地。比如小米SU7也加入了端侧AI大模型,配合小爱同学语音助手带来全新智驾体验。
可以说,模型公司与终端硬件公司正相向而行,共同推动端侧大模型的应用落地。而两者的交汇点,就是端侧设备的算力条件。在现阶段,CPU可以认为是端侧推理的算力最优解。
2.跑端侧推理,还得靠CPU
很多AI从业者对于CPU或多或少带有一些先入为主的“偏见”,认为大模型的大规模并行计算特点更适合GPU来处理,但并不适合CPU。
在大模型的训练阶段的确如此。但在大模型的推理阶段,尤其是端侧推理,实际上CPU也能胜任大部分计算任务。
关于GPU与CPU的关系,可以概括为“专才”与“通才”的对比——GPU像是一名“拥有最强大脑的专才”,其强大的计算能力专门应对图像处理、AI计算等需要大规模并行计算与数据吞吐的任务;而CPU像是一名“十八般武艺的通才”,虽然加速计算能力比不上GPU,但擅长处理操作系统、系统软件与应用程序等复杂指令调度、循环、分支、逻辑判断与执行的任务。
既然是一名“通才”,CPU自然也能处理AI计算任务。实际上,CPU过去一直就是这么做的。比如在智能手机里,有很多功能都涉及AI计算,包括对面部、手部和身体动作的追踪,高级的相机效果和滤镜,以及许多社交应用中的细分功能。此类AI工作负载的处理可能全权交由CPU,或是结合GPU或NPU等协处理器一起提供支持。
到了大模型时代,端侧推理出现了新的计算需求,主要的应用场景包括文本生成——虚拟助理撰写电子邮件;智能回复——即时通讯应用自动提供针对某个问题的建议回复;文本摘要——电子书阅读器提供章节摘要等。
针对不同的设备和应用场景,计算需求也呈现出差异化。在诸如入门级智能手机、汽车智能座舱、AIoT设备等中低端应用场景中,对计算能力的要求相对较低,CPU能够高效处理参数规模在数十亿级别的小型计算任务。在一些高端场景,如PC和旗舰智能手机上,所需处理的任务相对更为复杂和庞大,即便配备了AI专用加速器,CPU仍是不可或缺的算力基石,且能独立承担处理百亿参数级别的更大规模计算任务。以当今的安卓平台来看,第三方应用中有70%的AI运行在Arm CPU上。
今天,智能手机的CPU几乎都是基于Arm架构。得益于Arm CPU本身的AI计算能力,全世界约99%的智能手机都具备在端侧处理大模型所需的技术。这些技术包括:
NEON扩展架构,主要用于加速多媒体和信号处理算法,如视频编码/解码、2D/3D图形处理、游戏渲染、音频和语音处理,以及图像处理等;
SVE(Scalable Vector Extensions)可扩展向量扩展技术,特别适用于需要进行大规模数据处理和高性能计算的场景,如机器学习、数据分析和科学计算等;
SVE技术的进阶版SME(Scalable Matrix Extensions)可扩展矩阵扩展技术,则进一步提升了性能和能效,能够满足人工智能、机器学习和高性能计算等领域对计算能力和效率的严苛需求。
据Arm官方消息显示,预计到2025年底,将有超过1000亿台使用Arm处理器的AI设备。
在2024世界移动通信大会(MWC 2024)上,Arm还专门演示了在搭载Arm Cortex-A700系列的安卓手机上,使用3个CPU核运行Llama-2-7B的性能表现,其文本生成速率达到每秒9.6个单词,这大约是一般成年人平均读取速度的两倍。这一过程全都在手机本地完成,无需联网。
一个70亿参数的模型之所以能够在手机端畅通地运行起来,除了Arm CPU本身就具备的AI算力之外,也得益于Arm针对开发者生态做了一系列优化工作,核心是压缩与量化技术。
其中,int4位量化技术可以将模型压缩至足够小,以便能在RAM资源有限的设备上流畅运行;高效的线程绑定技术能够轻松提升各类设备的CPU工作负载性能,确保系统的稳定运行;深度优化的矩阵乘CPU例程,使得LLM的Token首次生成时间缩短50%以上,文本生成速率提升20%,不仅进一步降低了延时,还为用户带来了更为高效和流畅的使用体验。
AI手机是现阶段CPU做端侧推理最大的应用场景,当然这仅仅只是开始。随着大模型的不断演进,越来越多新的模型与应用涌现,相信这些都将会在CPU上率先跑通。
3.从硬件基础到软件生态的持续迭代
在移动互联网时代,Arm计算平台是移动计算的底座。如今到了AI时代,Arm计算平台依然保持着持续迭代和创新。
在日前台北电脑展举办前夕,Arm推出了面向智能手机、PC等设备的全新平台型解决方案——Arm终端计算子系统(CSS),结合了最新Armv9架构的特性,其中CPU和GPU在AI方面都有大幅性能提升。据Arm介绍,Arm终端CSS是迄今为止运行速度最快的Arm计算平台,在计算和图形性能方面实现了30%以上的提升,同时AI推理速度也提高了59%,适用于更广泛的AI、机器学习和计算视觉工作负载。
为了让开发者能够快速获得开发生成式AI应用所需的性能、工具和软件库,Arm还专为此量身定制了Arm Kleidi软件开发平台,其中包括面向生成式AI的KleidiAI和针对计算机视觉应用的KleidiCV。KleidiAI支持Neon、SVE2和SME2等Arm架构的关键功能,并与PyTorch、Tensorflow、MediaPipe等热门AI框架深度集成,能有效加速Llama-3、Phi-3等关键模型的性能。
可以说,Arm为移动端AI的落地打造了一个功能完备的“百宝箱”。
全新Arm Kleidi软件开发平台
Arm CPU以及Arm生态所提供的强大支持能力可广泛适用于各类消费电子设备,包括旗舰智能手机、AI PC,以及主流移动设备、XR和可穿戴设备等在内的各类消费电子设备。虽然不同设备的端侧算力分布参差不齐,但CPU的通用性使其能够快速响应端侧大模型的落地需求。
此外,若要实现高能效与低功耗的目标,Arm CPU无疑是端侧算力的首选。在主流CPU阵营中,Arm架构以其低功耗特性而著称,这一优势在AI PC、AI手机等应用场景的能效竞争中尤为关键。
举例来说,在一系列热门手游的运行测试中,当游戏画面以平均每秒120帧的速度运行时,Arm最新发布的终端CSS在相同功耗条件下,可带来37%的平均性能提升,同时GPU功耗降低30%。
Arm CPU低功耗的特性吸引了PC厂商的青睐。2020年,苹果率先发布了首款基于Arm架构的M1芯片,并将其搭载在Mac电脑上,成为“第一批吃螃蟹”的厂商。今年,苹果的M系列芯片已经迭代到第四代。
苹果的这一举动让PC厂商意识到,原来Arm CPU不仅能装在手机里,还能装进电脑里,而且性能抗打。此后,PC厂商逐渐转向Arm CPU阵营。比如,微软近期发布的第一款Copilot+PC,也就是最新的Surface系列,首发搭载的正是高通基于Arm架构的处理器。
随即在AI PC概念的基础上,还专门产生了一个更加细分的名词——WoA AI PC,即Windows on Arm。
在微软Build大会上,微软特别提到一组数字——现有Arm PC应用程序中,有87%都是原生的Arm版本。除了Microsoft Office、Dropbox、Zoom、Adobe套件,越来越多的主流应用正在成为Arm原生应用。
摩根士丹利在近期的研报中指出,WoA AI PC趋势可能会重新洗牌全球PC半导体供应链。报告预计,到2027年,WoA AI PC的芯片出货量将达到5000万件,较市场预期高出60%。此外,根据Arm高管的预测,Arm在Windows PC领域的市场份额也在加速扩大,在未来五年内可能会超过50%。
Arm CPU在Windows PC的市场份额
4.既是今天的计算起点,更是明天的计算支点
CPU可能是当前阶段端侧推理的最优解,那么未来呢?
随着端侧推理的需求越来越高,所需处理的任务日益复杂,数据量也不断攀升。当GPU以其出色的并行计算能力稳坐云端AI算力的宝座时,AI芯片市场的竞争愈演愈烈。其中NPU作为一种关键的技术支撑,以其优秀的能耗比,也在悄然崭露头角,成为实现AI大模型在终端设备上运行的关键。
NPU全称为Neural Processing Unit(神经网络处理单元)。从名字就可以看出,它专门针对神经网络进行设计与优化,能更加高效地运行Transformer架构的AI模型。
随着AI手机、AI PC概念的普及,NPU的重要性也日益凸显,它可以在视频、图像、系统管理等各类场景中发挥出色的AI加速能力,解决日益增长的终端推理需求。
本届微软Build开发者大会上,微软甚至专门定义了AI PC的入门门槛——只有配备性能达到40 TOPS的NPU,才能被称为AI PC。
回看国内市场,中国最大的芯片IP设计厂商安谋科技在成立之初就已布局AI赛道,并在2018年发布了首款本土自研的“周易”NPU。经过多年发展,“周易”已相继推出了多款迭代产品,满足多样化计算需求。
其中,“周易”X系列主要面向ADAS、智能座舱、平板电脑、台式机和手机等应用场景提供更高的算力,最高可达320Tops。同时,“周易”NPU针对端侧大模型场景也进行了专门的升级优化,据悉下一代“周易”NPU将会适配国内外多个主流的开源大模型方案,覆盖硬件及其配套的软件工具。
需要明确的一点是,虽然都能解决AI需求,但NPU、GPU与CPU并非替代关系。三者通常是集成在一起,形成“CPU+GPU+NPU”的异构计算组合,每个处理器擅长不同的任务。CPU擅长顺序控制和即时性,GPU适合并行数据流处理,NPU擅长标量、向量和张量数学运算,可用于核心AI工作负载。
这种异构计算的组合方式,能够实现最佳应用性能、能效和电池续航,以最大化发挥生成式AI终端用户体验。
今天,异构计算已经成为芯片公司布局市场不可或缺的一环,好为未来端侧推理市场的爆发做好准备。
例如,安谋科技结合了Arm CPU、GPU等通用计算单元与本土自研的NPU专用计算单元,打造了一体化、高质量的异构计算IP平台,支持并推动芯片公司在异构计算领域的创新。
安谋科技的异构计算平台
安谋科技市场及生态副总裁梁泉认为,未来端侧AI应用要迎来爆发,不仅需要以高端的异构计算平台作为样板落地,更要在大众的终端设备上快速普及。
他表示:“Arm CPU作为普及率最高的计算单元,已经完全可以胜任合适规模的端侧生成式AI计算,且有着极其平衡的能效。配合全新的Kleidi软件,以及Arm持续更新的CPU技术和CSS方案,接下来将成为端侧AI快速普及的核心平台。同时,安谋科技投入研发的‘周易’NPU已历经六年深耕,目前产品将迎来新一轮的迭代升级。在国内市场,我们提供灵活且丰富的计算平台及方案组合,与芯片客户、终端厂商及生态伙伴共同推动端侧AI的高速发展。”
当前,国内外已有很多GPU和AI芯片企业在云端开展大模型相关工作。但在边缘端与终端,还没有一个成熟、统一的硬件平台能够支撑大模型部署到手机、PC或机器人等设备上,因此市场潜力巨大。
但不论市场如何变化,CPU的重要性都无可替代。Arm终端事业部产品管理副总裁James McNiven在接受采访时表示,不论CPU还是GPU,即便有AI专用加速器,仍需要计算基础,正如CPU支撑万物。
纵观当前端侧推理的存量市场,CPU是端侧算力的最优解,也是实现端侧推理的起点;而在未来端侧推理的增量市场,在CPU、GPU及NPU组成的异构计算平台中,CPU又是支撑万物计算的支点。
如何有效释放CPU在端侧推理的能力,或将成为决定端侧大模型落地竞赛的赛末点。