2025 年,随着 DeepSeek、机器人、AI Agent、GPT-4o 多模态生成等 AI 应用的接连破圈,“深度思考”、“智能体”、“多模态”等 AI 概念迅速从专业领域进入大众视野,这不仅催生了全新的大模型软硬件生态,加速各类 AI 应用形态和终端硬件产品迭代升级,更通过爆发式增长的用户体验,让消费者切实感受到了 AI 的独特创新价值。行业巨头纷纷加码投入,为模型训练、推理计算、应用开发等核心环节筑牢底层技术支撑。
在云侧 AI 场景如火如荼发展的同时,端侧创新也在奋进提速。包括芯片厂商、操作系统开发商、手机及 PC 等消费电子企业在内的产业链上下游玩家,共同探索算力提升、成本优化、应用场景拓展等关键要素的平衡之道。
端侧设备:AI 技术普惠的重要载体
随着智能终端设备的不断普及与算力升级,端侧 AI 已从技术概念转化为实际生产力。PC、手机、机器人、XR 设备、智能座舱等消费级终端凭借高渗透率与实时交互特性,成为了 AI 端侧落地的重要载体。在芯片性能提升和模型优化技术的双重驱动下,当前端侧设备已具备高效部署 AI 模型的能力,加速了 AI 应用从云端向终端的迁移。在技术实现路径上,以下几个关键方向值得重点关注:
在 SLM 轻量化模型方面,相较于云端百亿级参数大语言模型(LLM),1.5B 至 7B 参数规模的小语言模型(SLM)凭借优异的计算效率和更低的内存占用,逐渐成为端侧 AI 的主流选择。以 DeepSeek-R1 蒸馏版为例,该模型在保持高性能的同时,有效降低计算资源需求,进一步拓宽了端侧 AI 的应用边界。
在多模态计算领域,随着 LLM 和 SLM 技术的持续迭代,搭载摄像头、麦克风等多模态传感器的各类主流消费电子在 AI 技术的加持下,正加速推动图像识别和语音交互技术升级,这不仅实现了隐私数据的本地化安全处理,同时为机器人等新兴应用场景注入了强劲的增长潜能,使其能够实时处理海量音视频数据,进而显著提升环境感知和交互等关键能力。
在 Copilot 智能生产力工具方面,生成式 AI 已广泛应用于编程辅助、智能办公、图像处理、音视频编辑等诸多生产力场景。这类应用对低延迟和隐私保护的特殊要求,使其天然适配端侧计算架构,同步带动终端算力需求的高速增长。
AI Agent 技术正在重构人机交互范式。通过自然语言理解、任务分解和多任务协同等能力,智能助理系统将逐步取代传统图形界面,为用户提供更自然流畅、更高效智能的新型交互体验。
异构算力:端侧突围赛的“智”胜关键
算力,始终是 AI 应用场景拓展与技术创新的核心要素。相较于云侧集中式部署的高算力 CPU 和 GPU 集群,端侧算力则呈现出显著的差异化特性。由于端侧设备数量庞大且分散,算力水平参差不齐,且功耗与成本约束严苛,这些因素催生出了多元化的端侧算力体系。从长远来看,异构计算无疑是端侧 AI 落地的最优解。
CPU 作为端侧设备的基础计算单元,凭借其卓越的通用性,广泛应用于从入门级到高端的各类设备。Arm®Cortex® 系列 IP 不仅满足稳定的通用计算需求,其配套的 Kleidi 软件库还针对 CPU 的 AI 加速能力进行了专门优化。在实际应用中,CPU 通常作为 AI 工作负载的起点,为开发者提供便捷的部署路径。此外,随着 LLM 日趋轻量化,CPU 也承担着更为复杂的 AI 计算任务。
NPU 则凭借其出色的能效优势逐渐成为端侧 AI 计算的主力担当,特别适合处理高算力、长耗时的 AI 任务。安谋科技自研新一代“周易”NPU 采用专为大模型特性优化的架构设计,将对外带宽提高至 256GB/s,全面支持 FP16 计算,并提供完整的 INT4 软硬量化加速方案。通过软硬协同优化,“周易”NPU 实现了多核算力的高效扩展,为终端设备的智能化升级提供了核心动能。
在图形相关的 AI 计算领域,GPU 具有独特优势,在视频处理和游戏场景中表现尤为突出。ArmMali™ 和 Immotalis™ 系列 GPU 在保持优异能效比的同时,通过并行计算架构有效支持各类 AI 工作负载,以实现图形渲染与 AI 计算的协同优化,为用户带来更加沉浸式的体验。
CPU、NPU 和 GPU 的协同工作,并结合端云混合计算模式,能够满足绝大多数 AI 应用场景的不同算力需求。随着异构计算技术的持续演进,端侧设备正逐步承担更大比例的 AI 计算任务,这一趋势正在重塑整个 AI 计算生态。
软件框架:连接 AI 应用与算力的关键纽带
AI 软件生态作为应用发展的土壤,承担着高效调度硬件算力的重任。当前,云侧已形成以“PyTorch+CUDA+GPU”为核心的成熟技术体系,为 AI 研发提供标准化支持;而端侧 AI 生态则暴露出诸多亟待解决的问题,例如生态碎片化严重、大模型适配能力欠佳、跨平台兼容性差、扩展性受限、无法快速响应应用功能迭代需求等。
为此,安谋科技“周易”NPU 提供了一套完整的 AI 软件平台——“周易”Compass,使开发者可以便捷、快速地进行算法移植和部署。该平台提供一整套端到端的 AI 软件栈工具,覆盖了仿真器、驱动、Runtime、OpenCL 语言编译器、Compiler 网络编译器等,能够有效支持不同层级的开发需求。此外,平台新增了对备受开发者关注的 Hugging Face 模型的支持,并通过开源网络编译器的 Parser 和 OPT、适配 TVM、发布 DSL 特定领域编程语言等举措,切实有效地帮助开发者将基于“周易”NPU 的 AI 技术融入到各类开发项目中。
当前,端侧 AI 软件生态正处于关键发展期,需要在标准化与定制化之间寻找平衡。产业界普遍预期,未来 2 到 3 年将形成 1 至 2 个主导性的基准框架,需要在保持开放性的同时,深度优化特定硬件平台的计算效能。
展望:AI 应用为端侧芯片按下创新“加速键”
回顾 PC 互联网与移动互联网的发展历程,应用需求始终是芯片技术迭代的关键驱动力。在移动应用场景中,对性能与功耗兼顾的需求使 CPU 大小核架构成为主流;消费者对拍照质量的高要求,推动芯片级影像处理技术成为旗舰手机的标配;人们随时随地的游戏和观影需求,也促使芯片厂商不断提升芯片图形渲染和视频编解码能力。
步入新一轮 AI 技术浪潮,如何构建异构算力体系,协同适配软件生态,加速 AI 应用在 PC、手机、智能穿戴、机器人、座舱等场景的落地,这无疑将成为端侧厂商们实现可持续发展的关键命题。安谋科技将深耕端侧 AI 领域,通过自研“周易”NPU 等产品、结合 Arm 体系优势、以及开放开源软件生态,持续赋能 AI 时代的技术创新与产业升级。
声明:Arm、Cortex、Immortalis 和 Mali 是 Arm Limited(或其子公司)的注册商标或商标。