端侧AI时代，如何铸造软硬协同“芯”底座？

2025 年，随着 DeepSeek、机器人、AI Agent、GPT-4o 多模态生成等 AI 应用的接连破圈，“深度思考”、“智能体”、“多模态”等 AI 概念迅速从专业领域进入大众视野，这不仅催生了全新的大模型软硬件生态，加速各类 AI 应用形态和终端硬件产品迭代升级，更通过爆发式增长的用户体验，让消费者切实感受到了 AI 的独特创新价值。行业巨头纷纷加码投入，为模型训练、推理计算、应用开发等核心环节筑牢底层技术支撑。

在云侧 AI 场景如火如荼发展的同时，端侧创新也在奋进提速。包括芯片厂商、操作系统开发商、手机及 PC 等消费电子企业在内的产业链上下游玩家，共同探索算力提升、成本优化、应用场景拓展等关键要素的平衡之道。

端侧设备：AI 技术普惠的重要载体

随着智能终端设备的不断普及与算力升级，端侧 AI 已从技术概念转化为实际生产力。PC、手机、机器人、XR 设备、智能座舱等消费级终端凭借高渗透率与实时交互特性，成为了 AI 端侧落地的重要载体。在芯片性能提升和模型优化技术的双重驱动下，当前端侧设备已具备高效部署 AI 模型的能力，加速了 AI 应用从云端向终端的迁移。在技术实现路径上，以下几个关键方向值得重点关注：

在 SLM 轻量化模型方面，相较于云端百亿级参数大语言模型（LLM），1.5B 至 7B 参数规模的小语言模型（SLM）凭借优异的计算效率和更低的内存占用，逐渐成为端侧 AI 的主流选择。以 DeepSeek-R1 蒸馏版为例，该模型在保持高性能的同时，有效降低计算资源需求，进一步拓宽了端侧 AI 的应用边界。

在多模态计算领域，随着 LLM 和 SLM 技术的持续迭代，搭载摄像头、麦克风等多模态传感器的各类主流消费电子在 AI 技术的加持下，正加速推动图像识别和语音交互技术升级，这不仅实现了隐私数据的本地化安全处理，同时为机器人等新兴应用场景注入了强劲的增长潜能，使其能够实时处理海量音视频数据，进而显著提升环境感知和交互等关键能力。

在 Copilot 智能生产力工具方面，生成式 AI 已广泛应用于编程辅助、智能办公、图像处理、音视频编辑等诸多生产力场景。这类应用对低延迟和隐私保护的特殊要求，使其天然适配端侧计算架构，同步带动终端算力需求的高速增长。

AI Agent 技术正在重构人机交互范式。通过自然语言理解、任务分解和多任务协同等能力，智能助理系统将逐步取代传统图形界面，为用户提供更自然流畅、更高效智能的新型交互体验。

异构算力：端侧突围赛的“智”胜关键

算力，始终是 AI 应用场景拓展与技术创新的核心要素。相较于云侧集中式部署的高算力 CPU 和 GPU 集群，端侧算力则呈现出显著的差异化特性。由于端侧设备数量庞大且分散，算力水平参差不齐，且功耗与成本约束严苛，这些因素催生出了多元化的端侧算力体系。从长远来看，异构计算无疑是端侧 AI 落地的最优解。

CPU 作为端侧设备的基础计算单元，凭借其卓越的通用性，广泛应用于从入门级到高端的各类设备。Arm®Cortex® 系列 IP 不仅满足稳定的通用计算需求，其配套的 Kleidi 软件库还针对 CPU 的 AI 加速能力进行了专门优化。在实际应用中，CPU 通常作为 AI 工作负载的起点，为开发者提供便捷的部署路径。此外，随着 LLM 日趋轻量化，CPU 也承担着更为复杂的 AI 计算任务。

NPU 则凭借其出色的能效优势逐渐成为端侧 AI 计算的主力担当，特别适合处理高算力、长耗时的 AI 任务。安谋科技自研新一代“周易”NPU 采用专为大模型特性优化的架构设计，将对外带宽提高至 256GB/s，全面支持 FP16 计算，并提供完整的 INT4 软硬量化加速方案。通过软硬协同优化，“周易”NPU 实现了多核算力的高效扩展，为终端设备的智能化升级提供了核心动能。

在图形相关的 AI 计算领域，GPU 具有独特优势，在视频处理和游戏场景中表现尤为突出。ArmMali™ 和 Immotalis™ 系列 GPU 在保持优异能效比的同时，通过并行计算架构有效支持各类 AI 工作负载，以实现图形渲染与 AI 计算的协同优化，为用户带来更加沉浸式的体验。

CPU、NPU 和 GPU 的协同工作，并结合端云混合计算模式，能够满足绝大多数 AI 应用场景的不同算力需求。随着异构计算技术的持续演进，端侧设备正逐步承担更大比例的 AI 计算任务，这一趋势正在重塑整个 AI 计算生态。

软件框架：连接 AI 应用与算力的关键纽带

AI 软件生态作为应用发展的土壤，承担着高效调度硬件算力的重任。当前，云侧已形成以“PyTorch+CUDA+GPU”为核心的成熟技术体系，为 AI 研发提供标准化支持；而端侧 AI 生态则暴露出诸多亟待解决的问题，例如生态碎片化严重、大模型适配能力欠佳、跨平台兼容性差、扩展性受限、无法快速响应应用功能迭代需求等。

为此，安谋科技“周易”NPU 提供了一套完整的 AI 软件平台——“周易”Compass，使开发者可以便捷、快速地进行算法移植和部署。该平台提供一整套端到端的 AI 软件栈工具，覆盖了仿真器、驱动、Runtime、OpenCL 语言编译器、Compiler 网络编译器等，能够有效支持不同层级的开发需求。此外，平台新增了对备受开发者关注的 Hugging Face 模型的支持，并通过开源网络编译器的 Parser 和 OPT、适配 TVM、发布 DSL 特定领域编程语言等举措，切实有效地帮助开发者将基于“周易”NPU 的 AI 技术融入到各类开发项目中。

当前，端侧 AI 软件生态正处于关键发展期，需要在标准化与定制化之间寻找平衡。产业界普遍预期，未来 2 到 3 年将形成 1 至 2 个主导性的基准框架，需要在保持开放性的同时，深度优化特定硬件平台的计算效能。

展望：AI 应用为端侧芯片按下创新“加速键”

回顾 PC 互联网与移动互联网的发展历程，应用需求始终是芯片技术迭代的关键驱动力。在移动应用场景中，对性能与功耗兼顾的需求使 CPU 大小核架构成为主流；消费者对拍照质量的高要求，推动芯片级影像处理技术成为旗舰手机的标配；人们随时随地的游戏和观影需求，也促使芯片厂商不断提升芯片图形渲染和视频编解码能力。

步入新一轮 AI 技术浪潮，如何构建异构算力体系，协同适配软件生态，加速 AI 应用在 PC、手机、智能穿戴、机器人、座舱等场景的落地，这无疑将成为端侧厂商们实现可持续发展的关键命题。安谋科技将深耕端侧 AI 领域，通过自研“周易”NPU 等产品、结合 Arm 体系优势、以及开放开源软件生态，持续赋能 AI 时代的技术创新与产业升级。

声明：Arm、Cortex、Immortalis 和 Mali 是 Arm Limited（或其子公司）的注册商标或商标。

端侧设备：AI 技术普惠的重要载体

异构算力：端侧突围赛的“智”胜关键

软件框架：连接 AI 应用与算力的关键纽带

展望：AI 应用为端侧芯片按下创新“加速键”

推荐阅读

目录