新的 Armv9 CPU 加速 AI 在移动设备等领域的发展

作者:Arm 终端事业部 CPU 产品管理总监 Saurabh Pradhan

当今移动设备上的大多数人工智能 (AI) 工作负载均可在 Arm CPU 上运行。在智能手机领域,基于 Armv9 CPU 技术构建的 AI 旗舰智能手机立于技术前沿,其中包括搭载 MediaTek 天玑 9300 芯片的 vivo X100 和 X100 Pro 智能手机、三星 Galaxy S24 以及 Google Pixel 8,为 AI 创新提供了前所未有的机遇。

随着 AI 工作负载的计算强度及复杂度持续增长,Arm 最新的 Armv9.2 CPU 集群带来更强性能、更高效率,以及更多功能,为新一代 AI 奠定扎实基础。这些优势可扩展到包括旗舰智能手机、AI PC,以及主流移动设备、XR 和可穿戴设备等在内的各类消费电子设备,彰显了我们致力于实现无处不在的 AI 所作的努力。

新增至 Armv9 CPU 组合的新品包括具备超强性能的 Arm Cortex-X925 CPU 和可持续提供出色性能的 Arm Cortex-A725 CPU,而更新后的 Arm Cortex-A520 可为低强度工作负载提供更卓越的能效表现。与此同时,我们也更新了 DynamIQ Shared Unit (DSU-120),从而在 Armv9.2 CPU 集群配置中,降低功耗和缩小面积。这些产品被集成至 Arm 迄今为止针对安卓系统速度最快的计算平台 —— 新的 Arm 终端计算子系统 (CSS)

image.png
图:Armv9 CPU 系列的新产品及更新

Cortex-X925 实现了 最显著的 Cortex-X 性能提升

Cortex-X925(内部代号为 Blackhawk)与此前的 Cortex-X 产品相比,实现了最高的同比性能提升,重新定义了计算性能的发展轨迹。Cortex-X925 的单线程(峰值)性能提高了 36%(与 2023 年高端安卓手机上运行 Geekbench 6.2 相比),并且其 AI 性能提升了 46%(与前代 Cortex-X4 CPU 上的 Phi-3 词元首次响应时间相比)。

image.png
图:Arm Cortex-X925 性能提升

Cortex-X925 的功耗性能配置意味着它能在关键时刻提供峰值性能。这有助于提高跨应用、生成式 AI 工作负载、网页浏览、摄像头后处理、视频录制和 AAA 游戏的响应能力,进而带来更优异的用户体验。

这些性能提升得益于 Cortex-X925 出众的性能基础及其开创性的新微架构。Cortex-X925 通过经优化的三纳米工艺,辅以卓越的子系统和封装,使得新一代消费电子设备的性能分数可提高 30% 以上。包括高达 3MB 的私有 L2 缓存在内的微架构改进,提供了更强的 CPU 集群可配置性,让各类消费电子设备的创新成为可能。

作为 Arm 终端 CSS的一部分,我们协同设计并交付了 CPU 物理实现。我们携手领先的代工厂合作伙伴,实现了流片就绪的 Cortex-X925 三纳米工艺的物理实现,助力我们的合作伙伴能够在三纳米工艺上充分发挥功耗、性能和面积 (PPA) 优势,同时通过大批量生产就绪的芯片解决方案来缩短芯片的开发与部署进程。

Cortex-A725 持续提供出色性能

Arm Cortex-A700 系列 CPU 的出色性能效率一脉相承,Cortex-A725 也不例外。作为 CPU 工作负载的主力,我们的工程和设计团队就 Cortex-A725 进行了针对性更新,着力于需要持续出色性能的关键 AI 和游戏用例。与 Cortex-A720 相比,Cortex-A725 的性能效率提升了 35%,能效提升了 25%。

image.png
图:Arm Cortex-A725 性能和能效提升

Cortex-A725 的性能效率提升同样得益于其微架构的改进。和 Cortex-X925 一样,通过 Arm 先进的物理实现,我们在三纳米工艺上优化了 Cortex-A725 的实现。我们还可为主流消费技术市场提供面积优化的实现。

Cortex-A520 和 DSU-120 的更新

Cortex-A520 已针对 Arm 终端 CSS 进行更新,从而提供更为出色的能效,与 2023 Arm 全面计算解决方案 (TCS23) 中的 Cortex-A520 相比,其效率提升了 15%。Cortex-A520 的更新得益于更新的实现与先进的三纳米物理实现。

image.png
图:更新后的 Arm Cortex-A520

作为新的 Arm 终端 CSS 的一部分,DSU-120 已针对新一代用例和消费电子设备体验进行了强化。其中包括新的性能和效率功能、新的低功耗模式和面向主流消费电子设备的强化,并保留了为高性能用例扩展到 14 个核心的选项。得益于此,典型工作负载的功耗显著降低 50%,并且整个 CPU 集群的缓存未命中功耗降低 60%,从而减少漏电并延长设备的电池寿命。新的低功耗模式(例如 half slice power down 和 quick nap)和增强功能支持大量低强度和高强度的 AI 工作负载,包括生物特征识别、语音转文本、AI 智能摄像头、内容创建和基于机器学习 (ML) 的 AAA 游戏。

image.png
图:DSU-120 更新和提升

Arm 性能最强、效率最高、用途最广泛的 CPU 集群

这些新推出和更新后的 CPU 构成了 Arm CPU 集群配置,为广泛的消费电子设备提供前所未有的性能、效率和广泛用途。概括地说,与采用上一代 Cortex-X4 的 CPU 集群相比,新的 CPU 集群的 AI 性能提高了 46%,能实现了更高的响应性能和持续的吞吐量。与 TCS23 CPU 集群相比,它使关键用户体验指标(结合性能与功耗)提高 30%,进而加快应用访问和网页浏览速度,提升 AAA 游戏体验,并延长电池使用寿命。

最新的 Arm CPU 集群还可为各类的消费电子设备提供出色的扩展能力。例如,它为 PC 和笔记本电脑提供一流的性能,与当前发售的 PC 和笔记本电脑设备相比,性能提高了 25%。同时,与 TCS23 中的 DSU-120 相比,功耗和面积均获得降低,加上通过 Cortex-A725 和 Cortex-A520 带来的面积和功耗优化,为主流设备提供了灵活的 CPU 集群配置组合。这有助于在各类低成本的消费电子设备上提供优异性能和 AI 功能,确保日常设备用户能够获得高级的 AI 体验。

image.png

Armv9 CPU 面向新一代 AI 体验

新的 Armv9.2 CPU 集群为安卓智能手机、PC 和笔记本电脑等设备提供出色的性能与用户体验。该集群提供一整套实际用例的改进,集群中各个 CPU 组件均涵盖广泛的实际用例和工作负载。例如,Cortex-X925 可处理应用启动和网页浏览的“突发”工作负载,Cortex-A725 可提供常见 AI 工作负载和 AAA 游戏所需的持续性能,Cortex-A520 的高效率则非常适合轻量型媒体和闲置及后台任务。所有这些增强的实际用例体验都可以扩展到各类消费技术领域,新推出的 Armv9 CPU 为主流设备和日常用户带来了更高的性能和更强大的 AI 功能,从而使关键用户体验指标提高 30%。

随着用户在其设备上花费的时间不断增多,并期望获得更高级的体验,消费者对技术的需求永无止境。无论是更快的网页浏览和应用访问速度,还是增强的 AAA 游戏与生成式 AI 工作负载,新的 Armv9 CPU 通过先进的计算功能提升各类体验,进而定义消费技术的未来。

本文为 Arm 原创文章,转载请留言联系获得授权并注明出处。
文章来源:Arm社区

推荐阅读

推荐阅读
关注数
23561
内容数
1010
Arm相关的技术博客,提供最新Arm技术干货,欢迎关注
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息