关键词:X925、A725、3nm
1、引言
2024年5月,Arm一年一度的新处理器架构更新如期而至。今年是Arm超级大核心X计划的第五代产品,本来按照命名规则应该叫X5,但是这次Arm修改了命名规则,和A系列的命名规则做了一个对齐,新的名称叫做X925,A系列大核心新产品的名称叫做A725,小核心没有更新架构,还是A520。今年Arm新架构的指令集保持和上一年一样,还是Armv9.2架构。因为高通计划在今年采用自研架构处理器,所以预计MTK会先用上搭载X925核心的处理器。命名上,今年的X925,代号叫Blackhawk(黑鹰),A725的代号则叫做Chaberton(夏波顿,法国的一座山名)。
2、Arm的CSS方案
在2023年的TCS上,Arm就推行了CSS(Compute Subsystem)方案,我理解是一个和芯片厂商深入合作开发解决先进工艺适配的解决方案,可以基于3nm工艺和Armv9的技术,快速适配Android系统并优化AI等方案,具备高效整合CPU和GPU的能力,如将频率推高到3.6GHz以上(参考去年4nm的天玑9200+可以跑到3.35GHz),以及深入开展3nm的PPA优化等等。
3、3nm工艺制程
今年开始,Android阵营的旗舰处理器工艺逐步向3nm迁移,为半导体工业带来了更多的机遇和挑战。从前期苹果A17系列表现看,3nm依旧是一个成功的工艺制程,并且3nm还会逐步从N3升级N3E、N3P等更优秀的工艺制程。但是,从已经非常成熟的4nm向新的3nm迁移,需要花费更多的时间、金钱,也会遇到更多的问题,这也是Arm推CSS计划联合厂商一起设计的部分原因。况且3nm相比4nm有多少幅度的提升,仍然需要时间和更多产品的实际数据来检验。
从图中看,为新工艺准备,Arm在3-4年前,就要开启相关产品的ISA和IP设计了。
4、整体介绍
今年Arm参考设计中一个明显改变是大核心多了,相比传统的1+3+4架构,今年Arm的参考设计是2个X925+4个A725+2个A520的2+4+2架构。看下数据,Arm宣称X925的极限性能可以提升36%(是基于3.6GHz频率上的)。能效上则重点突出A725,相比A720可以改善35%。功耗呢,今年的A520虽然架构没有变,但是凭借3nm的工艺,也可以节省20%。DSU的型号还是120,可支持14核心(14个X925安排上吧),新引入了更多级动态缓存控制开关,负载功耗也可以优化多至50%。
5、X925微架构分析
Cortex-X系列的整体基调是偏向性能,经历了5年的微架构升级,也变得难有大幅度的微架构调整,至少从微架构上看和上一代的X4并没有颠覆性的改变。针对X系列的优化,Arm提出了三个优化路线,第一是面向用户负载优化,而不是单纯提升人工设计场景(如benchmark);第二是尽可能利用高带宽提高吞吐率,这一点从X系列的流水线宽度和运算单元数量上可见一斑;第三是优化前端预取和后端缓存能力,提升数据和指令执行读写效率。
为了让大家更好了解X925的变化,我把X4的图也贴了上来对比参考,这次X925具体优化如下:
5-1、前端设计
预取指模块的优化,在图中前端部分,首先看指令的Predecode Fetch Buffer,这个尺寸增加了一倍,从32B提升到64B,好处是让更多的指令可以处于待命状态,随时进入decoder。
分支预测模块的优化,优化分支预测模块减少预测错误分支,提升执行路径的流畅性和IPC。此外还提到了如采用了“fold out unconditional direct branches”等技术方案,对无条件直接分支进行优化。无条件直接分支其实并不需要预测,但是由于还是需要编码和确认地址,因此分支预测器还是存在停顿(Stall)的风险,最好可以直接获取地址并跳转,并且需要避免Cache和TBL缺失。
L1指令带宽的优化,看图中的L1带宽宽度,L1的指令带宽从32Byte增加到64Byte,iTLB也增加到原来的2倍,用来提升指令的编码性能。
5-2、后端设计
执行单元方面X925相比X4变化不大,最主要的变化是新增加了一个LD AGU单元。这里网络上的信息存在说法不一致情况,Wikichip的图片显示是新增加了一个LD AGU单元,而Cardyak提供的微架构图则显示是从一个ST AGU变成了ST/LD AGU。无论哪种说法,实际上X4的AGU是2ST+3LD,X925则是2ST+4LD,变化点是多了一路LD能力。这几代X系列一直在寻找LD和ST之间的平衡,从图中看X1是2ST+3LD,后来经过几次调整,X4又回到了2ST+3LD,X925则增加到了2ST+4LD,看来Arm认为还是需要提升硬件LD单元的占比。
此外,前端我们提到L1指令带宽翻倍,后端L1的数据带宽也同样从32Byte增加一倍,达到64Byte。同时,X925可以支持的L2缓存大小,也从X4的2MB提升到3MB。
后端上最大的变化是重排序缓冲(ROB)的尺寸增大了一倍,从384增加到了768,我认为这也是今年X925最重要的改变。我还特意查了一下苹果A17大核心的ROB尺寸是670,这次X925的ROB尺寸终于超过了苹果A17的大核心。通过增大ROB的尺寸,可以显著提升乱序执行(OoO)的能力,Arm宣称可以提升25-40%的乱序执行能力。
如表格显示不全,可手机横屏查看完整内容。
5-3、执行单元
在执行单元方面,面向不断增加的AI类和矢量类运算,X925这次新增了2路SIMD/FP运算单元,从X4的4路提升到6路。在整型ALU运算单元方面,原来只能执行单周期操作,经过优化后,X925可以支持更复杂的双周期操作。此外,整型乘法单元从2个提升到4个,浮点比较单元从1个提升到2个。这些改进都是针对用户日常使用的行为进行的调整和优化。
5-4、性能表现
2024年,Arm再一次给我们带来了X系列的最强核心,凭借3nm工艺的加持,这一代处理器性能继续有大幅度的提升,而CPU主频则可以运行在3.8GHz甚至4.0GHz之上。Arm的数据显示,运行在3.8GHz且做了完整优化的IPC,最多可以比上一代提升36%的IPC性能。从图中看,约25%的性能提升来自主频提升到3.8GHz,若不考虑频率提升单看微架构,预计有11%左右的提升,下图Arm以Geekbench6为例,认为微架构约有15%的提升。
总体看,这次X925的提升主要在3nm工艺带来的更高频率,ROB大幅度增加改善的OoO性能,以及新增的ALU运算单元和L1位宽的增加等。不过今年的处理器市场,苹果会迭代自己独立设计的A系列核心,高通也开始使用自己设计的核心处理器,X925面临的竞争对手更多,具体市场表现如何,让我们拭目以待采用X925的产品表现。
6、A725和A520
除了超级大核心X925,Arm今年也带来了全新的A725大核心Chaberton,A725相比A720变化不是很大,目前并没有看到A725的详细微架构图,只能通过Arm的资料了解变化细节。
首先是ROB尺寸变大了,还记得A715的ROB大小是192,A720没有改变还是192,目前可以得到信息是A725的ROB肯定要大于192,具体是多少今年还要遗留一个悬念。此外,因为增大了ROB的尺寸,所以指令执行队列深度也会相应有增加。
第二个变化点是L2的缓存,全年的A720可以支持128KB, 256KB, 512KB三种配置,今年的A725增加了1MB的L2缓存选项。这一点其实挺重要,因为不论是苹果的A系列处理器,还是高通今年的自研处理器,今年都在卷L2缓存的尺寸大小,因为大缓存一直是一个处理器性能提升的热点,当然价格会相应提升。
此外,Arm还提到这次的A725也针对3nm做了针对性优化,能效上借助3nm的加持,能效上相比上一代持续提升。
最后是A520小核心,虽然今年没有更新微架构,但是实现上针对3nm工艺做了一定的改进,Arm宣称在能效上有15%左右的改善。
7、总结
本文主要介绍了Arm公司在2024年发布的最新处理器X925和A725的架构变化。随着Armv9体系的深度演进,我们看到Arm的X系列和A系列架构也变得更加成熟,但是在微架构上也较难看到有大幅度的提升。
2024年最重要关注点应该属于3nm工艺制程的演进,这次Arm会将3nm工艺推广到Android系统的主流芯片厂商,从文中也可以看到,Arm的每款架构均针对3nm做了特定的适配优化,并且Arm还提出CSS方案来帮助芯片厂商更好的开发和适配基于最新工艺的SOC产品。
最后谈一下竞争,2024年,在主流智能设备SOC的赛道上新增了高通的自研处理器Oryon,Arm的Cortex系列处理器的竞争对手从原来和苹果A系列的两强争霸,到现在的的三国演义,竞争无疑是更加激烈的。从当前网络上的一些数据看,苹果的A系列处理器和高通的Oryon处理器都在走大缓存路线,虽然今年Arm也提升了缓存的支持容量,仍然稍有保守。不过,大缓存也意味着芯片面积的增加,会带来高昂的芯片成本。所以,最终这三家芯片的表现如何,还是要让我们用2024年旗舰的智能手机产品来验证。也要感谢Arm的产品线不断更新,市场的良性竞争和优秀SOC的出现,让用户可以不断用到速度更快、性能更强的处理器产品。
作者:Rockie
来源:OPPO内核工匠
推荐阅读
欢迎大家点赞留言,更多Arm技术文章动态请关注极术社区嵌入式客栈专栏欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。