今天,代号Sapphire Rapids(SPR)的第四代英特尔至强(Intel Xeon)可扩展处理器,终于来了。
从三代Lake变到Rapids,有继承,有发展。这里的继承是指2D Mesh(网格)架构,发展是指Chiplet(小芯片)技术,都与CPU核心数的增长密切相关,而又不止于此。
第四代英特尔至强可扩展处理器(以下简称“四代至强CPU”)的核心数最多可达60个,比代号Ice Lake(-SP)的第三代至强可扩展处理器高出50%。相应的,公开款的TDP指标上限,也从270瓦(W)一跃而至350瓦。
这一波核数增长的关键是,大英(终于)从单片式(monolithic)的die,转为四等分的die拼接。
这早就不是什么秘密,不到一年前,在《2021中国云数据中心考察报告》第二章“多元算力”篇,我用AMD初代EPYC(代号Naples)和AWS Graviton3两位“前辈”做了简单的类比。四代至强与EPYC初代的共同点是对等的4个die(AMD称之为MCM);与Graviton3的共同点是2D Mesh架构、DDR5和PCIe 5.0。
区别在于,Graviton3的Chiplet是将DDR5、PCIe 5.0等外围I/O分离出去,核心复合体(Core Complex)还是在同一个die上,保持了较好的整体性。四代至强则是核心复合体也一视同仁的分为4份,通过英特尔的EMIB(Embedded Multi-Die Interconnect Bridge,嵌入式多芯片互连桥接)技术连接为一个近似单片(quasi-monolithic)的“die”,相应的2D Mesh架构也就更为复杂。
既然全部四等分,也就不难理解,四代至强CPU的很多关键部件,都是4的倍数,包括但不限于:
- (最多)4个16GT/s的UPI,用于CPU之间的通信;
- 8个DDR5-4800(1DPC时)内存通道;
- 4个HBM2e高带宽内存die……
特别值得一提的是四代至强CPU集成的4种加速器,分别是:
- 优化流数据移动和转换操作的数据流加速器(Data Streaming Accelerator),简称DSA;
- 用于加速加解密和数据压缩解压缩的QuickAssist技术,简称QAT;
- 用于网络的动态负载均衡器(Dynamic Load Balancer),简称DLB;
- 用于高级数据分析的存内分析加速器(In-Memory Analytics Accelerator),简称IAA。
不同于CPU核心集成的AMX(Advanced Matrix Extensions,高级矩阵扩展),DSA、QAT、DLB和IAA的集成是die级的——每个die各1个,每个CPU最多各4个。换句话说,它们4个,和CPU的核心数没有对应关系。
核心数与2D Mesh架构的组织方式有关,四代至强CPU的die分为XCC(eXtreme Core Count,最多核or极多核)和MCC(Medium Core Count,中等核数)两种(三代至强CPU是XCC和HCC),分水岭是32核——既有XCC,又有MCC,可以用UPI的数量辅助判断:4个UPI的是XCC,3个UPI的是MCC。
至强可扩展处理器的SKU Number(我愿称之为“型号”)规则也得以保留,数字第二位是 4 代表第四代英特尔至强可扩展处理器,第一位代表所处级别,有6个等级,其中4个一直都在:
- 8:Platinum(铂金);
- 6和5:Gold(金);
- 4:Silver(银)。
在第三代英特尔至强可扩展处理器中断的3和9也回来了:
- 3:Bronze(铜);
- 9:在第二代英特尔至强可扩展处理器加入,可能因为“胶水”的原因,仍属于Platinum。这一次被授予集成HBM2e高带宽内存die的SKU,单开一个Max系列。
铺垫了半天,终于可以快进到SKU数字解读的环节。英特尔把这些SKU分为两大类,各5个细分类别。首先是各种通用(General Purpose,GP)型,最大的共同点在于4种die级加速器的(默认)数量:仅SKU数字最后以 + 号结尾的有DSA、QAT、DLB和IAA设备各一,其他都只有1个DSA设备。
(PS:为方便手机端阅读,我们根据英特尔官方的第四代至强产品SKU图重新制表,精简拆分成10个小图,难免会有疏漏之处,以文末“阅读原文”链接中的原始数据为准)
换句话说,第四代英特尔至强可扩展处理器的每个SKU都至少有1个DSA设备,其他3种(加速器)设备要么是没开,要么数量不定,得看具体情况。
在通用大类中,还有几条除单路外普遍适用的规律:
- 可以扩展到双路(2S);
- Platinum有4个UPI,XCC;
- Gold有3个UPI,MCC;
- Silver当然也是MCC,只给2个UPI。
2S性能(通用型)
成员来自Platinum和Gold,数量最多,TDP的跨度也最大,还有多达4个 + 。
2S主流(通用型)
除Platinum和Gold,还有2个UPI的Silver,以及另外的3个 + 。
液冷(通用型)
52核与32核各1款,基频(Base)与全核睿频(All Core Turbo)都力压同核数的其他SKU,当然TDP必须350瓦,不然对不起SKU后面加的那个 Q(代表Liquid Cooled)。
单路(通用型)
SKU数字以 U 结尾,UPI不需要(0),有1个6开头的XCC。
长使用寿命(IoT)通用型
SKU数字以 T 结尾,仅1款,来自Silver,10个核,2个UPI应该够用。
另一大类包括面向不同应用场景的优化型SKU,包括:
内存数据库/分析/虚拟化优化
SKU数字以 H 结尾,支持扩展到4路(4S)和8路(8S)。这个SKU池的规模仅次于2S性能(通用型),核数从最少到最多(8~60),跨度最大。
双路配置可以把所有的UPI都用于2个CPU之间互连,享有全部的带宽,以满足CPU核心数增长的需求。单纯从互连的角度,3个UPI不仅可以组4路,也可以组8路。所以这些SKU中,8开头的Platinum们有4个UPI支持8路,6开头的Gold们有3个UPI支持4路,都算尽可能兼顾拓扑规模与互连带宽的结果。
内存数据库(IMDB)、分析和虚拟化应用都需要较多的核心和较大的内存容量,英特尔一方面以更多的CPU来冲量,一方面为每个CPU开通更多的加速器。这些SKU中有3款把4种加速器(设备)都拉满,充分加速各种与数据相关的操作。
5G和网络优化
SKU数字以 N 结尾,完全符合Platinum属XCC、4个UPI,Gold属MCC、3个UPI的一般规律,但两者中都是既有双路也有单路(Platinum 8471N、Gold 6421N和5411N)。
云优化
1款IaaS型以 P 结尾,2款SaaS型以 V 结尾,这3款都属Platinum,却有2款3个UPI,1款仅支持单路(0个UPI的Platinum 8461V)。
还有1款媒体型,以 M 结尾。
存储及超融合(HCI)优化
SKU数字以 S 结尾,核数不算多,加速器比较全乎——独缺与内存关系密切的IAA。TDP控制在三代至强的水平,有另1个6开头的XCC(4个UPI)。
HPC优化
前面提到的英特尔至强Max系列,SKU数字以 9 开头,集成64GB HBM2e高带宽内存,一些不算很大的数据集可以直接在其中运行,甚至不需要安装DRAM(即不插内存条)。
核数32~56,没到60个,即每个die的核数比上限少一个,多了一个HBM内存控制器。
核数最少的Intel Xeon CPU Max 9462基频及全核睿频高,它和9460都是3个UPI。TDP均为350瓦,高性能计算行业在散热上最有经验。
5个SKU都开满了4个DSA设备,其他的外挂(die级)加速器均置0。