作者注:本文最初发表于2019年4月3日。
- 铂金9200:56核112线程
- 提高频率为主的全面换代
- 傲腾数据中心级持久内存助力铂金8200和金牌二代
- 新增4种面向特定应用场景的优化产品
- Nervana实物先睹……
今天,英特尔(Intel)正式推出由傲腾数据中心级持久内存加持的第二代至强可扩展处理器(Xeon Scalable Processor,XSP)家族,对应在太平洋两岸近乎同步召开的“以数据为中心”(Data-Centric)发布会主题。
代号Cascade Lake(CLX)的第二代至强可扩展处理器可以视为前代产品(代号Skylake,SKL)的完善版,架构和工艺都没有明显的改变。在这种情况下,从3开头的铜牌(Bronze)系列到8开头的铂金(Platinum)系列,除了后面的数字从1变成2(第一代和第二代),最常见的变化是基频(Base)和睿频(Turbo)有100~300MHz的提高,内到互联架构与最高28核56线程、外到6通道DDR4和48条PCIe,都与初代保持一致。
新增的至强铂金9200系列是个例外。
氪金玩家的Platinum 9200
2017年7月12日英特尔正式推出至强可扩展处理器(Skylake)及平台,之后的一个月内我写了几篇产品和架构解析的文章。在《至强SP简析:FPGA及Fabric版本揭密》一文中,我调侃至强可扩展处理器从铜牌、银牌、金牌到铂金的命名体系可能是受了80 PLUS电源认证体系的启发,并预言“随着至强可扩展处理器TDP的进一步上升,未来会出现类似Titanium 92xx这样的产品”……
现在看来,预测对了一半:的确增加了9200系列,但仍在铂金旗下,并没有多出一个钛金。
要理解Platinum 9200系列,有必要简单回顾下始于Skylake、被Cascade Lake延用的6×6 Mesh架构。
这个共36个节点的网格结构,上面一排共6个用于UPI(CPU之间)和PCIe(外部设备),左右两边各1个用于3通道DDR4内存控制器(可达DDR4-2933,Skylake为DDR4-2666),留下最多28个节点用于处理器核心,所以Cascade Lake-SP(Platinum 8200及以下)和Skylake-SP都无法超过28核56线程。
Platinum 9200的代号是Cascade Lake-AP,即Advanced Performance(增加性能)的缩写,相应的SP代表Scalable Performance(可扩展的性能)——可以理解为“普通版”。
Cascade Lake-AP在2018年11月初放出消息时,只有48核,为2个24核die的MCM(MultiChip Module,多芯片模块)封装。但在正式发布的产品家族中,48核的Platinum 9242只能排在第二档,上面还有56核的Platinum 9282——相当于把2个28核的顶级款Cascade Lake-SP给“粘”在了一起。
9200的双路(2S)相当于8200的四路(4S)
“胶水”的具体实现简单粗暴。9200系列支持双路配置,意味着4个die(每个die可以理解为1个Cascade Lake-SP)要彼此互连。以铂金8000系列(以及金牌6000系列)的3个UPI,是支持4个CPU之间全网状连接(full-mesh)的,即任意两个die之间都有直接的UPI连接。这样一来,每个die对外有2个UPI,每个9200系列处理器对外就有4个UPI。
Advanced Performance(根据英特尔官网刚刚公开的数据,9222的睿频和基频尚未最终确定,9221则干脆没有出现……详情可点击文末“阅读原文”核对)
通过这种直接的1+1=2,9200系列的最大内核数量、每处理器支持的内存通道数量都达到了8200/8100系列的两倍,在某些应用中也获得了近乎两倍的性能提升(9282 vs. 8180)。TDP(Thermal Design Power,热设计功耗)亦同步增长,最低的922x为250瓦(W),9282则高达400瓦——如果不是主频有所降低,达到410瓦(8280的两倍)也是很有可能的。
如此高功率的CPU对服务器的散热提出了很高的要求。以伴随Platinum 9200系列推出的Intel Server System S9200WK家族服务器产品为例,有1U半宽和2U半宽两种节点,前者必须使用冷板式液冷,后者可选风冷,但仅支持到350瓦(的9242)。
Cascade Lake-SP概览
不算“开胶”(对应“开挂”)的4款Cascade Lake-AP,我们现在能看到的Cascade Lake-SP,共有43个公开的型号(SKU),比Skylake-SP最初发布时精简了8款——因为加上了后来推出的Gold 6138P,第一代至强可扩展处理器公开的型号多达52个。
改进的14nm制程(14nm++),在31款换代产品(即型号仅第二位由1变成2)中最为普遍的收益是200~300MHz的主频(基频和睿频)提升,有些核数多了2~4个,还有些LLC(Last Level Cache,末级缓存)的容量得到了少量增加;逾七成(22款)TDP保持不变,另9款TDP有不同幅度的上升。
支持的内存频率也从DDR4-2666提高到DDR4-2933,不过,内存方面最大的改变还数从Skylake时代延至Cascade Lake时代的傲腾数据中心级持久内存。
Optimized for highest per-core scalable performance
傲腾数据中心级持久内存即Intel Optane DC Persistent Memory,中英文都长到拗口,很多大英的员工也记不住。所以尽管2018年5月底就发布了这个正式名称,很多人仍然愿意以之前的代号“Apache Pass”或其简写“AEP”称呼它。虽然我一度对Apache Pass怎么会简写为AEP感到接受不能,但在正式名称出来后,我也觉得还是代号更简洁易记。
为了叙述方便,下面我们会用“DCPMM”的简写来指代Optane DC Persistent Memory Module(傲腾数据中心级持久内存模块)。后面这个名字虽然更长,但确实较为精确的说明了这是一种什么产品——用在服务器等数据中心级设备中的NVDIMM。
自下向上,依次是64GB DDR4内存(DRAM)、256GB和512GB的Optane DCPMM,后者在外观上与加装散热片的DDR4内存没有两样
NVDIMM即Non-Volatile DIMM,可以通俗理解为不需要保持通电即可持久存储数据(非易失性)的内存条。闪存(如Flash NAND)等固态存储技术就是非易失性的,而且还比“正经内存”(DRAM)容量大、单位价格低,做成内存条的形状(DIMM)插到服务器的内存插槽上,可以作为“正经内存”的补充(或者廉价替代品)。
不过闪存的性能还是比DRAM差太远,延迟高几个数量级,写入尤其慢,更要命的是写入寿命有限,总之是各种不耐写。英特尔在2015年发布的傲腾(Optane)品牌基于3D XPoint技术,延迟只比DRAM高一个数量级,读写性能均衡,写入寿命也比闪存高得多,相较于作为固态盘(SSD),NVDIMM是其更为理想的使用场景。
Optane DCPMM硬件上是内存条的形态,需要和DRAM配合使用,即每个内存通道的2个DIMM槽上,离CPU更近的槽插Optane DCPMM,另一个槽留给DRAM。软件方面,有两种使用模式:内存模式不需要软件应用进行修改,App Direct模式则需要软件应用具备持久内存(PMEM)感知能力,各有利弊,留待以后专文另述。
内存模式面向传统工作负载,App Direct模式则需要应用软件进行针对性的优化
支持傲腾数据中心级持久内存是铂金(8200系列)和金牌(6200&5200系列)相对前代产品的一大卖点,其中6款还有大型(可达4.5TB)和中型(可达2.0TB)DDR内存层支持可选。
与前代一样,第二代至强可扩展处理器的通用产品分为两大类,一类是为最高每核“可扩展性能”优化,另一类直接是“可扩展性能”(scalable performance),姑且认为对应第一代的“Balanced, energy efficient perf/W”。
Scalable Performance
这里面值得一提的是Gold 5217,与Silver 4215都没有公开的前代型号。Gold 5117是百度定制的型号,从非官方信息来看,除了105瓦的TDP,其他主要参数都与Gold 5217有着较为明显的差异,似无直接关联。
5类后缀与工作负载优化
在评介Skylake的系列文章里,已经指出新的型号命名规则将严重依赖4位数字后面的2位字母“处理器选项”。第一代至强可扩展处理器有4种处理器选项,分别是M、F、T、P,在这一代M(每插槽1.5TB内存)被L(4.5TB)和M(2.0TB)所取代,F(Fabric)和P(FPGA)看似后继无人,只有T不变,又加上了N、S、V和Y。
Long-life cycle and NEBS-thermal friendly
T:长生命周期与NEBS热友好
T的解释是Thermal & long-life cycle support,主要针对长生命周期和NEBS较高工作温度的要求,除了电信(Telecom)行业,还可用于工业自动化(如IoT)和航天等运行环境较为严苛的领域。与前代相比,型号由9款减至5款,没有铂金版,3款金牌版(没有5118T)提升了核数与LLC容量,有3款的TDP指标比不带T的版本有所降低,与前代保持一致。
新增的4种后缀,则更加明确了所针对的行业应用场景,分别为特定的工作负载优化,特别是解决云计算时代,多个应用共享资源的情况下,如何保证SLA的问题。
VM density value specialized
V:VM密度专用
加V的只有2个型号,在核数相当的产品中TDP最低,差距最小也有10瓦,很大程度上得益于它们不到2.0GHz的基频。这意味着它们可以在同等(功耗)开销下,获得更高的虚拟机(VM)密度。
Featuring Intel Speed Select Technology (3 in 1)
Y:可变的核数与频率
这3款CPU看起来主要指标与不带Y的版本完全相同,却暗藏玄机。英特尔速度选择技术(Intel Speed Select Technology,Intel SST)让特定的CPU可以运行在多达3种不同的核数(core count)与频率组合下,譬如Gold 6240Y就有18C@2.6GHz、14C@2.8GHz、8C@3.1GHz的不同配置,8260Y和4214Y亦分别有24/20/16C、12/10/8C的可选状态。这主要是为了简化云服务提供商(CSP)和企业的基础架构,让他们用一种类型的服务器就可以满足多种业务需求,也算是一种SDC(Software Defined CPU/Compute)吧。
Networking/NFV specialized
N:网络/NFV专用
这3款CPU看起来也是“平平无奇”,至多在频率和TDP上与不带N的版本有些出入,实则同样支持SST技术。每款CPU的核心可以被动态的分为标准优先级和高优先级,具有不同的基频(SST-BF),以满足不同性质的网元对性能的差异性要求,无需改写代码即可提升关键应用的性能。
从上图中可以看出,三者标称的基频都是2.3GHz,但是标准优先级的基频均为2.1GHz,高优先级的基频为2.7GHz或略高。
Search application value specialized
S:搜索专用
从V/Y/N后缀的产品中可以看出一些定制的思路和技术,但是真正为具体客户定制的产品不会公开,Google和百度的定制版本也不会出现在这里。5220S面向小一些的搜索公司(如Yandex)或其他公司中的搜索应用,频率相对较高,以降低搜索延迟,但并不是所有搜索公司的业务需求都是如此。
One more thing……
NV并施按摩店,全面上线英特尔。
大英化解挑战的对策是全面出击,第二代可扩展处理器还增加了DL Boost和VNNI(Vector Neural Network Instruction,矢量神经网络指令)等功能,以加速AI应用的性能。不过,这些早已不是秘密,我们更为期待的产品恐怕是——