免责声明:这次我看到的像是Intel官方资料,并且没有标注“保密”的字样。
昨天看到一篇新闻《56核心350W功耗!Intel发烧U百分百泄露:能配4TB内存》(链接:https://news.mydrivers.com/1/878/878088.htm),顺便跟大家分享一下。
可能是由于Sapphire Rapids-SP架构的第4代Xeon Scalable处理器跳票,Intel似乎开始有意无意地提前宣传了,也包括服务器平台在内。
双路Sapphire Rapids-SP:对工作站用户资源过剩?
Expert 2S WS(专家级双插槽工作站)
如上图,这个架构的特点就像今天的双CPU工作站——基本上沿用服务器的平台。2颗Sapphire Rapids-SP CPU各自提供8个DDR5-4800内存通道和80个PCIe 5.0 lane,CPU插槽为LGA-4677,最高TDP功耗350W。
上面图表里只列出了4th Gen Xeon SP Platinum 8400系列中的几款型号,单从技术角度上讲,对应的工作站主板应该也支持金/银/铜牌那些6400、5400等系列CPU。
与今天的第2代Xeon Scalable工作站相比,2颗56核CPU把核心数提高了一倍。要想把这些资源都充分利用起来,对工作站软件的优化有些挑战了。这个话题我在下文中还会聊。
内存控制器只有在每通道1条时才能达到DDR5 4800MT/s的速率(与12代Core CPU的DDR5支持类似,参见《以“小”见大:从Precision 3660看工作站技术发展趋势》),2条时应该会降频。按照256GB DDR5 ECC最大单条容量来计算,单CPU 16条就是4TB,双CPU最大8TB内存容量。
双CPU PCIe 5.0 lane数量达到160,这对主流工作站的需求似乎有些超标了:)
Intel C741 PCH芯片组主要负责一些低速连接,包括USB和SATA等。20个SATA 3.0口可以满足一些存储服务器了,比如12-16 HDD盘位的。
Sapphire Rapids-112L:直面竞争AMD Threadripper PRO**
Expert 1S WS(专家级单插槽工作站,代号末尾的112L代表PCIe lane数)
Intel Xeon W-3400也是LGA 4677 CPU插槽和350W最高TDP,明显是Sapphire Rapids-SP的衍生品。按照不提供多CPU互连的UPI接口和PCIe 5.0 lane增加到112来看,比较类似AMD单路EPYC和Threadripper PRO(线程撕裂者)的玩法。
扩展阅读:《AMD 64核搅局工作站市场:Dell Precision 7865技术解析》
如上图:Intel的高速I/O在CPU内部应该也预留了重定义的支持,我猜Xeon W-3400比Sapphire Rapids-SP多出来的32 lane PCIe控制器就来自一些UPI的位置。112 lane PCIe可以轻松支持4块PCIe x16的显卡/GPU,以及更多的NVMe SSD和扩展卡等。
Intel W790芯片组的规格,也比前面的C741明显要高。比如USB 3 (20G)、USB 3 (10G)这些,还有WiFi等在服务器基本用不上,
参考上表,Intel Xeon W-3400包括3款W5系列、3款W7系列和2款W9系列CPU,最高的W9-2495X还是56核。Xeon W-3400全线支持IntelTurbo Boost Max 3.0——即单核可以超到更高一点的频率,其中X结尾是不锁频的型号,但估计大厂工作站的BIOS可能不会开放手动超频。
Xeon W-3400的前身可以看成是Xeon W-3200和3300系列,不过之前两代规格上与2、3代Xeon SP CPU较为接近,PCIe lane只有64条,如果全部用于连接4个GPU也比较勉强。所以我们看到苹果Mac Pro采用了下面的显卡设计:
基于Xeon W-3200的Mac Pro工作站用2块双芯AMD显卡实现了4 GPU,每块显卡上可以看到一颗PCIe Switch。由于苹果跟NV闹掰了,所以视频处理加速可以加另一块FPGA卡,反正硬件利润大大的。
2019年Apple发布的Mac Pro(搓衣板)
回到最新的Xeon W-3400,在CPU核数、PCIe高速信道、16个DDR5 DIMM内存扩展性方面,都接近或者超出了已有双路工作站的水平。可以预见该平台与AMD Threadripper PRO(或其下一代产品),应该是未来竞争高端工作站市场的双雄(Intel市场基础还是好)。
为什么我相对不那么看好Sapphire Rapids-SP双路工作站呢?这个与今天单路服务器取代一部分低端双路机型是同样的道理。
还有一点:在Windows系统下,超过64个CPU逻辑核心就会分成2个处理器分组,不是所有的单进程应用都能使用到超过64 CPU线程,特别是一些对NUMA(非一致性内存访问)优化不好的软件。比如我曾遇到过有的使用CPU渲染图像的程序,在64核AMD Threadripper PRO上就只能跑满一半CPU核心。
工作站应用一个较为普遍的特点,就是要争取单一应用性能最大化,这与服务器应用的多任务、多进程并发有明显区别。另外跨CPU插槽的内存访问也会影响效率,当然Intel从Sapphire Rapids-SP这一代Xeon开始,相当于也有片上的Sub-NUMA(56核分为4个内存控制器)了。
Sapphire Rapids-64L:Xeon W-2400主流工作站
(注:代号末尾的64L代表PCIe lane数)
按照规律,定位越低、性价比越高的产品,市场空间(Unit出货量)就越大,Intel Xeon W-2400在本文中就是如此。
虽然Xeon W-2400的CPU核心最多24个(Xeon还都是都是大核)、PCIe 5.0 lane 64个、内存也减到4通道DDR5,但CPU插槽仍是LGA 4677,W790芯片组也和Xeon W-3400平台使用的同一颗。
相比之下,当前的Xeon W-2200系列最多18核、PCIe 3.0 lane数量为48。Xeon W-2400 CPU的最高TDP功耗也从165W提高到225W。总体来看更像是常规升级,只是这一代平台等了5年。
Intel Xeon W-2400系列的8个型号CPU也分为W3、W5和W7三档,从6核到24核,也是X结尾的不锁频。4通道8条内存最大支持2TB,不过256GB DDR5内存应该很贵,能配得起8条128GB的工作站用户已经比较壕了。
展望
最后就是上市时间。也许再过3-4个月?到时希望能看到Intel与AMD平台的良性竞争,包括Threadripper PRO的降价?就像桌面市场那样,我认为AMD要想在工作站领域普及,当前的性价比可能还不够:)
作者:企业存储技术
原文:企业存储技术
推荐阅读
欢迎关注企业存储技术极术专栏, 欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。