来源: 企业存储技术
作者: 唐僧 huangliang目录
-Chiplet小芯片能否做成异构计算?
-内存带宽跟不上PCIe:引出了串行化的OMI
-低延时“近端内存”& “远端”CXL.mem内存共享
-OCP HPC模块:OAI机箱中的8x OAM拓扑、服务器内存池化
今天我写的源于NALLASWAY分享的《OCP-HPC Concept Update - Worked Example based on AMD EPYC》。
Chiplet小芯片能否做成异构计算?
上面我理解只是一个假想图。由于AMD的MCM多Die封装技术,理论上可以做到把CPU核心、Xilinx FPGA、GPU和AI Die都集成到一起。但这种异构的效率高吗?
-Apple采用ARM架构的M1算是个成功吧,但M1及其后续CPU针对的PC市场更看重集成度和能耗比。服务器相对没那么严的空间限制,并且更多需要通用性和灵活性。
-如果4-8个异构Die,面积和各自的功耗不同,整体上还受限于CPU封装的TDP。这样在产品设计上如何做到平衡也是一个难题。参考下图中的Intel Xe:
我并不是说Intel这个Xe HPC芯片不好,而是它的成本应该不菲。如果背后没有高性能计算大单的金主,搞起来困难吧。
从另一个角度来看,让CPU、GPU、FPGA等各自专注做自己的事情,在服务器系统层面灵活组合,应该还是更加通用的做法。
以上这段内容并非本文重点,而后面我还会提到HPC的话题。
内存带宽跟不上PCIe:引出了串行化的OMI
记得我在《CXL__、GenZ__、CCIX__架构以及未来的PM__、内存和SSD__形态》一文中,曾讨论过内存/IO带宽跟不上CPU计算核心发展,而下面力图解决的问题则是内存带宽跟不上IO互连的发展。
上图是AMD EPYC Roma的IO Die分析,重点指出每个内存通道控制器的最大带宽/所占芯片面积是25.6GB/s / 7.9mm,平均带宽密度3.28GB/s/mm2。
这张图里的IO Die规格可能超标了
关于AMD下一代EPYC Genoa(7004?)IO Die,这里列出的速度、容量等规格都是假定而不一定准确的。
CXL / PCIe Gen5每个Lane的带宽是接近32Gbps全双工(双向合计约8GB/s),那么2组64Lane控制器的带宽总共就是接近1024GB/s。
DDR5-5200内存,左右两侧各6个通道,每通道带宽41.6GB/s,12个通道总计约500GB/s,只有CXL/ PCIe 5.0的一半。说白了,还是从PCIe从Gen3到Gen4,再到Gen5每次都翻一倍,相对太快了。
注:如果DDR5每通道只能有1条内存,那么12条256GB的单CPU总DIMM容量就是3TB。
可能还有用于CPU间互连的4组Fabric,也按照PCIe5.0那样的32GT/s来计算,每组的3条Fabric Channel相当于3个PCIex16即384GB/s的双向带宽。那么4组Fabric合计就是1,536GB/s?这个预测是不是太大了点,按照传闻中的LGA 6096插槽,我个人还是更倾向于AMD EPYC4的PCIe lane仍与Fabric复用信道?
不过,即使是与128 Lane PCIe 5.0相比,DDR5内存带宽也相形见绌(over subscribed)了。
内存I/O最终也会变为串行吗?
在上次讨论CXL等和未来内存形态时,我还认为OMI和DDIMM只是用于IBMPower平台的接口标准。而AMD未来在支持Intel主导的CXL.mem访问E3.S(EDSFF的一种Form Factor)内存时,为什么不能同时用Dual OMI x8 DDR4/5通道也扩展内存呢?
这个带有OMI__的Genoa IO Die__也是概念图
上述假设的前提,就是AMD要有一种把DDR5内存控制器改为OMI的设计。如上图,OMI-32G每个DDIMM接口有64GB/s的带宽,并且串行标准比DDR5节约pin引脚数量,这样两边各12个OMI-32G,就是总共1,536GB/s带宽。如此一来,与PCIe / Fabric就比较匹配了。
也是由于模组数量提高,每颗CPU OMI-32G的最大总容量可达256GBx 24 = 6TB。不过OMI就像IBM平台那样,相当于把内存控制器的一部分放在外置芯片上,虽然带宽还好但延时比CPU直连DDR5方案可能大一些,按照我之前引用的数据大致在20nsvs. 40ns这样的水平。
低延时“近端内存”& “远端”CXL.mem内存共享
这张图加入了并发低延时“近端内存”& 远端CXL.mem共享访问的概念。
上图中的蓝色箭头就是“近端内存”,毕竟Fabric是用于CPU之间的连接,虽然存在NUMA(非一致性内存访问),但应该还是比通过CXL / PCIe-G5跨节点访问的“蓝色箭头”性能好些。
总结AMD EPYC IO Die with OMI的好处如下:
-均衡内存带宽到Fabric和PCIe的带宽。
-保持EPYC Roma的LGA-4094插槽尺寸,或者更小。因为OMIDDIMM只使用到传统DDR内存通道1/4的pin脚数量,这样24个OMI通道可以放在6通道DDR内存控制器的空间里。
-简化主板布线——更少的PCB层数,降低成本。
-内存变为串行接口;
-内存(DRAM)技术无关性。例如在OMI/GenZ/CXL背后的LPDDR5可以改进功耗和更好的随机访问。(_开个玩笑,我觉得Intel不会做OMI接口的Optane PM持久内存_)
OCP HPC模块:OAI机箱中的8x OAM拓扑、服务器内存池化
如上图,按照AMD EPYC Genoa改成OMI内存的设计,每2个8 Lane通道对应1个E3.S的双OMI通道DDR5模组。总体上就是192x OMI Lane,以及128x CXL / PCIe Lane。
完全可组合式的计算节点——来自OCP的OAM-HPC模块
如果我们把上述新AMD EPYC放在OCP的OAM模块的顶部,而PCB另一侧(即CPU的背面)插12个E3.S OMI内存模组呢?余下的4个CXL/PCIex16插槽可以安装E3.S NVMe SSD;另外还可以有Nearstack CXL/PCIe x8线缆引出,用途稍后讲。
这种设计的一个机会是降低阻抗和传输能耗,从而更容易支持未来的DDR5-6400;另一个机会就是把AMD EPYC Chiplets直接BGA焊在板子上,去掉LGA 4094封装——也能改善功耗和信号完整度。
8个OAM-HPC模块放在OCP-OAI机箱里,节点间使用线缆的点对点互连拓扑应该就是通过CXL / PCIe 5.0。我们前面提到过CXL.mem协议,可以组成一个大的内存池。
其实即使不用OMI连接内存,传统DDR5照样可以配合CXL.mem跨节点组成内存池,只是内存带宽上会有瓶颈(这时知道拓宽内存带宽的重要了吧)。
上图我在4年前的《从Power9__互连技术看Intel__与IBM__的生存之道》中引用过。由CXL.mem内存一致性协议互连的系统,还是没有IBM水平+垂直SMP Cable全互联的耦合度高。
扯远一点,至于IBM在米国政府3套新建的HPC大单中输给了Intel和AMD,则说明技术在HPC生意中只是一个方面,成本/商务谈判/客户关系也很重要。
冷板式液冷+ _内建54V Power BusBars供电,扩展阅读《_后IB__时代的GPU__服务器:48V__和液冷哪个先行?》
上个月我写过冷板式液冷的新一代IceLake Xeon SP服务器,OAM模块如果功耗高了也可以考虑液冷。上图只是做为一个参考,因为CPU表面覆盖了冷板,而在OAM PCB另一侧的OMI内存模组还是要风冷散热的。见下图:
EPYC OMI CXL.mem内存池化服务器
由8个EPYC OMI处理器OAM模块组成的系统,总共可支持到48TB OMI内存,其中每个CPU本地访问的都是6TB,另有42TB通过CXL.mem远程访问其它OAM模块上的内存。
整个系统聚合内存带宽高达12.3TB/s。每个CPU访问外部内存池的带宽为512GB/s(双向),也就是8个CXL / PCIe 5.0 x8。
小结
需要海量内存的应用,在我印象中除了SAP HANA,大多就是HPC了——同时还对内存带宽要求高。当然,我不确定本文中提到的概念/假设距离实际应用还有多远。大家如有进一步的想法,可以留言与我交流:
参考资料 https://pan.baidu.com/s/1IzN8...
提取码:c4h0
扩展阅读:《_企业存储技术》文章分类索引(微信公众号专辑)_》
推荐阅读
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。