AMD EPYC Genoa ‘7004’：若DDR5换OMI，CXL.mem服务器内存池化 - 极术社区

来源: 企业存储技术
作者: 唐僧 huangliang
目录

-Chiplet小芯片能否做成异构计算？
-内存带宽跟不上PCIe：引出了串行化的OMI
-低延时“近端内存”& “远端”CXL.mem内存共享
-OCP HPC模块：OAI机箱中的8x OAM拓扑、服务器内存池化

今天我写的源于NALLASWAY分享的《OCP-HPC Concept Update - Worked Example based on AMD EPYC》。

Chiplet小芯片能否做成异构计算？

上面我理解只是一个假想图。由于AMD的MCM多Die封装技术，理论上可以做到把CPU核心、Xilinx FPGA、GPU和AI Die都集成到一起。但这种异构的效率高吗？

-Apple采用ARM架构的M1算是个成功吧，但M1及其后续CPU针对的PC市场更看重集成度和能耗比。服务器相对没那么严的空间限制，并且更多需要通用性和灵活性。

-如果4-8个异构Die，面积和各自的功耗不同，整体上还受限于CPU封装的TDP。这样在产品设计上如何做到平衡也是一个难题。参考下图中的Intel Xe：

我并不是说Intel这个Xe HPC芯片不好，而是它的成本应该不菲。如果背后没有高性能计算大单的金主，搞起来困难吧。

从另一个角度来看，让CPU、GPU、FPGA等各自专注做自己的事情，在服务器系统层面灵活组合，应该还是更加通用的做法。

以上这段内容并非本文重点，而后面我还会提到HPC的话题。

内存带宽跟不上PCIe：引出了串行化的OMI

记得我在《CXL__、GenZ__、CCIX__架构以及未来的PM__、内存和SSD__形态》一文中，曾讨论过内存/IO带宽跟不上CPU计算核心发展，而下面力图解决的问题则是内存带宽跟不上IO互连的发展。

上图是AMD EPYC Roma的IO Die分析，重点指出每个内存通道控制器的最大带宽/所占芯片面积是25.6GB/s / 7.9mm，平均带宽密度3.28GB/s/mm2。

这张图里的IO Die规格可能超标了

关于AMD下一代EPYC Genoa（7004？）IO Die，这里列出的速度、容量等规格都是假定而不一定准确的。

CXL / PCIe Gen5每个Lane的带宽是接近32Gbps全双工（双向合计约8GB/s），那么2组64Lane控制器的带宽总共就是接近1024GB/s。

DDR5-5200内存，左右两侧各6个通道，每通道带宽41.6GB/s，12个通道总计约500GB/s，只有CXL/ PCIe 5.0的一半。说白了，还是从PCIe从Gen3到Gen4，再到Gen5每次都翻一倍，相对太快了。

注：如果DDR5每通道只能有1条内存，那么12条256GB的单CPU总DIMM容量就是3TB。

可能还有用于CPU间互连的4组Fabric，也按照PCIe5.0那样的32GT/s来计算，每组的3条Fabric Channel相当于3个PCIex16即384GB/s的双向带宽。那么4组Fabric合计就是1,536GB/s？这个预测是不是太大了点，按照传闻中的LGA 6096插槽，我个人还是更倾向于AMD EPYC4的PCIe lane仍与Fabric复用信道？

不过，即使是与128 Lane PCIe 5.0相比，DDR5内存带宽也相形见绌（over subscribed）了。

内存I/O最终也会变为串行吗？

在上次讨论CXL等和未来内存形态时，我还认为OMI和DDIMM只是用于IBMPower平台的接口标准。而AMD未来在支持Intel主导的CXL.mem访问E3.S（EDSFF的一种Form Factor）内存时，为什么不能同时用Dual OMI x8 DDR4/5通道也扩展内存呢？

这个带有OMI__的Genoa IO Die__也是概念图

上述假设的前提，就是AMD要有一种把DDR5内存控制器改为OMI的设计。如上图，OMI-32G每个DDIMM接口有64GB/s的带宽，并且串行标准比DDR5节约pin引脚数量，这样两边各12个OMI-32G，就是总共1,536GB/s带宽。如此一来，与PCIe / Fabric就比较匹配了。

也是由于模组数量提高，每颗CPU OMI-32G的最大总容量可达256GBx 24 = 6TB。不过OMI就像IBM平台那样，相当于把内存控制器的一部分放在外置芯片上，虽然带宽还好但延时比CPU直连DDR5方案可能大一些，按照我之前引用的数据大致在20nsvs. 40ns这样的水平。

低延时“近端内存”& “远端”CXL.mem内存共享

这张图加入了并发低延时“近端内存”& 远端CXL.mem共享访问的概念。

上图中的蓝色箭头就是“近端内存”，毕竟Fabric是用于CPU之间的连接，虽然存在NUMA（非一致性内存访问），但应该还是比通过CXL / PCIe-G5跨节点访问的“蓝色箭头”性能好些。

总结AMD EPYC IO Die with OMI的好处如下：

-均衡内存带宽到Fabric和PCIe的带宽。

-保持EPYC Roma的LGA-4094插槽尺寸，或者更小。因为OMIDDIMM只使用到传统DDR内存通道1/4的pin脚数量，这样24个OMI通道可以放在6通道DDR内存控制器的空间里。

-简化主板布线——更少的PCB层数，降低成本。

-内存变为串行接口；

-内存（DRAM）技术无关性。例如在OMI/GenZ/CXL背后的LPDDR5可以改进功耗和更好的随机访问。（_开个玩笑，我觉得Intel不会做OMI接口的Optane PM持久内存_）

OCP HPC模块：OAI机箱中的8x OAM拓扑、服务器内存池化

如上图，按照AMD EPYC Genoa改成OMI内存的设计，每2个8 Lane通道对应1个E3.S的双OMI通道DDR5模组。总体上就是192x OMI Lane，以及128x CXL / PCIe Lane。

完全可组合式的计算节点——来自OCP的OAM-HPC模块

如果我们把上述新AMD EPYC放在OCP的OAM模块的顶部，而PCB另一侧（即CPU的背面）插12个E3.S OMI内存模组呢？余下的4个CXL/PCIex16插槽可以安装E3.S NVMe SSD；另外还可以有Nearstack CXL/PCIe x8线缆引出，用途稍后讲。

这种设计的一个机会是降低阻抗和传输能耗，从而更容易支持未来的DDR5-6400；另一个机会就是把AMD EPYC Chiplets直接BGA焊在板子上，去掉LGA 4094封装——也能改善功耗和信号完整度。

8个OAM-HPC模块放在OCP-OAI机箱里，节点间使用线缆的点对点互连拓扑应该就是通过CXL / PCIe 5.0。我们前面提到过CXL.mem协议，可以组成一个大的内存池。

其实即使不用OMI连接内存，传统DDR5照样可以配合CXL.mem跨节点组成内存池，只是内存带宽上会有瓶颈（这时知道拓宽内存带宽的重要了吧）。

上图我在4年前的《从Power9__互连技术看Intel__与IBM__的生存之道》中引用过。由CXL.mem内存一致性协议互连的系统，还是没有IBM水平+垂直SMP Cable全互联的耦合度高。

扯远一点，至于IBM在米国政府3套新建的HPC大单中输给了Intel和AMD，则说明技术在HPC生意中只是一个方面，成本/商务谈判/客户关系也很重要。

冷板式液冷+ _内建54V Power BusBars供电，扩展阅读《_后IB__时代的GPU__服务器：48V__和液冷哪个先行？》

上个月我写过冷板式液冷的新一代IceLake Xeon SP服务器，OAM模块如果功耗高了也可以考虑液冷。上图只是做为一个参考，因为CPU表面覆盖了冷板，而在OAM PCB另一侧的OMI内存模组还是要风冷散热的。见下图：

EPYC OMI CXL.mem内存池化服务器

由8个EPYC OMI处理器OAM模块组成的系统，总共可支持到48TB OMI内存，其中每个CPU本地访问的都是6TB，另有42TB通过CXL.mem远程访问其它OAM模块上的内存。

整个系统聚合内存带宽高达12.3TB/s。每个CPU访问外部内存池的带宽为512GB/s（双向），也就是8个CXL / PCIe 5.0 x8。

小结

需要海量内存的应用，在我印象中除了SAP HANA，大多就是HPC了——同时还对内存带宽要求高。当然，我不确定本文中提到的概念/假设距离实际应用还有多远。大家如有进一步的想法，可以留言与我交流：

参考资料 https://pan.baidu.com/s/1IzN8...

提取码：c4h0

扩展阅读：《_企业存储技术》文章分类索引（微信公众号专辑）_》

推荐阅读

注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的微信/QQ：490834312。
尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage，也欢迎关注企业存储技术极术专栏，定期更新。