这是2024年的春季,一年一度的SNIA Compute, Memory, and Storage Summit(CMS,计算、内存和存储峰会)在线上举办。我又当了一把资料的搬运工,同时我还想写两三篇技术分享。
过去6年会议资料回顾:
《SNIA Compute+Memory+Storage 2023峰会资料》
《CXL、GenZ、CCIX架构以及未来的PM、内存和SSD形态》
《PM Summit 2020持久化内存峰会:Optane、XL-Flash真实应用对比》
SNIA 2024 Compute, Memory, and Storage Summit演讲资料网盘分享
链接:https://pan.baidu.com/s/1vdGW-AZ2hUaJO1TxROTNsQ?pwd=auy7
提取码:auy7
官网来源:https://sniacmssummit.org(可以免费注册,好像还有qiang外的视频)
各分论坛参考议题如下
上图是来自Yole Intelligence在2023年的预测。
-红色代表CXL内存;
-橙色代表CXL扩展控制器;
-蓝色代表CXL扩展模块(DRAM+Controller);
-绿色代表CXL Switch。
到2028年,预计驱动器形态(如EDSFF E3.S)的CXL模块出货量将远大于扩展卡(物理形态PCIe),这就像NVMe SSD从PCIe卡向U.2过渡一样。另外,这个预测对于内存池化应用也比较乐观。
以下分享的参考资料,主要来自VMware(如今属于Broadcom)的《Memory Vision for Real World Applications》。
上图的上半部分图表是每台物理机上的虚拟机数量密度。可以看出截至2023年底,单机运行小于10个VM、10-30个VM的比例最大;30-60 VM、60-100 VM也有一些,但比例递减。
下半个图表,是ESXi物理机内存容量的年增长幅度。我们看到1-1.5TB和2-2.5TB的增幅最大,并且2023年相比2022年,较大内存的用户增加更快。
VMware的活跃内存使用率典型值为50%,所以人们有虚拟机内存(总和)超量分配(over provision)的习惯。而在传统方案中,大家也知道内存超配的风险——那就是不可预测的性能。上图右边是带有分层的方案——内存被按照活跃的热页和冷页来放置,这样在加入了Tier-2“Cold Memory”之后,一方面虚拟机可分配的内存增加了,另外一旦用到超配容量空间性能也相对可控。
上图列出了VMware分层内存支持的几种形态/介质。普通CXL DRAM其实已经实现,我在1-2年前就看过资料,只是没有特别写过;
今天要分享的是接下来的计划:NVMe SSD和CXL attached Accelerator。VMware宣称的好处如下,这一段我就不翻译了:)
上图最左边是2TB DRAM传统无分层方案;中间是1.5TB DRAM + 0.5TB NVMe(3:1内存+闪存)方案——可节约19%成本;最右边是1TB DRAM + 1TB CXL Accelerator方案——可节约36%成本。按这个数字来看,CXL加速器应该也是廉价存储介质的吧。
方案1:基于NVMe的分层
上图很直白,就是用当前的NVMe SSD服务器硬件。
VMware的软件内存分层技术在ESXi上实现,注意NVMe-based Tiering技术预览在vSphere 8.0U3版本开始,GA则是下一个大版本9.0。
方案2:CXL Accelerator(FPGA闪存卡)
在CXL Accelerator方案中强调了VMware的硬件-软件协同设计。具体来说,使用了一块3/4长度的单宽PCIe卡,上面有Intel Agilex FPGA、处理器和NAND闪存。其实我们还能看到一些DRAM内存(做Cache)和SFP网口。无缝部署和维护,提到了Intel vanilla BIOS。该方案最多可以扩展4TB附加内存,DRAM和CXL(NAND闪存)是1:1的配置。
在另一份会议资料中,我们看到三星就在做CMM H(CXL Memory Module- Hybrid)这个卡。其实Samsung当前已经有使用FPGA实现的内存语义SSD产品。
三星的E.3形态CXL混合内存模组,这个也叫CMM H,但应该没用CXL Accelerator卡上那么强的FPGA。黄色的几个超级电容,用于DRAM缓存数据的掉电保护。
这种CMM H-VSA(虚拟化服务加速器)更进一步的落地,应该是要等到Intel Granite Rapids服务器平台(像Dell R770这些也快了吧?)届时会有CXL 2.0,这块卡上由FPGA实现有2个200GB/s以太网口,供电最高会用到75+150W,所以只能做成卡而不是EDSFF的驱动器形态。
在VMware的内存disaggregation愿景中,从上图最左边已经实现的,到中间就是CXL Accelerator方案。请注意橙色部分是VMware IP,除了ESX主机上的软件,也包括FPGA/ASIC上的代码。2台主机间CXL Accelerator的高速以太网连接怎么用,我大概也能猜到一些。至于再往右的下一步,CXL-attached memory通过以太网fabric池化,在机架内通过DRS来调度。
性能测试参考
上面图表是Oracle数据库测试,包括每秒SQL执行、逻辑读两部分。跑在分层内存上的虚机,性能比传统DRAM VM要低一些,也还不错吧。下面是另一个Oracle测试的参考配置:
如上图:ESXi物理机是128GB传统内存+128GB CXL Accelarator卡,48GB分层内存的VM 2虚机,内存比例是按60:40来配置的——也就是29GB DRAM+19GB NAND闪存。
在更多测试中,我们看到LoginVSI(VDI虚拟桌面测试)在加入NVMe分层后性能下降只有1-2%;VMMark混合负载测试,在加入DRAM ¼容量的NVMe SSD分层之后,运行的测试Tile负载数量从3个增加到了4个,而得分未受影响。
CXL Accelerator分层内存方案跑Oracle TPC-H测试,性能可达传统DRAM的85-90%。
最后一页是总结,供大家参考。
作者:唐僧 huangliang
原文:企业存储技术
推荐阅读
欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
文件名 | 大小 | 下载次数 | 操作 |
---|---|---|---|
AI Track Sponsored by SNIA Data, Networking & Storage Forum.zip | 5MB | 0 | 下载 |
Compute_Storage Track.zip | 6.32MB | 0 | 下载 |
Keynote_Mainstage.zip | 17.58MB | 0 | 下载 |
Memory Track.zip | 6.15MB | 0 | 下载 |
Security Track.zip | 1.16MB | 0 | 下载 |