VMware分层内存愿景:NVMe与CXL Accelerator方案

image.png

image.png

这是2024年的春季,一年一度的SNIA Compute, Memory, and Storage Summit(CMS,计算、内存和存储峰会)在线上举办。我又当了一把资料的搬运工,同时我还想写两三篇技术分享。

过去6年会议资料回顾:

SNIA Compute+Memory+Storage 2023峰会资料

SNIA持久内存+计算存储2022峰会资料分享

CXL、GenZ、CCIX架构以及未来的PM、内存和SSD形态

PM Summit 2020持久化内存峰会:Optane、XL-Flash真实应用对比

PM Summit 2019持久化内存峰会资料下载

SNIA持久化内存峰会:虚拟机、数据库、SDS进展曝光

image.png

SNIA 2024 Compute, Memory, and Storage Summit演讲资料网盘分享

链接:https://pan.baidu.com/s/1vdGW-AZ2hUaJO1TxROTNsQ?pwd=auy7

提取码:auy7

官网来源:https://sniacmssummit.org(可以免费注册,好像还有qiang外的视频)

各分论坛参考议题如下

image.png
image.png
image.png
image.png

上图是来自Yole Intelligence在2023年的预测。

-红色代表CXL内存;

-橙色代表CXL扩展控制器;

-蓝色代表CXL扩展模块(DRAM+Controller);

-绿色代表CXL Switch。

image.png

到2028年,预计驱动器形态(如EDSFF E3.S)的CXL模块出货量将远大于扩展卡(物理形态PCIe),这就像NVMe SSD从PCIe卡向U.2过渡一样。另外,这个预测对于内存池化应用也比较乐观。

image.png

以下分享的参考资料,主要来自VMware(如今属于Broadcom)的《Memory Vision for Real World Applications》。

image.png

上图的上半部分图表是每台物理机上的虚拟机数量密度。可以看出截至2023年底,单机运行小于10个VM、10-30个VM的比例最大;30-60 VM、60-100 VM也有一些,但比例递减。

下半个图表,是ESXi物理机内存容量的年增长幅度。我们看到1-1.5TB和2-2.5TB的增幅最大,并且2023年相比2022年,较大内存的用户增加更快。

image.png

VMware的活跃内存使用率典型值为50%,所以人们有虚拟机内存(总和)超量分配(over provision)的习惯。而在传统方案中,大家也知道内存超配的风险——那就是不可预测的性能。上图右边是带有分层的方案——内存被按照活跃的热页和冷页来放置,这样在加入了Tier-2“Cold Memory”之后,一方面虚拟机可分配的内存增加了,另外一旦用到超配容量空间性能也相对可控。

image.png

上图列出了VMware分层内存支持的几种形态/介质。普通CXL DRAM其实已经实现,我在1-2年前就看过资料,只是没有特别写过;

今天要分享的是接下来的计划:NVMe SSD和CXL attached Accelerator。VMware宣称的好处如下,这一段我就不翻译了:)

image.png
image.png

上图最左边是2TB DRAM传统无分层方案;中间是1.5TB DRAM + 0.5TB NVMe(3:1内存+闪存)方案——可节约19%成本;最右边是1TB DRAM + 1TB CXL Accelerator方案——可节约36%成本。按这个数字来看,CXL加速器应该也是廉价存储介质的吧。

方案1:基于NVMe的分层

image.png

上图很直白,就是用当前的NVMe SSD服务器硬件。

image.png

VMware的软件内存分层技术在ESXi上实现,注意NVMe-based Tiering技术预览在vSphere 8.0U3版本开始,GA则是下一个大版本9.0。

方案2:CXL Accelerator(FPGA闪存卡)

image.png

在CXL Accelerator方案中强调了VMware的硬件-软件协同设计。具体来说,使用了一块3/4长度的单宽PCIe卡,上面有Intel Agilex FPGA、处理器和NAND闪存。其实我们还能看到一些DRAM内存(做Cache)和SFP网口。无缝部署和维护,提到了Intel vanilla BIOS。该方案最多可以扩展4TB附加内存,DRAM和CXL(NAND闪存)是1:1的配置。

image.png

在另一份会议资料中,我们看到三星就在做CMM H(CXL Memory Module- Hybrid)这个卡。其实Samsung当前已经有使用FPGA实现的内存语义SSD产品。

image.png
三星的E.3形态CXL混合内存模组,这个也叫CMM H,但应该没用CXL Accelerator卡上那么强的FPGA。黄色的几个超级电容,用于DRAM缓存数据的掉电保护。

image.png

这种CMM H-VSA(虚拟化服务加速器)更进一步的落地,应该是要等到Intel Granite Rapids服务器平台(像Dell R770这些也快了吧?)届时会有CXL 2.0,这块卡上由FPGA实现有2个200GB/s以太网口,供电最高会用到75+150W,所以只能做成卡而不是EDSFF的驱动器形态。

image.png

在VMware的内存disaggregation愿景中,从上图最左边已经实现的,到中间就是CXL Accelerator方案。请注意橙色部分是VMware IP,除了ESX主机上的软件,也包括FPGA/ASIC上的代码。2台主机间CXL Accelerator的高速以太网连接怎么用,我大概也能猜到一些。至于再往右的下一步,CXL-attached memory通过以太网fabric池化,在机架内通过DRS来调度。

性能测试参考

image.png

上面图表是Oracle数据库测试,包括每秒SQL执行、逻辑读两部分。跑在分层内存上的虚机,性能比传统DRAM VM要低一些,也还不错吧。下面是另一个Oracle测试的参考配置:

image.png

如上图:ESXi物理机是128GB传统内存+128GB CXL Accelarator卡,48GB分层内存的VM 2虚机,内存比例是按60:40来配置的——也就是29GB DRAM+19GB NAND闪存。

image.png

在更多测试中,我们看到LoginVSI(VDI虚拟桌面测试)在加入NVMe分层后性能下降只有1-2%;VMMark混合负载测试,在加入DRAM ¼容量的NVMe SSD分层之后,运行的测试Tile负载数量从3个增加到了4个,而得分未受影响。

CXL Accelerator分层内存方案跑Oracle TPC-H测试,性能可达传统DRAM的85-90%。

image.png

最后一页是总结,供大家参考。

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
文件名 大小 下载次数 操作
AI Track Sponsored by SNIA Data, Networking & Storage Forum.zip 5MB 0 下载
Compute_Storage Track.zip 6.32MB 0 下载
Keynote_Mainstage.zip 17.58MB 0 下载
Memory Track.zip 6.15MB 0 下载
Security Track.zip 1.16MB 0 下载
推荐阅读
关注数
5605
内容数
257
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息