企业存储技术 · 10月10日

向EDSFF迁移:IBM FPGA SSD的设计挑战

背景参考:《数据中心NVMe SSD和EDSFF前瞻:来自Intel、HPE、Dell & SNIA等

上周我分享了FMS 2024会议的资料,唐杰总留言说 “给写个导读呗”。说实话看资料也是个耗时间精力的活,比如去年我工作比较忙,所以三大技术会议除了分享资料之外,好像当时只写过一篇相关的解读文章《SSD也要看互联网风向标 - 来自SNIA的FMS资料》。下图就是从中截的:

image.png
image.png

我在这里引用这一段,就是因为当时讨论的太简单了,因为在《SNIA SDC 2023存储开发者会议演讲资料》中其实有展开深入的内容,只是我最近才详细点看。

image.png

以上这份资料的文件名是SNIA-SDC23-Johnson-Maximizing-EDSFF-E3-SSD-Design_1.pdf,上面已列出我曾经分享过的打包下载链接,如有找不到的同学我在本文结尾会把具体目录再出示一下。

E3.S、E3.L、E1.L、E1.S分别讨论

image.png

首先我们看一下短尺寸的E3.S。标准厚度的一般功耗限制是25W;双倍厚度的E3.S 2T可以做到40W。

对于IBM使用FPGA作为主控的SSD “FCM”(扩展阅读:《企业级SSD也开SLC Cache:QLC闪存阵列会流行吗?》)而言,目标高容量,E3.S(1T)的尺寸和Power budget似乎都不太够。相比之下,E3.S 2T的三围接近当前的U.2,供电看起来也还好。

image.png

IBM更倾向的方案是E3.L——同样面临“薄盘”还是E3.L 2T厚盘的选择。后面我会带大家具体看。

image.png

E1.L也适合做大容量(如冷存储),但它的高度不太够,或者说无法容纳FPGA主控的40x40 mm尺寸。

image.png

更小的E1.S呢?它一共有5种尺寸——对应支持的最大功耗从12W到25W不等。E1.S本身定位就不是针对较大容量的企业级SSD。

FPGA主控的厚度问题:E3.L只能单面贴片

image.png

上图就是开头列出过的FlashCore Module E3.L规划概念图。PCB背面其实不能放闪存颗粒了,为什么呢?

image.png

如果是传统的EDSFF E3.L SSD,ASIC主控芯片的厚度和NAND差不多,所以7.5mm的Z高度是合适的。

image.png

但IBM FCM使用的FPGA厚度达到了3.8mm,要是按照传统SSD那样做PCB双面贴片就超标了。另外IBM这个SSD还特别采用MRAM做掉电保护,需要相关的电子元器件空间我理解也更多一些吧。

image.png

一种潜在的方案,就是在标准厚度的E3.L中做单面贴片,这样除了牺牲最大SSD容量之外,还面临散热等方面的挑战。

功耗、散热与SSD的间距

image.png

如上图,传统的24盘U.2 2U存储服务器,SSD的整体最高功耗为600W;而在2U E3.L存储服务器上,如果44个SSD都跑到最高的40W,光这些功耗就达到1760W。是不是有散热挑战呢。

image.png

从SSD需要的散热风量(CFM),可以换算出空气流速(LFM)。这里面还涉及到一个因素,就是盘与盘之间的gap(间距)。E3薄盘机箱的标准间距为1.8mm,与15mm U.2 SSD的间距1.5mm接近。而U.2还可以做成7mm薄盘(像SATA SSD那样的尺寸)——这时gap间距就加大到5.5mm——间距大了有利于整体散热,包括盘这部分对机箱风扇转速的要求也会降低,这个大家不难理解吧。

image.png

要想达到IBM FCM的散热需求,E3设备的间距大约要达到3mm。每个E3 2T盘会占据一对标准E3槽位——它们的间距就会显著增大到4.2mm。

image.png

上图看上去与本文主题不那么密切?我更多是想说明下“Airflow“区域对服务器前面板进风的意义。毕竟E3 1T的密度较大,如今CPU的功耗又增加到350-500W,对风冷散热有挑战,有的品牌就推出过“中间开窗”或者“两侧开窗”的方案。

扩展阅读《风冷双路350W:PowerEdge 16G服务器的Smart Flow机箱选项

服务器设计新趋势:Xeon 6 SoC、前I/O、模块化、1U&2U共用主板?

image.png

以上列出的只是2U双控存储机箱的物理模型概念图。前面板中部的32个E3.S/L区域(它们到背板的2x2金手指,是PCIe 5.0 x2 lane分别连接到每个控制器),也可以插16个2T双倍厚度的盘。而两侧的4个E3 2T 2x4或1x8槽位,PCIe金手指带宽加倍,可能有不同的设计用途。

image.png

IBM这个分享的总结,简单说就是FPGA SSD可以适合用在E3.L的尺寸中,但标准E3 1T厚度机箱的1.8mm盘间距,针对所有应用场景并不是都理想。我感觉IBM FCM是倾向于E3.L 2T的,无论从PCB双面器件排布,还是从散热的角度。

最后我再补充一点:如果从产品经理的角度,在双控全闪存阵列(AFA)中,NVMe SSD的单盘性能往往已经过剩了。在这种情况下,牺牲一些盘的数量密度,提高单盘容量,对SSD方面的成本,以及系统内互连的成本应该都是可以降低的。

image.png

今天我分享的资料,就来自上图中第一个文档。希望对大家有帮助:)

扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)

END

作者:唐僧huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5606
内容数
257
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息