企业存储技术 · 2020年08月10日

关于PCIe SSD几个问题的讨论

点击上方“企业存储技术”可以订阅哦

PCIe Flash(SSD/闪存卡)的优点很明显,速度快、延时低,无论IOPS还是带宽通常都可以达到SATA/SAS SSD的几倍。我在前年曾经写过点东西,在当时比较全面地讨论了这一领域的相关技术。

破解PCIe SSD进化:从踩坑到解决方案__》

二、用户最该关注的兼容性、稳定性和服务__》

三、解决方案和全闪存阵列:向左还是向右?__》

四、PCIe双端口支持、没有控制器的SSD?__》
image.png

前几天,有位同行朋友撰写了一篇关于PCIe SSD服务器使用场景的探讨,其中提到了几个问题:

“1. _在机器里面很难确定故障的SSD__,对普通人来说没什么,但当你面对的是数据中心成千上万台机器的时候,只能欲哭无泪;_

2. _不能热插拔,更换必须关机,这就意味着这台机器这段时间不能工作。_

3. _共享主板电源,当电流过大的时候,容易导致主板挂掉。”_

看到几位朋友的讨论,我也想把自己的观点分享出来,其中不少已经是业内有结论的东西,也可以说是我把同行专家们的观点做一些归纳吧:)

一、供电和散热:一块卡25W还是多块?

首先,对于AIC(标准PCIe扩展卡)形式来说,除了x16接口的显卡插槽之外PCIe规范的功率支持是到25W。

大多数PCIe闪存卡的标准功率不超过25W,少部分提供性能模式,可以在超标的功耗下提供更高性能(主要是写)。也有些比较特别的卡,比如Intel SSD P3608的功耗达到40W。
image.png
上图引用自我以前熟悉的HP Z800工作站手册,可以看到2个显卡插槽的最大功率是75W(从主板供电,如果更大功率的显卡需要6pin/8pin外接供电);余下的PCIe和PCI都是25W,即使将物理尺寸做到x16也是如此。

比如说插槽4或者7,我曾经尝试过将一块30多W的显卡放在里面可以正常运行,但不代表所有插槽都可以同时这么干。

另外,我也看到有的服务器主板说明中写全部PCIe插槽(除了75W支持显卡的)功率总和不超过25W或者35W这样的描述。毕竟按照IntelSSI-EPS 12V电源规范,CPU有单独的8pin +12V供电,给主板的24pin电源接口中+12V黄线只有2条,这一路根据UL安全规范不应超过240VA?而不要忘了还有一个用电大户是内存,我记得有些1.8V之类的内存供电是来自主板上的DC-DC电路,也是+12V输入。

所以,如果25W或以上的PCIe闪存卡插了多块,在有的平台上引发供电问题是有可能的,电流过大时引起保护或者更严重的问题。我们看到有朋友反映:“_据说上次腾迅上海微信故障是因为__PCIe__闪存卡导致的,不知是不是真的?_”

那么,如果是SFF-8639的PCIe SSD,不超过25W且由热插拔背板供电,是不是就没有供电的问题了?也不一定。按照2U机箱前端24-个15mm厚度2.5英寸驱动器的设计,如果都是PCIe SSD单这一部分的功率就可能高达600W,远超以前15K硬盘的水平。

而且解决了供电问题,散热呢?系统风扇需要转多快?主板能够转接出多少PCIe信道?我们看到OracleExadata X5的使用的SFF-8639 SSD在2U机器前端只配置了8个(PCIe x4全速就要占用32 lane),如果再多对CPU处理能力也是个考验。

二、NVMe热插拔成熟没?

PCIe Flash的热插拔问题分为硬件和软件两部分,软件部分有要考虑操作系统内核和驱动这两个方面。

首先,硬件形态上即使主板PCIe插槽支持热插拔,AIC形态的闪存卡也基本没人去那样用。因此更多是关于SFF-8639驱动器形态的讨论。

戴尔是比较早将SFF-8639 PCIe SSD引入服务器的厂商,最开始时还没有NVMe,在RedHat 等Linux下热插拔需要先将SSD驱动停用再拔出。
image.png
Dell PowerEdge R930__(红圈标出部分共有8__个热插拔PCIe/NVMeSSD__安装位),详情参见《服务器设计进化:戴尔R930跨代对比之存储篇__》一文。

听朋友说RHEL(CentOS)7.1支持NVMe热插拔有bug,7.2可以。这些较新操作系统已经内置通用NVMe驱动,但可能还有不完善之处。如果想用到SSD厂商自己的监控软件等增值功能,好像有的需要装专用驱动。

三、前面板LED、BMC集成监控

如果是SFF-8639 PCIe SSD,机箱前面板和背板应该共同支持LED状态指示,不像安装在机器里的闪存卡那样难于故障定位。
image.png

如上图,戴尔已经在12G/13G服务器的iDRAC8管理模块中加入了NVMe设备监控功能。其中包括一些行业标准属性,包括写寿命、S.M.A.R.T.日志等。

这些有利于大规模/集中管理的功能,我不认为有多大技术门槛,也许随着NVMe的普及更多的厂商会加入支持。

四、NVMe、数据保护:RAID卡带宽瓶颈何处?

最后一点也是老生常谈了,PCIe Flash在服务器上如何做RAID保护?

在《_IDF16:NVMe Over Fabric、SPDK和双控存储元年_》一文中我曾经讨论过“传统RAID能否胜任NVMe SSD?”里面写过的内容我就不重复了,大家可以点击这里的链接过去阅读,下面再补充讨论一点。
image.png
LSISAS3108是目前主流的12Gb SAS RoC(RAID on Chip)控制器,配合SAS/SATA SSD使用SCSI-mq据说能实测到60-70万IOPS。如果在此基础上改造成支持PCIe的RoC,除了双核PowerPC处理能力之外,总线带宽也是一个不同忽视的问题。

如果保持现在的PCIe 3.0 x8接口,4个NVMe SSD就能把带宽吃满。换成PCIe 3.0 x16接口也就是支持4-8个NVMe SSD比较合适(已达32 lane的规模)。个人感觉MegaRAID的代码不适合与PCIe Switch硬件直接结合,也不知Broadcom/Avago支持NVMe的RAID卡何时才能出来?

推荐阅读

本文转载自企业存储技术微信公众号原文链接点这里

注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。
42.jpg

推荐阅读
关注数
5615
内容数
264
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息