从PowerEdge MX看刀片服务器的进化

本文内容非商业用途可无需授权转载，请务必注明作者及本微信公众号、微博 @唐僧\_huangliang，以便更好地与读者互动。

-刀片服务器在今天的目标市场

-计算/存储/网络的平衡

-电源冗余规则和Fresh Air（新风）散热

-vSAN和Gen-Z支持

-小结

近日，Dell EMC发布了新一代模块化基础架构服务器PowerEdge MX，也就是刀片（Blade Server），其中包括全新的机箱MX7000。

Dell EMC PowerEdge MX7000__（7U__机架式）

从命名上来看，感觉与同门的新一代高端存储（详见：《从VMAX__到PowerMax__：Dell EMC__新一代NVMe__高端阵列解析》）有些神似。当然这只是一个名字，应该说都属于各自产品线中的旗舰吧。

业内许多朋友应该都知道，刀片机箱的更新是个比较大的动作，因为它作为计算、网络和存储节点的枢纽，要向后兼容多代节点/模块组件的升级。本次Dell EMC就反复强调：“_至少支持三代处理器微架构的相关保障_” 以及未来升级到400Gb以太网（应该指上行连接）等潜力。

刀片服务器在今天的目标市场

还记得早年我刚接触刀片服务器时的印象，那时感觉它的特点是模块化、集中管理和高密度。如今密度这一点还是优势吗？曾经确有国内排名领先的HPC集群使用过刀片服务器，而在10年前我与朋友讨论时就得出这样的结论——2U 4节点的单纯计算密度要更高（但不像刀片那样包含网络交换）——也就是今天因为超融合而为人们所熟知的机型。至于性价比，那从来都不是刀片服务器的强项，刀片可以说是品质比成本优先的。

PowerEdge M1000e__（10U__）的正面空间基本都给了计算节点

以Dell经营10年的M1000e刀片机箱为例，可以在10U内装进16个半高双路（2 CPU插槽）节点，前几代甚至出现过1/4高度32节点的选项。但不要忘了功耗和散热，6个3000W电源模块的刀箱，就算满载跑到一半的功率，传统数据中心的机柜又能放下几个？另外，Intel最新一代Xeon SP CPU的TDP上限又提高到了205W。

PowerEdge FX2__——一款2U__机箱内的“微缩版刀片”

2U 8节点在设计上几乎做到了极致密度，但这时每CPU的功耗是有限制的。另外不要忘了Xeon SP的LGA-3647封装/Socket面积都增大不少，每CPU也从4通道内存控制器升级到6通道，单是PCB Layout的现实挑战，就让我们看到这种高密节点不再推出新的型号。

PowerEdge FC430__主板示意图

两年前我在《液冷服务器进化：解决漏水检测才能放心跑200WCPU》、《PUE__低至1.02x__：风冷&__液冷数据中心里的散热知识》里介绍过的技术，算是一种散热解决方案。尽管液冷能提高功耗密度/降低PUE，但无论冷板式还是浸入式，带来的复杂性和硬件投入成本上升，以及对数据中心要求，决定了它们距离大规模应用还有些遥远。

如今在服务器设计领域的创新，有些出现在大型互联网/云服务提供商的整机架方案中，比如Facebook主导的OCP（开放计算项目）。但同时这些用户往往对成本也更加敏感，甚至愿意牺牲单一部件的可靠性，利用上层分布式集群来保证应用的服务质量。当规模足够大时，管理什么的可以重新设计，在这一点上传统企业级应用与之不同。

扩展阅读：《Facebook__如何将硬盘性能损失由90%__降低到2%》

《OCP 2018__峰会资料下载：互联网数据中心硬件风向标》

话题有些扯远了，回过头来再看刀片服务器的目标市场定位，其实也在与时俱进。作为针对现代化、软件定义数据中心的模块化解决方案，除了传统企业级关键业务数据库、虚拟化等应用之外，SDS（软件定义存储）、HCI（超融合）以及大数据环境都可能是刀片的用武之地。

-All-in-one（计算、存储、网络）

-模块化（灵活性/动态调配）：特指网络和存储连接

-扩展性（机箱内/跨机箱）

-易管理性：单一界面集中

以我的简单总结，上述特性使刀片服务器仍受到一部分用户的青睐，并保持在数据中心里占有重要的一席之地。

计算/存储/网络的平衡

今天先带大家从PowerEdge MX7000机箱的整体角度，来初步了解下这一代刀片服务器的变化。

-首先，数字标识1和7分别是左右两侧的控制面板；

-2和5分别代表现在的单宽双路计算节点MX740c（单机箱最多支持8个）和双宽四路计算节点MX840c（单机箱支持4个）；

-3是单宽扩展模块空位的挡板（保持散热气流）；

-4是刀片机箱正面的4个60mm 3+1冗余风扇模块，它们的作用是为机箱后部的网络模块等散热；

-6是指单宽的MX5016s存储扩展模块，不难看出里面支持16个驱动器，我将在下一篇专门介绍PowerEdge MX的SAS交换设计；

-8——信息标签上应该还是设备服务编码、iDRAC初始管理密码，以及网卡的MAC地址；

-9——电源模块一共是6个，具体的冗余方式我会在下文中列出。

与上一代的M1000e相比，7U高度的MX7000的重心似乎不完全在计算节点？比如把电源模块和部分散热单元也挪到了机箱前面板来。要理解这样设计的用意，还需要进一步去了解产品。

Dell EMC PowerEdge MX7000__后视图

-数字标识1和2的位置是一对全宽度网络（交换/直通）模块槽位，4和5则是另外一对全宽尺寸的，大家应该都知道交换机冗余的重要性；

-3是5个80mm的4+1冗余风扇模块，就是针对机箱前部的计算/存储节点散热；

-6和11是2个半宽交换模块槽位，可以选择2个PowerEdge MX5000sSAS交换机，或者2个Dell EMCNetworking MXG610s FibreChannel（光纤通道）交换机模块。也就是在刀片机箱内部解决还是外接存储的选择，当然MX7000还有别的外接FC阵列的途径，这个过两天再跟大家详细讲。从G610的名字上，大家不难看出Broadcom（原Brocade）Gen6 32Gb/s的影子吧。

-7只是位于8上方的电源线状态LED；而8在上面中文资料的翻译估计出点瑕疵，应该是C22电源入口（inlet）连接器。

-9和10是2个冗余的管理模块，相当于以前的CMC，同时还整合了对服务器刀片iDRAC的KVM访问。从这一点来看比下面的M1000e有改进。

Dell EMC PowerEdge M1000e__后视图

在M1000e背面被电源和风扇占据了比较大的空间（_其实__MX7000__风扇分前后要比这个更合理，下面列2__篇我以前在结构/__散热设计的讨论_），由于是10U高度，M1000e倒是还能放下3对共6个网络模块。除了我们看到的Mellanox，还提供Cisco、Brocade等选项。2个CMC位于机箱顶部的两侧，中间还有一个iKVM。

扩展阅读《_高密度盘柜难点：评戴尔SCv2080结构设计_》

《_戴尔SCv2000：入门级阵列硬件设计功力_》

上面的示意图可以看到当前MX7000可选的全部网络模块，其中还包括10GBASE-T和25Gb以太网直通模块；前面我们提到了半宽MX5000sSAS交换和MXG610 FC交换的替换关系；至于包含100Gb上行的MX5108n以太网交换机、MX9116 Fabric交换引擎和MX7116n Fabric扩展模块的规格和用法，稍后我会另行撰文讲解。

为什么这一段落我用了“_计算__/__存储/__网络的平衡_“的标题呢？从10U的PowerEdge M1000e到7U的MX7000，计算资源“减少”（但单节点配置高）而存储和网络都得到了增强。我个人找到2点可能的驱动因素：

1、SDS、HCI对本地存储和东西向网络要求的提高；

2、SDN和NFV应用？

电源冗余规则和Fresh Air（新风）散热

就像许多机架式服务器前面会做个VGA口便于管理那样，PowerEdge MX7000的前面板右侧提供了一个Mini DP接口。如今除了入门级许多显示器已经不再提供VGA输入，而DisplayPort又能转接到HDMI或者VGA，这样设计是未来的潮流。

关于电源模块的网格冗余（N+N）、PSU冗余（N+1）和PSU配对规则，上图已经讲的比较详细，我就不再啰嗦了。Rapid-ON支持部分PSU睡眠模式，可以提高低负载时的电源转换效率。

Dell__服务器Fresh Air 2.0__规范允许每年操作时间的1%__工作温度达到45__℃，比如机房空调故障时。

曾经看到有朋友讲个笑话：“有的刀片服务器开机时，（噪音）感觉像飞机起飞…”，当然运行起来特别是负载较低时大家都会有明显的调速效果。由于机箱整体功耗和风扇模块的配比，刀片的单个风扇比机架服务器负担更大这一点不难理解，而散热能力会因此受到影响吗？

如上表，PowerEdge MX7000除了5℃-35℃的标准工作温度范围之外，在40℃以下支持连续工作。35℃-40℃会有海拔高度的限制（因为空气稀薄了），所谓性能受到影响，应该也只是在一些特定配置下，还是不要忘了Xeon SP这一代CPU有205W的型号，而且前面板是否插满盘对进风的效果也是有影响的。

vSAN和Gen-Z支持

在DellEMC的官方博客上我看到有一篇《_vSAN Ready Nodes on PowerEdge MX_》，可以说新款刀片服务器继承了FX2对软件定义存储和超融合的支持，而且我想说MX7000在内部存储方面比M1000e和FX2都要更强大并且灵活。具体等大家看了我写的下一篇SAS交换架构之后就会明白。

DellEMC博客里还有这样一段话

“_PowerEdge MX is ascomposable as can be done given the technology available today. As we goforward with the PowerEdge MX, we are already working to complete the journeytowards a fully composable kinetic architecture using next-generation fabricslike Gen-Z. We already have POCs in-flight, working with silicon partnersacross the industry toward this kinetic future using industry standards. Comejoin the journey with the new PowerEdge MX from Dell EMC._”

这方面具体的我还不知道更多，下面2篇扩展阅读有助于大家了解Gen-Z标准。

《_Gen-Z互连(上)：Intel缺席的内存中心架构_》

《_Gen-Z互连(下)：第一步25-100GB/s、PCI-SIG的反应_》

想进一步了解PowerEdge MX和最新刀片服务器的朋友，可以继续关注后续我写的《存储篇》和《网络篇》等。

小结

最后简单总结下，除了在前面提出的“计算/存储/网络平衡”之外，我还想给刀片服务器的发展趋势加上2点：

简约≠简单

高效≠高价（从整体TCO角度看）

我认为，在小型机市场下滑的今天，如果像传统刀片那样一味追求大而全和豪华，希望在一个box内包罗万象解决所有问题的x86方案，可能未必会有很好的生命力。

再举个例子：即使你能塞进数十个节点的ARM或者Atom/Xeon D，也要看目标客户群体的规模，以及能够承受的价格。毕竟任何产品的设计成本都要靠市场销售来买单，单纯秀工程技术是没有意义的。

最后再放一张PowerEdge FX2__模块的全家福，别忘了它只是一款2U__的机器，可以看到设计者在刀片改良上曾经花过的心思。

以上是我作为旁观者对刀片服务器的一点粗浅理解，个人水平和视角都有限，毕竟这个市场还有c7000/c3000、UCS和BladeCenter等玩家。也欢迎大家提出自己的想法和不同见解，在下面留言：）

参考资料 https://topics-cdn.dell.com/p...\_owners-manual\_zh-cn.pdf

推荐阅读

本文转载自企业存储技术微信公众号，[[原文链接点这里](https://mp.weixin.qq.com/s/xW...]。
注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的微信/QQ：490834312。
尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage，也欢迎关注企业存储技术极术专栏，定期更新。

推荐阅读

目录