学习笔记 - 无交换机实现集群网络互联 - 极术社区

本文内容非商业用途可无需授权转载，请务必注明作者及本微信公众号、微博ID：唐僧\_huangliang，以便更好地与读者互动。

原文链接：http://www.taocloudx.com/inde...

《无交换机实现集群网络互联》——作者：艾厚铎@TaoCloud

昨晚看到刘爱贵博士的同事撰写了上述大作，顿时感觉我之前在《_VSAN 6.5详解：传统存储特性附体，未来野心更大_》中那一小段相关的讨论太粗浅了。

大道云行这篇文章的可贵之处，是没有针对某款具体产品，甚至不限于SDS/超融合，完全中立的技术讨论。

在分享的同时，我也想班门弄斧写点自己的理解，如有错误或不足之处欢迎大家批评指正！

网状拓扑结构的规模限制

图片引用自http://www.taocloudx.com__网...

如果是点对点互连的情况下，技术上确实可以做到4个以上的集群节点数量。不过每节点需要增加的网卡接口数量多了之后，可能就不如配2个交换机划算了。以上图中的5节点为例，集群互连就需要2块双端口万兆网卡，这还不算连接外部交换机的网口。

类似的情况，在H公司的高端存储阵列上也是同样的道理，8个控制器之间的PCIe点对点连接通过一块无源背板来实现。这种方案与PCIe交换机、InfiniBand组网相比各有得失吧。

个人感觉，此类不使用交换机网状直连的HCI集群，实际应用中建议还是不要超过3-4个节点，如果2节点最好像VSAN 6.5那样引入外部仲裁。

提到双节点等小规模集群，其实除了传统共享存储和超融合方案之外还有别的途径。

另一种共享存储集群选择——Cluster-in-box

Oracle__入门级数据库一体机ODAX6__家族

与高大上的Exadata相比，Oracle Database Appliance算是入门级产品吧。在X5系列及之前，双节点RAC集群做在一个4U机箱里，它们通过SAS背板共享前面的硬盘和SSD（放Redo log）。而到了X6这代引入了一个亮点NVMeSSD，结果产品反而感觉没特色了。

如上图，ODA X6-2S、X6-2M和X6-2L都是单节点，而两台服务器+JBOD的X6-2-HA却没提到NVMe。这是因为目前双端口NVMeSSD及相关生态还不够成熟，所以小规模共享驱动器的ASM还只能用SAS来搞。

除了提供存储之外，位于JBOD或者共享背板连接的硬盘/SSD还有一个作用，就是仲裁。我还记得Oracle的专家曾凭借这一点，质疑过第三方无共享存储的2节点Oracle一体机方案。

当然，各家有各家的玩法，比如我在几年前《IDF14__：全闪存VSAN__、缓存Hadoop__和高可用》一文中介绍的双IB链路RAC、网络/串口+IPMI实现仲裁的方案。

基本硬件附加成本：2__块RAID__卡 + 2__颗SAS Expander

另外LSI还曾推出过一个叫Syncro的产品，相比双节点ODA架构将每服务器节点上的SASHBA换成了RAID卡，毕竟不是每种应用都能像Oracle ASM那样管理到单个磁盘。经过与朋友的交流，我得知两块RAID之间的写缓存镜像应该是通过SAS链路实现。该方案后来并没有普及开，可能是成本原因吧。

由于SAS驱动器是双端口的，以上这些集群只能是2节点，如果想要更大一点规模有没有啥其它方案呢？

在上个月的DTF__（戴尔科技峰会）合作伙伴SuperCloud__超云展出了一套超融合方案，基于PowerEdge VRTX__硬件平台

几年前推出的VRTX是Dell服务器一个比较有特色的分支，也可以称为“Cluster-in-box”吧。其中的4个计算节点就是PowerEdge M系列刀片，同时还支持机箱内的共享存储。

基本硬件附加成本：__2__颗PCIe Switch + _2__个RAID__卡模块_（+SAS Expander）

PowerEdge VRTX的核心在于Shared PERC8共享式RAID卡（即上图中的Hydra PREC），以及与之配合的双PCIe Switch Fabric架构。这里面应用到了MR-IOV技术。

既然实现了共享存储，支持HA高可用必不可少。就像传统双控制器阵列那样，Dell VRTX也可以选配第二个Shared PERC8模块以应对单点故障，它们分别连接到2颗PCIe Switch芯片上。

PowerEdge VRTX__有点像一个袖珍刀片服务器，麻雀虽小，五脏俱全

如上图，蓝色的“Fabric”是VRTX内置的网络交换模块，相当于一个千兆或万兆交换机。如果要实现冗余，还可以在服务器节点PCIe Mezz——Fabric B/C Switch——PCIe插槽上安装网卡连接外部交换机。

注：后来推出的PowerEdge FX2 2U__多节点模块化服务器平台，借鉴了有些VRTX__上的设计思想，比如PCIeSwitch__、集成RAID__卡功能的存储模块等。网络部分也可选双直通或者双交换模块。（我在《数据中心选址贵阳理由：天、地、电__》一文中有过部分介绍）

我就问过超云的朋友一个很直白的问题：“相比SuperMicro等普通2U 4节点服务器，用PowerEdge VRTX做超融合的优势在哪里？”得到的答复是：一方面VRTX集成有网络（交换模块）；另外还可以安装PCIe扩展卡，比如VDI应用的启动风暴就可以通过NVMe SSD来应对。

VRTX的硬件成本估计不会太低。我认为随着未来双端口NVMe SSD的成熟应用，一定会出现以PCIe Switch为核心共享闪存的Cluster-in-box方案。立此为证，不信就看看下一代ODA：）

下面回到分布式集群的话题上来。

树形（星形）拓扑结构：转发不是没有代价

这种互连方式最大的问题，就是中间配置网桥/路由参与转发的节点，其网络流量比其它节点更大。而且这些节点一旦离线故障处理应该也比较麻烦。

就以上面这张图为例，由于10.10.11.12和10.10.10.13节点之间没有直接，一旦位于中间的节点宕机，就会面临脑裂的问题。也就是说，此时集群网络单点故障较多，实际应用中个人也不太推荐。

推荐阅读

本文转载自企业存储技术微信公众号，[原文链接点这里]。
注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的微信/QQ：490834312。
尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage，也欢迎关注企业存储技术极术专栏，定期更新。

学习笔记 - 无交换机实现集群网络互联

推荐阅读

目录