企业存储技术 · 2020年07月01日

学习笔记 - 无交换机实现集群网络互联

本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博ID:唐僧\_huangliang,以便更好地与读者互动。

原文链接:http://www.taocloudx.com/inde...

《无交换机实现集群网络互联》——作者:艾厚铎@TaoCloud

昨晚看到刘爱贵博士的同事撰写了上述大作,顿时感觉我之前在《_VSAN 6.5详解:传统存储特性附体,未来野心更大_》中那一小段相关的讨论太粗浅了。

大道云行这篇文章的可贵之处,是没有针对某款具体产品,甚至不限于SDS/超融合,完全中立的技术讨论。

在分享的同时,我也想班门弄斧写点自己的理解,如有错误或不足之处欢迎大家批评指正!

网状拓扑结构的规模限制


图片引用自http://www.taocloudx.com__网...

如果是点对点互连的情况下,技术上确实可以做到4个以上的集群节点数量。不过每节点需要增加的网卡接口数量多了之后,可能就不如配2个交换机划算了。以上图中的5节点为例,集群互连就需要2块双端口万兆网卡,这还不算连接外部交换机的网口。

类似的情况,在H公司的高端存储阵列上也是同样的道理,8个控制器之间的PCIe点对点连接通过一块无源背板来实现。这种方案与PCIe交换机、InfiniBand组网相比各有得失吧。

个人感觉,此类不使用交换机网状直连的HCI集群,实际应用中建议还是不要超过3-4个节点,如果2节点最好像VSAN 6.5那样引入外部仲裁。

提到双节点等小规模集群,其实除了传统共享存储和超融合方案之外还有别的途径。

另一种共享存储集群选择——Cluster-in-box


Oracle__入门级数据库一体机ODAX6__家族

与高大上的Exadata相比,Oracle Database Appliance算是入门级产品吧。在X5系列及之前,双节点RAC集群做在一个4U机箱里,它们通过SAS背板共享前面的硬盘和SSD(放Redo log)。而到了X6这代引入了一个亮点NVMeSSD,结果产品反而感觉没特色了。

如上图,ODA X6-2S、X6-2M和X6-2L都是单节点,而两台服务器+JBOD的X6-2-HA却没提到NVMe。这是因为目前双端口NVMeSSD及相关生态还不够成熟,所以小规模共享驱动器的ASM还只能用SAS来搞。

除了提供存储之外,位于JBOD或者共享背板连接的硬盘/SSD还有一个作用,就是仲裁。我还记得Oracle的专家曾凭借这一点,质疑过第三方无共享存储的2节点Oracle一体机方案。

当然,各家有各家的玩法,比如我在几年前《IDF14__:全闪存VSAN__、缓存Hadoop__和高可用》一文中介绍的双IB链路RAC、网络/串口+IPMI实现仲裁的方案。


基本硬件附加成本:2__块RAID__卡 + 2__颗SAS Expander

另外LSI还曾推出过一个叫Syncro的产品,相比双节点ODA架构将每服务器节点上的SASHBA换成了RAID卡,毕竟不是每种应用都能像Oracle ASM那样管理到单个磁盘。经过与朋友的交流,我得知两块RAID之间的写缓存镜像应该是通过SAS链路实现。该方案后来并没有普及开,可能是成本原因吧。

由于SAS驱动器是双端口的,以上这些集群只能是2节点,如果想要更大一点规模有没有啥其它方案呢?


在上个月的DTF__(戴尔科技峰会)合作伙伴SuperCloud__超云展出了一套超融合方案,基于PowerEdge VRTX__硬件平台

几年前推出的VRTX是Dell服务器一个比较有特色的分支,也可以称为“Cluster-in-box”吧。其中的4个计算节点就是PowerEdge M系列刀片,同时还支持机箱内的共享存储。


基本硬件附加成本:__2__颗PCIe Switch + _2__个RAID__卡模块_(+SAS Expander)

PowerEdge VRTX的核心在于Shared PERC8共享式RAID卡(即上图中的Hydra PREC),以及与之配合的双PCIe Switch Fabric架构。这里面应用到了MR-IOV技术。

既然实现了共享存储,支持HA高可用必不可少。就像传统双控制器阵列那样,Dell VRTX也可以选配第二个Shared PERC8模块以应对单点故障,它们分别连接到2颗PCIe Switch芯片上。


PowerEdge VRTX__有点像一个袖珍刀片服务器,麻雀虽小,五脏俱全

如上图,蓝色的“Fabric”是VRTX内置的网络交换模块,相当于一个千兆或万兆交换机。如果要实现冗余,还可以在服务器节点PCIe Mezz——Fabric B/C Switch——PCIe插槽上安装网卡连接外部交换机。

注:后来推出的PowerEdge FX2 2U__多节点模块化服务器平台,借鉴了有些VRTX__上的设计思想,比如PCIeSwitch__、集成RAID__卡功能的存储模块等。网络部分也可选双直通或者双交换模块。(我在《数据中心选址贵阳理由:天、地、电__》一文中有过部分介绍)

我就问过超云的朋友一个很直白的问题:“相比SuperMicro等普通2U 4节点服务器,用PowerEdge VRTX做超融合的优势在哪里?”得到的答复是:一方面VRTX集成有网络(交换模块);另外还可以安装PCIe扩展卡,比如VDI应用的启动风暴就可以通过NVMe SSD来应对。

VRTX的硬件成本估计不会太低。我认为随着未来双端口NVMe SSD的成熟应用,一定会出现以PCIe Switch为核心共享闪存的Cluster-in-box方案。立此为证,不信就看看下一代ODA:)

下面回到分布式集群的话题上来。

树形(星形)拓扑结构:转发不是没有代价

这种互连方式最大的问题,就是中间配置网桥/路由参与转发的节点,其网络流量比其它节点更大。而且这些节点一旦离线故障处理应该也比较麻烦。

就以上面这张图为例,由于10.10.11.12和10.10.10.13节点之间没有直接,一旦位于中间的节点宕机,就会面临脑裂的问题。也就是说,此时集群网络单点故障较多,实际应用中个人也不太推荐。

推荐阅读

本文转载自企业存储技术微信公众号,[原文链接点这里]。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。
42.jpg
推荐阅读
关注数
5557
内容数
239
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息