E企研究院 · 2023年03月23日 · 山西

存储大讲堂 | 解析希捷双控全闪Exos X 4526

之前,益企研究院曾介绍过4U的希捷Exos CORVAULT,能放106个硬盘,总容量约2PB,那叫一个“大”!(可回顾:高密自智的存储系统什么样?|狒解芯机文字版;高密自智的存储系统什么样?|狒解芯机视频版)

今天存储大讲堂的主角则属于Exos X系列,主打一个“快”!

全能存

首先,我们测试的这台Exos X 4526,在2U的机箱里配满了24个SAS SSD,都是希捷Nytro 3030系列的1.92TB,总的裸容量接近50TB,实测读IOPS超过70万,可以满足企业级应用对随机访问能力的需求。
image001.png

带宽性能也不错,实测达到甚至超过了顺序读12GB/s、顺序写10GB/s的指标,而且这两个性能用机械硬盘(HDD)也可以达到。Exos X 4006系列有全闪存、混合、传统三种用法:

☞全闪存aka AFA,譬如我手边这台Exos X 4526,面向高IOPS、低时延的应用场景;

☞混合(hybrid)取SSD性能与HDD价格之长,自动平衡;

☞传统即全硬盘配置,使用5U84盘机箱和扩展柜的时候,可支持多达336个机械硬盘,如果选用20TB硬盘,不到半个机柜(20U)的空间即可提供高达6.7PB的裸容量,非常适合流媒体和高容量使用场景。

image011.png
回到我们面前的2U机型,从正面看,可以竖插24个2.5英寸SSD,或者横插12个3.5英寸机械硬盘,似乎与常见的2U通用型服务器没啥区别。
image013.png

旋转90°,从侧面看,Exos X的2U机箱非常紧凑,深度只有60厘米出头,比主流通用服务器短15厘米以上,对机柜的适配性非常好。

实际上,这个机箱的深度可以更短,因为SSD的托架有大约一半的长度是空的,我分析有两个因素:

一是SAS/SATA转接的预留空间,可以支持单端口的SATA SSD,现在只支持双端口的SAS SSD,但没必要为节省这点空间去改机箱了;

二是要在同样的机箱内支持3.5英寸硬盘,而3.5寸大盘比2.5寸小盘要长出4厘米多。

两相叠加,差不多就是一个2.5英寸SSD的长度。

高效算

转到后面,看着终于像存储,而不是服务器了。

在中间不到一半的空间里,两个存储控制器上下排列,各有5个HD Mini-SAS类型的12Gb/s SAS接口,4个主机接口用于上连服务器,还有1个用于向下级联扩展柜。

image019.png
通过更换主机接口卡,Exos X还可以支持32G FC、10G/25G iSCSI,在型号数字的第二位体现,譬如我们这台4526,5就代表SAS。
image021.png

双控和级联盘柜,以及FC/iSCSI/SAS等主机接口,都是存储系统的典型特征。

这个高不到1U,长宽也只有整机一半左右的“小盒子”是新一代的4006控制器,连个9寸的披萨饼都放不下,却能在0、1、5、6、10等多个RAID等级有强劲的输出,并支持希捷升级的ADAPT 2.0。

在存储控制器的主板上,与主机接口卡呈对角线关系的2个芯片,是用于连接HDD/SSD的SAS控制器和扩展器,这款Avago SAS3408控制芯片是关键,其上行接口是8x PCIe 3.1,带宽上限为8GB/s,双控制器并行输出可以突破这一限制,譬如顺序读带宽能有12GB/s。
image025.png

这两个SAS芯片旁边是4个黄色的超级电容,为缓存提供断电保护,寿命长达10年,那是相当……持久!

需要它保护的缓存在哪里?存储控制器主板上另外两个芯片的周围,都有多个DRAM颗粒。
image029.png

邻近SAS级联口和管理端口,是4核8线程的英特尔至强D(Xeon D)SoC,配了8GB内存。从这个CPU的配置和位置来看,它主要承担管理职责,譬如新的HTML5 Web接口、使用Redfish标准的RESTful接口,以及新增的VMware vCenter Web客户端集成。

另一个芯片是在Exos CORVAULT中就出现过的希捷第六代VelosCT ASIC,肩负着卸载RAID运算的重任,还提供精简配置、自动分层、SSD读缓存和若干数据保护功能,是EXOS X系列4006 控制器的真·核心。围绕它配备了16GB内存,其中的数据就是超级电容的保护对象。
image031.png

ASIC和CPU的内存加一起,每个控制器有24GB,双控就是Exos X存储系统参数中列出的48GB,达到前代产品的三倍。配合ASIC和CPU的升级,控制器支持的接口规格和最大容量,以及系统的整体性能,都获得了大幅度提升。

无论从整体尺寸,还是芯片上的散热片和内存容量来看,4006控制器都比常规的存储服务器更为高效且节能。希捷表示,基于ASIC的方案成本结构降低了一个数量级。可能是两个控制器的外形过于“小巧”,旁边的两个供电单元(PSU)被衬托得挺显大,实际上每个的总输出功率还不到600瓦(W)。在这样的功率水平下,80PLUS金牌(Gold)已经相当不错。

真靠谱

ExosX 4526的主要性能指标已经验证过了,现在着重看存储系统最核心的高可靠和高可用。

除了延续RAID 0、1、5、6、10这些存储系统的“基本操作”,希捷独有的ADAPT(Advanced Distributed Autonomic Protection Technology),即“先进分布式自主保护技术”也在4006这一代升级到2.0,增加的功能包括ADR(Autonomous Drive Regeneration)硬盘自修复技术、16+2条带宽度选项提高可用空间、可选择ADAPT磁盘池中热备空间预留容量、交替卷选项等。
image037.png

ADAPT具有媲美RAID 6的任意两块盘故障无数据丢失能力,优势是通过并行架构显著减少重建时间,而新加入的ADR自修复能力自动分配剩余容量用于硬盘故障恢复,不需要备用盘。
image039.png

基于Exos X存储系统的双控制器设计,可以快捷的构建高可用关键业务系统,譬如——Oracle RAC。正巧,益企研究院的实验室有两台基于OCSP(Open Common Server Platform,开放通用服务器平台)规范的闻泰科技G660T6服务器,可以与Exos X形成一个两数据库节点共享双控存储的高可用数据库系统。

我们在每台服务器上安装一片4个HD Mini-SAS接口的SAS HBA,分别连到Exos X 4526的双控制器上。两台服务器依次安装操作系统、创建配置盘、配置多路径、安装配置grid、安装Oracle软件、创建数据库,完成一套Oracle RAC系统的搭建,so easy!
image043.png

运行SwingBench测试来观察集群的运行状态。两台服务器的配置不算高,合力输出也能有43万多的TPM(Transactions Per Minute,每分钟交易处理数)。然后我们宕掉其中一台服务器,模拟计算节点发生故障的情况,经过约90秒的波动,剩下的一台服务器把输出恢复到约20万TPM的稳定态。
image050.jpg

再把宕掉的服务器恢复,集群回归正常,达到44万TPM。我们关闭一个存储控制器,模拟控制器故障的情况。在只有一个存储控制器工作的情况下,集群的输出先是略有下降,来到40万TPM,经过约70秒的调整,重新稳定在44万TPM,体现了Exos X存储系统的高可用。

全能又高效,关键挺靠谱;新一代Exos X,想要就入手!

推荐阅读
关注数
5027
内容数
335
E企实验室由E企研究院专职产品技术分析师针对数据中心、云计算、AI和5G等领域最新技术和应用研究、验证、试用、分析,数据中心级新产品新技术的市场教育,国内唯一同时研究互联网和传统企业IT基础设施的机构和部门
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息