狒话 · 1月14日

超融合架构平台解析(上):关键业务应用

作者注:本文首次发表于2016年7月27日

上回书介绍了究竟什么是超融合,包括超融合与融合系统的渊源,有两点需要重复如下:

  • 应用:虚拟化和数据库是融合系统的两大市场;
  • 架构:超融合的核心是在同一个(物理)节点上运行虚拟化/容器化的应用和(分布式的)软件定义存储。

如果严格按照当前的定义:超融合系统天然具备虚拟化的基因,继承虚拟化应用理所当然;出于性能考虑,数据库应用直接运行在物理机上会更好些,部署于融合系统较为合理。

FusionCube 9000-6000.jpg
华为FusionCube超融合基础设施家族两大成员的典型配置:FusionCube 9000主打数据库场景,因此突出IOPS(OLTP)和吞吐量(OLAP),但也可用于高端虚拟化场景;FusionCube 6000则面向虚拟化和云平台,突出虚拟机和云桌面数量

这样看来,华为FusionCube 9000超融合基础设施适用于数据库虚拟化(包括桌面云)场景,是不是就比较“尴尬”了?

尺度显空间:机柜、机箱和机框

一般说来,融合系统通常是Rack(机柜)级的,而超融合系统通常是Box(机箱)级的。FusionCube 9000则是Chassis(机框)级的,介于二者之间。

FlexPod-Vblock.jpg
以机柜为单位交付的融合系统,以左侧的FlexPod为例,计算(UCS刀片服务器)、网络(Nexus交换机和UCS Fabric Interconnect)、存储(NetApp FAS)分明

原因很简单:融合系统的计算(和网络)用刀片式服务器,存储用外置磁盘阵列(SAN存储系统),谁也装不下谁,能放下它们(以及独立的交换机),必须得是机柜级别,包括小型的半柜配置。何况,有些高端存储系统,本身就可以扩展到多个机柜。

我更愿意称之为“半”或“泛”超融合系统(超融合这档事还真的有点像“拌饭”)的Oracle Exadata一体机,没有使用集中式的SAN存储系统,但计算节点和存储节点都采用(1U和2U)机架式服务器,也必须以机柜的形式交付,包括整柜、半柜、四分之一和八分之一柜。

X3-2 Eighth.png
Exadata X3-2的四分之一柜(左)和八分之一柜(右)示意图,可以看到后者只启用了一半的硬件资源,扩展为前者时省去了实际添加硬件资源的过程

Exadata的四分之一和八分之一柜采用相同的硬件配置,主要是火力全开和半开的区别。以全双路的最新机型Exadata X6-2为例,最小配置也需要2台1U的数据库服务器(计算节点)和3台2U的存储服务器,这就已经8U,再加上2台36端口QDR(40Gb/s)InfiniBand(IB)交换机和1台管理交换机,超过10U妥妥的。

E9000-back.jpg
华为FusionServer E9000刀片式服务器后端从外向内依次是6个供电模块(PSU)、14个(80mm)风扇模块、2个管理模块和4个交换/直通模块

我们知道,8~10U规格的区间,足够刀片式服务器容纳10~15个双路计算节点(刀片)。也就是说,论计算密度,可以达到Exadata最小配置的2~3倍。除了高计算密度,刀片式服务器还实现了供电(PSU)、散热(风扇)的融合,以及统一管理,具有更高的效率。集成的网络将计算和存储硬件(包括JBOD)互连为一体,而这些IT资源要实现真正的融合,需要各个部分的虚拟化,属于现在常说的软件定义(Software Defined)的范畴。

Server-vs-Net.png
建立在虚拟化层上的服务器虚拟化和网络虚拟化

然而,除了整合供电与散热的收益,刀片式服务器的高计算密度,很大程度上是以牺牲存储占用的空间为代价换来的——整合分散在各节点中的存储资源需要很强的软件能力,交给外置的SAN存储多省心。

所以,基于分布式存储的Exadata,要用2U机架式服务器作为存储节点。

那么,FusionCube 9000基于FusionServer E9000融合架构刀片服务器干同样的事,岂不是“螺狮壳里做道场”?

密度与裸机:数据库的简单数学题

面向数据库场景的FusionCube 9000就像刀片版的Exadata,但支持更多的数据库选项。不能说其硬件平台FusionServer E9000刀片服务器有什么“黑科技”——SSD助力的软件定义存储是刀片+SAN组合的(常规)融合系统所不具备的,可是Exadata并不缺。

或曰,FusionCube 9000要突出全面基础上的“错位”优势?

FusionCube从2012年华为云计算大会(HCC)上发布时,即能同时支持数据库和虚拟化场景。除了Exadata的Oracle (RAC),FusionCube 9000还支持DB2、SAP HANA/Sybase IQ、SQL Server和国内的GBase、达梦等数据库。

粗俗点说,数据库场景要求最好是裸机(物理机)环境。比Exadata支持的数据库种类多,绝对不能算是黑科技,理论上只要不是数据库厂商出品的一体机,其他融合系统应该也可以做到。

FusionStorage.jpg
FusionStorage分布式存储是FusionCube超融合系统的基石

与同样基于刀片的其他融合系统相比,打着“超融合”标签的FusionCube 9000不需要SAN,这既是优势,也是挑战。物理机(计算)+分布式(存储)还能不能算超融合在下半部分会有讨论,仅就可行性而言,一方面要专门拿出至少3个节点做存储,以保证基本的HA(High Availability,高可用);另一方面物理机的颗粒度比虚拟机(VM)粗,节点已经是最小单元。

一句话:用分布式存储还想支持物理机,必须要有足够的节点。回过头来再看看Exadata的最小配置,除了3个存储节点,计算节点和网络(交换机)也都是两套。

Exadata-Racks.jpg
Exadata将四分之一柜(Qtr Rack)列为初始配置,因为八分之一柜的硬件规模其实是一样的;还可以清楚的看到,数据库服务器为1U,存储服务器为2U

换句话说,如果是台2U4节点服务器,一个最小配置都扛不起来,也只能去玩虚拟化了。

存储亦计算:FusionCube 9000与全闪存

FusionServer E9000(原Tecal E9000)在12U机架空间内可配置8个横插的全宽计算节点或16个半宽计算节点,保证FusionCube 9000能有足够的节点支持数据库应用,虚拟化应用自然更不在话下。

E9000-front.jpg
配备8个半宽双路至强E5节点和2个全宽四路至强E7节点的FusionServer E9000融合架构刀片服务器。E9000的前插槽位自上至下分为四个分区(图中10个节点只占了三个分区),同一个分区内不能混插半宽计算节点和全宽计算节点

半宽节点(CH121 V3)支持双路英特尔至强E5-2600 (v3)系列CPU,24个DIMM插槽,比Exadata的双路数据库节点密度高一倍——这也是刀片的本分,变化较多的是全宽节点。

CH121-242 V3.jpg
FusionServer CH121 V3半宽双路E5计算节点(上)和CH242 V3全宽四路E7计算节点

FusionCube 9000常用的全宽节点有三种:计算、计算存储、计算I/O扩展。全宽计算节点(CH242 V3)采用四路至强E7 (v2/v3)处理器,而Exadata除了两路,就是八路至强E7了(如X6-8),跨度很大。

FusionCube9000-Components.jpg
在多种类型节点和模块的支持下,FusionCube 9000的任务适应性很强

计算存储(CH222 V3)和计算I/O扩展(CH220 V3),于FusionCube 9000而言,主要是为FusionStorage或者虚拟化(计算与存储“超融合”)场景准备的。FusionStorage是华为的软件定义存储(Software Defined Storage,SDS)产品,将数据均匀的分布在多台x86服务器的硬盘或SSD上,乃FusionCube必不可少的组件,可以独立存储节点(单纯的分布式存储)或计算与存储(VM+分布式存储)超融合节点的形式存在,后面还有专文详细介绍。

ES3000-V2.jpg
华为ES3000 V2 PCIe SSD(闪存卡)有全高半长和半高半长两种规格,可见板上用于提供掉电保护的耐高温铝电解电容

CH222 V3的“存储”主要指硬盘,支持15个2.5英寸SSD、SAS或SATA硬盘,还有1个全高半长(FHHL)的PCIe x16标准卡位,留给华为ES3000系列PCIe SSD或其他厂商的类似产品,作为FusionStorage的(读)Cache/(写)缓存使用。

CH222-V3.jpg
FusionServer CH222 V3全宽存储扩展节点左侧的15个2.5英寸盘位为3×5布局,可以拉出来维护;右侧是双路CPU和内存等计算组件

CH220 V3的“I/O扩展”支持扩展6个PCIe 3.0 x16标准卡,可以配置为2个全高全长(FHFL)双槽位组合,或者1个FHFL双槽位+4个FHHL单槽位。全高全长双槽位显然是留给(GP)GPU的,VDI(Virtual Desktop Infrastructure,虚拟桌面基础架构)或HPC(High Performance Computing,高性能计算)用得着。如果配置为6个FHHL单槽位,插满PCIe SSD,就成了FusionStorage的全闪存节点——或曰高性能存储节点。

CH220-V3.jpg
CH220 V3全宽I/O扩展节点前视图,左侧挡板覆盖的区域可安装6个全高半长的PCIe SSD,右侧靠前的处理器(CPU1)采用低矮的散热片,尽量避免遮挡CPU2的散热片

传统插卡式(Add-in Card,AIC)PCIe SSD的问题是不便维护,于是SFF(Small Form Factor,小型化)委员会出台了现在被称为U.2的SFF-8639连接器规范,通俗的说,就是在SAS/SATA连接器上增加PCI Express(即PCIe或PCI-E)x4的相关引脚,从而使PCIe SSD也能做成硬盘一样的外形规格,便于前端维护(方便插拔)。华为最新推出的全宽存储扩展计算节点CH225 V3,采用英特尔新一代的至强E5-2600 v4系列处理器,前面板设有12个支持U.2的2.5英寸盘位,用于安装如华为ES3500P/3600P V3等NVMe PCIe SSD,还有2个2.5英寸SAS/SATA盘位留着安装操作系统。

CH225-V3.jpg
FusionServer CH225 V3全闪存节点具有14个2.5英寸盘位,其中12个为U.2接口,左侧还有2个SAS/SATA接口

CH225 V3支持NVMe PCIe SSD的预约热插拔(不能暴力热插拔),在PCIe SSD维护的便利性上明显优于临时“代班”为全闪存节点使用的CH220 V3,后者从此可以专门用于其他I/O设备(如GPU或其他协处理器)的扩展。

ES3600C-P.jpg
华为ES3600 V3系列NVMe PCIe SSD有半高半长卡(ES3600C V3)和2.5英寸U.2(ES3600P V3)两种形态,均为PCIe 3.0 x4

如果不考虑作为管理节点使用的CH121,单独运行FusionStorage的硬盘节点(CH222)所需计算资源最少,2个至强E5-2620级别的处理器即可满足需求。全闪存节点和计算存储一体(VM+FusionStorage)的虚拟化节点,因为增加的存储(闪存)和计算(VM)处理需求,计算资源配置都有明显提高。以FusionCube 9000的典型配置为例:

  • 硬盘存储节点:配备2 × E5-2620 v3(6核12线程,2.4/3.2GHz)、64GB内存、12+ SAS硬盘和1个SSD的CH222 V3;
  • 全闪存节点:配备2 × E5-2660 v3(10核20线程,2.6/3.3GHz)、160GB内存、6个PCIe SSD的CH220 V3。

FusionCube 9000不同类型节点的典型配置规格
9000-Nodes.png

鉴于CH220 V3也主要被用于扩充存储(PCIe SSD构成全闪存节点),可以看出FusionCube 9000中用于安装FusionStorage的节点,不论配置为纯存储还是计算存储融合(还运行用户VM,即虚拟化场景),都是全宽的计算存储节点。全宽很好理解——要有足够的空间容纳存储硬件(SSD/硬盘),计算能力则首先是为存储服务的,因为软件定义存储的本质就是用计算资源(CPU+内存)帮助实现存储功能。基于硬盘的FusionStorage节点对计算资源的要求最低,当换成全闪存配置后,所需的计算资源甚至会比基于硬盘的计算存储融合节点还高。

软件定义存储的存储性能,与为其配置的计算资源,有着很直接的关系——因为软件需要足够的计算能力驱动。

FusionCube SSD-HDD.jpg
上海大地财险多资源池数据库一体机采用基于CH220的全闪存节点作为高性能资源池

Oracle在2015年1月下旬正式发布的Exadata X5-2中,加入了全闪存的EF(Extreme Flash)存储服务器选项,但在堪称Exadata标志性的InfiniBand(IB)方面,直到最新的Exadata X6(-2/-8)一代,仍为40Gb/s的QDR(Quad Data Rate),而FusionCube 9000早已支持56Gb/s的FDR(Fourteen Data Rate)。

FusionCube9000-s.jpg
不过,Exadata还有一项至今不传外人的独门秘技——Smart Scan,可以把简单的Oracle数据库查询工作卸载到存储服务器上处理,在适用的场景下可以减少数据传输量。上回书已经提过,此处不再重复。

如果FusionCube 9000能在对比测试中压倒Exadata,应该是硬件和FusionStorage的功劳。

下面,附上在Oracle RAC环境中测试FusionCube 9000的过程和结果。

Oracle RAC环境实战

12U的FusionCube 9000可容纳8个全宽刀片(四路计算节点CH242、2路高性能存储节点CH220等)或16个半宽计算刀片(2路计算刀片CH121等)节点,支持以分区为单位(共4个分区)混合部署。

测试配置

关键业务应用适合采用全宽节点——虽然计算和存储节点分离,但如上文所述,存储节点都是全宽,四路的计算节点也是全宽。譬如我们的Oracle数据库测试就采用了都是全宽节点的配置:

  • 2台全宽CH242 V3四路服务器节点,用作Oracle RAC的数据库节点;
  • 3台全宽CH220 V3存储节点整合为统一资源池,为Oracle RAC提供数据存储。

image003.png
基于华为FusionCube 9000构建的Oracle RAC测试架构,真实模拟企业关键业务应用场景:2台CH242 V3用于安装Oracle RAC,互为冗余保证高可用,并负载均衡;两个56Gb/s InfiniBand(IB56)交换机模块形成互为冗余的双数据链路,56Gb/s带宽保证数据链路不会成为性能瓶颈;3台CH220 V3用作存储节点,通过FusionCube分布式存储软件整合为统一的资源池,为Oracle数据库提供存储服务。整个测试环境只需要一台12U高的FusionCube 9000就可完成,大幅缩减空间占用

华为FusionCube CH242 V3节点是四路至强E7服务器,我们的测试配置为每节点4个2.30GHz至强E7-8880 v3处理器(18核,36线程),共提供144个计算核心;16条32GB内存,总容量512GB,镜像后可用容量256GB。两节点共1TB内存,镜像后512GB可用。

4.jpg

作为存储节点使用的华为FusionCube CH220 V3,每节点配备两个2.60GHz至强E5-2660 v3处理器(10核20线程),8条16GB内存,共128GB;每节点配备4个3.2TB容量的华为ES3600C V3插卡式NVMe SSD,3节点共12个SSD,由FusionCube分布式存储软件(FusionStorage)整合为统一资源池,并采用3副本机制保障数据高可用,实际可用存储容量为14.6TB。

5.jpg

快速部署

超融合继承了融合系统快速交付的优点,通过出厂预安装配置,在用户现场只需快速设定即可,大幅缩短了IT从采购到服务的施工周期,改变了IT交付的模式。华为FusionCube 9000也不例外,除了出厂预装之外,也可通过一套定制工具在现场快速部署。

7.png

通过华为提供的FusionCube Builder工具(其实是一个可以安装在PC上的虚拟机),可以根据客户实际应用需求快速部署相对应的平台,如本次测试的Oracle数据库关键应用,选择“数据库超融合基础设施”场景进行安装

9.png

安装完毕,可利用浏览器进入FusionCube管理界面进行配置管理。在FusionStorage的存储池监控界面,可以快速查看当前的存储使用情况,以及IOPS、带宽和延时等性能状况

当前,出于更好的性能等考虑,大多数企业用户在关键业务领域,仍希望将Oracle数据库直接部署在物理服务器上,FusionCube 9000的设计充分考虑到了这一点。于是,我们将Oracle RAC直接部署在两台CH242 V3服务器上(OS为Oracle Linux 6.7),达到负载均衡和高可用的目的。

11.png

Oracle 12c数据库EM管理界面,测试用数据库(TESTLABR)下有两个数据库节点,分别在两台CH242 V3服务器上,Oracle RAC会根据负载情况自动均匀分摊到两个Oracle数据库节点上。测试过程中,两个数据库节点的性能资源消耗较为接近(65%和72%)

基于SwingBench测试工具对FusionCube 9000构建的数据库系统进行了压力测试,性能明显超出我们的预期。在使用了全NVMe SSD的高性能存储池的支持下,这套高可用的Oracle数据库在800用户的环境中,达到了稳定270万TPM(Transactions Per Minute,每分钟事务交易数)的性能,成为我们Oracle数据库系统性能测试结果的新标杆。

13.png

基于FusionCube 9000的Oracle RAC数据库测试性能:数据库系统性能稳定在270万TPM,TPS(Transactions Per Second,每秒事务交易数,相对TPM)超过了5万,性能曲线显示出Oracle数据库性能稳定,两个Oracle RAC数据库节点不但实现了负载均衡,同时还保证单节点故障不间断数据库服务,满足了企业关键业务数据库高性能和高可用的双高需求

基于华为FusionCube 9000构建的Oracle RAC数据库测试场景,在满足高可用的需求下,还获得了较高且平稳的Oracle数据库性能,说明计算与存储分离部署的“系统级超融合”能够支撑大部分企业用户的关键业务应用需求。也说明了超融合系统还适用于多种企业应用环境。

特别致谢

本次测试得到北京海天起点技术服务公司在技术上的大力支持,在此表示感谢:
海天起点.png
图片海天起点专注基础架构运维、优化IT客户体验管理。在Oracle软件服务及Oracle相关的解决方案方面,拥有雄厚的技术实力和超过15年的丰富经验,服务国内众多的Oracle数据库、中间件等软件服务客户,还拥有几十个Oracle数据库一体机的服务客户,是国内最大的Oracle数据库一体机第三方服务商。

海天起点在十余省市设立了销售和服务中心,为全国的通讯、金融、政府、能源、物流、交通运输、制造业等行业客户提供高品质的产品支持和服务支持。

7 阅读 190
推荐阅读
0 条评论
关注数
1576
内容数
28
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息