10

狒话 · 2020年09月13日

天蝎之路:ODCC服务器发展报告

作者注:本文是开放数据中心委员会(ODCC)委托我们撰写的《ODCC服务器发展报告》的主要部分节选。报告正式发表于2015年11月5日召开的2015开放数据中心峰会,总结天蝎整机柜服务器项目诞生四年以来的发展历程,展望未来的技术规划,深受与会者好评。PDF版报告全文共22页,约6MB大小,推荐在WiFi环境下,从天蝎整机柜服务器发展报告或文末下载。本文正文刊载报告主要内容:

在规模和效率的双重驱动下,大型互联网公司很早就踏上了定制服务器之路。简化外壳设计、去掉大规模环境下可有可无的辅助功能是比较初级的手段,共享供电、散热、管理等服务器的“基础设施”、在更大的尺度上重新设计服务器才是业界公认的深度定制,也代表了服务器行业的发展方向。

刀片式服务器是共享基础设施的代表性产品,通过刀片式服务器的机箱(blade chassis,以下简称“刀箱 ”)整合供电单元(PSU)、风扇、管理等基础功能,显著提高了计算密度。不过,不同品牌的刀片式服务器,刀箱、服务器节点、管理等设计各不相同,互不兼容,自成体系,严重缺乏标准化,提高了用户的采购和维护成本,容易导致厂商锁定。

在机架式服务器的体系内,也有很多厂商陆续推出了2U2、2U4等部分整合基础功能(如供电、管理)的产品,一定程度上可以视为刀片式服务器的“缩小版”。由于尺度(Scale)较小、整合度较低,这些高密度机架式服务器有相对简单和易于维护等优点。

从“共享”的角度出发,在更大的范围内共享供电、散热和管理,理应具有更高的效率。在10U左右高度的刀片式服务器机箱之上,就是以整个机柜作为一台服务器来设计了,三到四倍的尺度差异堪比刀片式服务器与2U多节点服务器,再加上标准化的需求,两方面都缺乏先例,挑战未可预期。

先解决有无问题,然后逐步细化标准,就是百度、阿里、腾讯(合称BAT)发起的天蝎整机柜服务器项目之路。

天蝎项目诞生

大约在2010年前后,腾讯、百度等大型互联网用户和浪潮、华为等服务器厂商,开始了整机柜服务器的一些探索。

以百度为例,在2010年组建了专门的服务器团队,2011年对二三十家国内外的服务器及相关厂商进行调研,并起草了初步的规范。腾讯与戴尔、华为、浪潮的合作也有了初步的成果,形成自己的技术规范。阿里巴巴亦在相同时期开始了定制服务器的探索。

(注:这也正是阿里巴巴着手“去IOE”的时期。)

Tencent-Racks.jpg
腾讯天津数据中心里的整机柜服务器,风扇墙的设计很显眼

数以万计、乃至十万计的服务器规模,带来的成本、效率等种种压力,将BAT推到了自主发展IT基础设施的十字路口。背后共同的诉求是:自主,开放,标准化。

2011年11月1日,腾讯陈晓建、曹洵峰、阿里巴巴肖德芳、百度张家军,还有英特尔(Intel)公司的刘天乐在深圳会面。三大互联网公司的基础设施一线人员在这次沟通中发现,所面临的大多数挑战都非常相似,共性远远大于差异化。于是联合发起“天蝎项目”(Project Scorpio),英特尔担任项目顾问。项目描述如下:

天蝎项目是由阿里巴巴、百度、腾讯三方合作推动、众多服务器厂商参与的一整套整机柜服务器解决方案。英特尔担任本项目顾问。本项目将致力于推进数据中心基础架构的技术发展,和制定开放的行业规范。天蝎项目旨在共同推动行业合作、产业创新和新技术的应用,推动业界统一整机柜服务器规范、推动产业链配套和规模化生产、持续降低营运成本、提高服务器部署速度和运维效率。

天蝎项目得名于11月1日属于“天蝎座”的周期,在这个周期内余下的20天里,先后完成了向业界公开天蝎项目、注册“开放数据中心”域名(opendatacenter.cn)等工作,并设计了相应的标识(Logo)。

ODCC Logo.png

2011年12月22日,在杭州集聚了Dell、HP、IBM、华为、联想、浪潮、 曙光等国内外主流服务器厂商,进行了一次全面、深入的技术研讨会,讨论会前一天阿里巴巴、百度、腾讯和英特尔起草的天蝎技术规格。

经过几次汇总和讨论所有厂商反馈意见后, 对多处规格与指标进行修订,2012年4月6日,《天蝎项目整机柜服务器技术规格》Version 1.0正式定稿,即天蝎1.0,于11日在北京召开的IDF(Intel Developer Forum,英特尔信息技术峰会)2012上发布。

天蝎1.0:定形态

天蝎整机柜服务器解决方案采用模块化设计,分为机柜模块、网络模块、供电模块、服务器节点、集中风扇散热模块、集中管理模块共六大部分。

天蝎1.0确立了集中供电、集中风扇(散热)、集中管理的天蝎整机柜服务器基本形态。机柜模块作为整机柜服务器的“外壳”,中间4U空间用于部署集中供电模块(Power Supply Unit,PSU)和集中管理模块(RMC,机柜管理控制器),以及网络模块(交换机)。风扇集中在机柜后端形成风扇墙,服务器节点全部在前端维护。

虽然有供应商提出21英寸内宽、节点竖插的方案,天蝎1.0还是采用了成熟的19英寸标准机架,降低起步的难度。服务器节点水平布置,高度为1U,可部署1U1、1U2、1U3等形态的节点,最多可达120台,这主要得益于风扇集中的设计:

理论上,要达到相同风量,需要更多小直径的风扇,因此采用小直径的风扇,风扇功耗会更高——据测算,在相同风量下, 1个80mm风扇的功耗比4个40mm风扇功耗降低50%~65%。传统的1U服务器只能采用直径40mm的风扇,2U服务器则可以采用直径80mm的风扇,具有更好的散热效率。集中风扇的设计突破了这一限制,天蝎1.0整机柜服务器采用的风扇直径都在80mm以上,有的产品可达172mm,不影响节点追求1U的高密度,体现了风扇与服务器节点解耦合(与机柜再耦合)的优点。

考虑到国内大多数机房的实际情况,机柜模块的高度(含滚轮)定为2.1米,实际可用空间为44U,分为上、中、下三部分。中间的4U空间里,集中PSU占3U,采用模块化设计, 可提供N+N的电源接入和模块冗余, 支持7~12KVA供电容量。电源支持220V/380V交流(AC)、240V直流(DC)输入,集中输出至后部的两段12VDC铜排(busbar),最大设计电流600安培,分别为上下各20U的服务器空间供电。

scorpio integrated.png
天蝎整机柜服务器模块化设计和集中供电、散热、管理的基本特点

天蝎整机柜服务器集中供电和散热的设计,带来的长期收益是节能。300W的传统机架式服务器,会配置2个750W的PSU,而正常工作时的功耗在150W左右,因此电源的负载率只有约25%——在这么低的负载下,电源效率仅为80%~85%。天蝎整机柜将PSU集中后,整柜配置15KW供电,电源负载率可以提高到40%~50%,这时电源效率可以达到90%~94%。相较传统服务器,天蝎整机柜的电源效率可以提高8~9个点,并保留了足够的冗余。

与此同时,天蝎整机柜也对机房供电进行了架构优化:传统双路UPS供电,电源效率只有90%左右;天蝎整机柜优化为1路市电+1路高压直流供电,电源效率可以达到97%~98% ,因此又有7、8个点的节能收益,同时还减少了高额的UPS采购费用,大幅降低CAPEX和OPEX。对比传统标准1U/2U机架式服务器,集中散热风扇能带来每台服务器5%左右的功耗节约,结合集中供电后总体分析,理论上可以带来10%~20%的单节点功耗节约。

当然,在不同的服务器配置和工作负载下,天蝎整机柜服务器的节能数据也不同。计算密集型配置下,天蝎整机柜服务器可以节能10%~15%;存储密集型配置下,天蝎整机柜服务器可以节能5%~10%。

在整机柜的大尺度上定制服务器,对用户(BAT)和服务器供应商都是事先难以充分预估的巨大挑战。天蝎整机柜服务器集中供电和散热的设计,既是亮点,更是难点。10U的刀片式服务器使用背板进行均匀的供电,散热也有很好的模型;而天蝎1.0提出20U的busbar和风扇墙,引发的一系列问题都缺少可资借鉴的研究成果。

这里必须要感谢富士康(Foxconn)、英业达(Inventec)、浪潮(Inspur)、广达(Quanta)和华为(Huawei)共五家厂商,克服重重困难,几经改版,设计出了各自的天蝎1.0整机柜。他们为天蝎定制的产品在2012年陆续交付。交付过程也体现了整机柜服务器的另一优势——快速交付:

2012年12月,包括百度南京浦口电信机房在内,上线了200个天蝎1.0整机柜;2013年8月,百度内蒙古等机房持续交付数百套产品。特别是在远离大城市的地区,把大部分组装工作转移到工厂预先完成、现场快速部署可以显著降低人力成本。与传统的机架式服务器相比,天蝎整机柜服务器的交付效率提升10倍以上,日交付量可以从原来的几百台,提高到3000台(节点),乃至5000台,在(自建)数据中心允许双交付的情况下,甚至可以达到一万台。

Baidu-Scorpios.jpg
百度阳泉数据中心部署的天蝎2.0整机柜

简而言之,天蝎1.0奠定了集成供电、散热、管理,整机柜快速交付的框架。综合采购、部署、运维(能耗为主,以及管理效率),经测算,天蝎整机柜能将TCO降低10%以上。

天蝎2.0:定标准

在天蝎1.0开始交付的时候,阿里巴巴、百度、腾讯、英特尔和2012年9月加入天蝎联盟的中国电信,已经着手准备天蝎2.0规范。

严格来说,天蝎1.0不能称之为标准,为了快速实现产品化(解决有无问题),功能定义较为宽泛,很多方面没有细化和强制规定。五家供应商的整机柜服务器在具体实现上完全不一样,诸如供电用busbar还是背板,busbar与节点的连接方式,乃至风扇尺寸也都是五花八门,各不相同。这样发展下去,就将在整机柜层面重演刀片服务器(互不兼容)的故事,显然违背发起天蝎项目的初衷。

利用统一标准的机会,天蝎2.0规范将机柜内宽拓展至21英寸(538mm),以增大可用空间。很重要的一个业务需求是,阿里和腾讯要替换传统2U12盘位存储服务器。内宽19英寸时,1U服务器节点在双处理器主板之外,只能放置8个3.5英寸硬盘;而在宽度增加之后,就可以放置12个3.5英寸硬盘,用一半的高度达到(2U12盘位)同样的效果。

从这个例子也可以看出,将供电(PSU)和散热(风扇)单元从服务器节点上取出,再辅以宽度和深度挖潜,天蝎2.0整机柜服务器节点可以获得2倍于传统机架式服务器的存储密度。

服务器节点宽度增加至21英寸之后,对其托盘的承重能力也带来了挑战。为防止长期使用后因自重导致节点弯曲变形,天蝎2.0规范的每U高度在标准Rack U(RU,44.5mm)的基础上增加了2mm,达到46.5mm,命名为SU(Scorpio rack Unit)。

SU的取值又与天蝎2.0规范定义的风扇尺寸紧密相关。天蝎2.0规范将风扇尺寸统一为140×38(mm)规格,加上风扇盒等附件,高度正好对应4(S)U,且可以1(S)U为单位上下调节位置。每组风扇模组含3个140mm×38mm风扇盒(横向排列)及风扇背板。

由于每U的高度略有增加,2.1米高的机柜从天蝎1.0的44U变为天蝎2.0的42U,中间3U空间用于部署PSU和RMC单元,上面19U和下面20U为服务器和交换机空间。

天蝎2.0与1.0主要规格对比表

对比表.png

至此,从机柜的空间划分到供电、散热等单元的布局和具体尺寸,天蝎2.0规范都加以统一,整机柜服务器的“机箱”已然成形。同时,也提供了一些可选项,增加部署的灵活性,如:2.3米高的机柜,实际可用空间为46U;在交换机数量及节点数量无法满足要求时,可在机柜顶部安装固定交换机,总高度不超过2.5米。这两个扩展选项,分别在阿里和腾讯的自建数据中心里得到实现。

Ali-scorpios back.jpg
阿里巴巴千岛湖数据中心部署的天蝎2.0整机柜

在2014年中国移动正式加入之后,天蝎联盟的成员进一步壮大。为了更好的协调组织活动,扩大天蝎整机柜服务器的适用范围,在负责制定标准的中国信息通信研究院(工信部电信研究院)指导下,2014年8月29日在北京召开的2014开放数据中心峰会上,宣布成立开放数据中心委员会(Open Data Center Committee,ODCC),英特尔仍担任技术顾问。ODCC下属的服务器工作组,继续推进天蝎整机柜服务器的相关工作,并于会上发布了天蝎2.0规范,主要改进点如下:

  1. 定义了2100mm、2300mm两种高度的机柜,实际可用空间分别为42U和46U;
  2. 重新定义了机柜的内部尺寸,统一为538mm(21英寸) 内框;
  3. 重新定义了每U的高度为46.5mm;
  4. 增强了机柜背板功能,并可实现热插拔维护;
  5. 服务器节点与机柜系统解耦,可实现服务器节点混插互换;
  6. 明确定义了风扇的尺寸,统一为140×38(mm)规格;
  7. 增加了机柜顶部扩展功能。

考虑到中国数据中心行业的基本情况,天蝎2.0规范还对环境(温湿度)及机房提出了高度、供电和承重等方面的要求。

天蝎2.5:过渡与巩固

早在天蝎2.0规范定稿之前,天蝎3.0已经提上议事日程。不过,天蝎3.0要实现的目标过于宏大,很多相关技术还需要时间来解决,是一个需要分阶段实现的长期愿景。在此之前,为了巩固天蝎2.0规范的成果,定于2015年11月5日在北京召开的2015开放数据中心峰会上,发布天蝎2.5规范。

天蝎2.5是天蝎整机柜服务器规范的一个具体版本,其在天蝎2.0规范的基础上,对机柜电池供电、管理通信接口规范、RMC的通信管理接口规范进行了一些优化总结和修改完善。作为天蝎2.0规范的自然延续,天蝎2.5规范继承了天蝎1.0规范确立的分为机柜子系统、网络子系统、供电子系统、散热子系统、管理子系统、服务器节点子系统六个模块单元的模块化设计方案,又在物理规格上与天蝎2.0规范定义的标准保持一致,以下几个得到验证的优势不变:

  • 机柜内部宽度拓展到538mm(21英寸),从而能在1SU(46.5mm高)的空间内实现3台双路计算节点或支持最多18个3.5英寸硬盘的存储节点;
  • 集中化管理RMC,能够以机柜为单元来对服务器进行管理;
  • 集中PSU供电,大大减少PSU的数量,并进一步提高转换效率;
  • 集中风扇墙散热,对服务器负载保持较大的弹性兼容,风扇效率提升50%以上;
  • 模块化设计与生产,6大子系统相对独立,又相互耦合;
  • 一体化交付,在工厂完成组装和测试,一体化交付数据中心使用,大幅度提高交付效率。

天蝎2.5规范对行业最大的意义在于完善了服务器节点混插互换的设计。服务器节点互换在天蝎1.0规范制订时就已提出,但因为标准没有统一而无法实现。天蝎2.0规范将服务器节点与机柜对接的物理接口标准化,为实现节点互换奠定了基础。

天蝎2.5规范对服务器节点和机柜背板之间的连接PIN脚的功能、电气特性、信号端接要求、通信协议做了更详细的完善定义,从而可以实现服务器节点和机柜的解耦合,即不同的供应商产品能够进行服务器节点的混插互换。这样有利于解决实际使用过程中碰到的零星搬迁和灵活部署不方便的问题,同时可以让部件实现最大程度的共用,对优化供应链生态也会起到很好的作用,有效加速服务器节点的迭代升级。

RMC的IPMI接口规范在2.0中只做了简单定义,在2.5中做了完整的定义,通过标准的IPMI工具可完全实现CLI的功能,从而易于在用户现有的自动化运维管理系统中实现与RMC的兼容集成。天蝎RMC IPMI规范完全兼容RMC CLI,可实现对RMC、机柜背板系统、供电系统、散热系统、服务器节点、操作日志和异常日志进行信息采集和监控管理,为用户提供了更丰富便捷的管理通信接口。

为了进一步降低技术门槛,让更多的供应商参与进来,百度的服务器团队正在开发通用的RMC和管理代码(Base Code),可以开放给新加入的供应商直接使用。

服务器节点互换的重大价值主要体现在:

  • 从架构的角度,为天蝎3.0规范实现解耦埋下伏笔;
  • 从实际部署和运维的角度,节点互换对运维是透明的,无差异化,可以把任何供应商的产品插在机柜里。对备件也很重要,(故障处理)不再需要储备很多不同的备件,搬迁或采购都得以简化;
  • 从生命周期的角度,服务器节点的寿命定为3年,而机柜、风扇、电源(PSU和BBU)也可以用6年,即两代服务器节点的生命周期,这样架构就有很好的延续性。如果架构保持不变,整机柜组件(相当于更大尺寸的“刀箱”)用两代很合理。

举例来说,一个机柜全套下来大约5万元,全网部署一万个机柜,就是5亿元。在一个生命周期之后保持不变,意味着刨除更换节点的成本,可以节省5亿元,还体现了环保的优势。

天蝎2.0规范的PSU现在可以支持UPS交流供电、高压直流+市电直供场景,天蝎2.5规范最显著的变化是机柜的供电子系统,增加了电池后备系统(Battery Backup System,BBS)的支持,相当于将原来数据中心或微模块里的UPS分散集成到机柜中,意味着整机柜服务器能直接使用两路市电供电或单路市电供电,可省去数据中心原来的交流UPS系统和高压直流系统,大大降低数据中心基础设施的投资、缩减数据中心模块的建设交付时间,提升电力的使用效率并降低PUE。

传统数据中心的UPS常用铅酸蓄电池,寿命可达10年,与数据中心的寿命更为匹配,缺点也在于耦合过紧:需要专属的配电室,既占用空间,又对机房的早期规划带来很大的资源投入。因为UPS的配置和建设与数据中心基建相关联,但是服务器采购是滞后的——服务器采购往往与业务需求吻合,而机房规划要考虑到未来5到10年的整体需求规模做早期设计。譬如,要考虑未来20万台的规模,建设20万台容量的数据中心,虽然实际上前五年机房里的服务器数量可能不到10万台,但是在电池供电的时候要考虑足够的容量,在机房里留出UPS和对应设备所需的空间,所以会带来很高昂的早期投入,还会影响数据中心交付进度。

BBS将目前流行的锂离子电池(18650规格)做成节点模组,直接配到整机柜里,并纳入整个管理架构做集成管理监控。为了给运维留下足够的切换时间,BBS容量可高达2.2KWH,以满足机柜在8.8kw负载下,供电中断15分钟以内恢复的情况下不影响服务器正常工作的需求;如果供电系统能切换能在10分钟以内完成, BBS系统可满足机柜在满载12KW的业务场景的供电切换。

为了达到上述指标,BBS采用直接安装在天蝎整机柜服务器节点空间的方式,宽度538mm(21英寸),深度小于850mm,高度为1或2SU(93mm),并对不支持12VDC的标准商用TOR交换机提供经过逆变的220VAC输出。BBS的管理与RMC整合,通过RMC可实现对BBS的电池状态监控、电池充放电维护、电压异常监控、供电异常切换等功能,以管控BBS系统稳定高效运行,确保整机柜服务器安全可靠的工作。

天蝎3.0:定架构

天蝎3.0建立在天蝎2.0标准化的基础上,两者不是简单的替代关系,会共存很长时间。或者说,3.0会与2.x共存较长的一段时间。

天蝎项目要在整机柜的尺度上重新设计服务器,这必然是一个渐进的、由易到难的过程。

Scorpio3-roadmap.png
天蝎整机柜项目规划

这里面很重要的一点,是硬件资源“池化”的顺序。天蝎1.0池化了供电、散热和管理资源,天蝎2.0/2.5加以标准化和强化。供电、散热和管理资源的池化相对简单,计算和存储资源仍然分散在各个相对独立的服务器节点中,通过低带宽、高时延的松耦合网络(Network)连接,与以前的架构没有区别。优点是基础设施层以上的软件(包括单机操作系统,相对数据中心操作系统而言)无须改动,缺点是计算和存储资源的利用率不高,再分配很难。

Scorpio3-timeline.png
天蝎3.0发展时间表

2015年3月正式立项的天蝎3.0,目标是打破1U/2U服务器节点“box”的限制,解除计算和存储资源在小空间里的耦合,在机柜级的大空间里再耦合。CPU、内存、闪存、硬盘等同类资源物理上聚集在一起,形成不同种类的资源池。这就需要一条机柜级的总线,或者说是高带宽、低时延的紧耦合网络(Fabric),把上述资源池连接为一个整体,构成整机柜服务器。

Scorpio3-pooling.png
天蝎3.0的池化概念及优势

显然,这个(相对)长距离而又高带宽、低时延的Fabric是关键。带宽和时延(latency)的高低也是个相对概念,很大程度上取决于具体设备的性能、与CPU的远近。硬盘是最容易满足的,基于SAS Expander的交换方案也较为成熟,预计2016年就会有供应商推出相应的解决方案。然后是闪存和网络I/O资源的池化,内存的池化难度最大,要到2018年以后才有望实现。

由于存在多种不同类型的资源需求,Fabric的数据面需要支持多种协议,譬如PCIe、SAS、以太网,与传统机架式服务器、刀片式服务器或天蝎2.0整机柜服务器的节点内部总线相比,对连接能力(距离、数量)的要求提高了起码一个数量级。不同的互连技术还可以分别用于机柜内部和外部,机柜内部就是要求高带宽、低时延的一级Fabric,机柜之间的二级Fabric像传统服务器节点之间的网络一样强调易于扩展,但对带宽的要求更高——因为“服务器”这个概念对应的体量上升了不止一个级别。

Storage Pooling.png
存储池化是天蝎3.0的第一步

从外部看,整机柜服务器是一个整体,但其内部的资源是可以分割的,不同类型、数量的资源自由组合为不同配置的“逻辑”服务器,必要时还可以更改配置或打散重组,提高资源利用率,进一步降低能耗。

在互联网巨头们的超大规模(Hyperscale或Webscale)数据中心,由于业务和工作负载的差异性,没有哪种单一的服务器机型配置能满足所有的业务需要,因此业务和工作负载越多,机型配置就会越多。但是,为了降低运营复杂度和服务器采购成本,在服务器机型的设计上,必须进行一定程度的归一化。如此一来,业务工作负载的多样化与服务器机型的归一化就互为矛盾。在两者之间寻求平衡后,无法避免某种机型虽然满足了多个业务工作负载的需求,但是服务器的部件资源利用率明显下降,某些场景下CPU利用率低,某些场景下硬盘过剩;或者随着时间推移或业务负载的变化,原本适配的CPU和内存不再匹配……

SAS Switch-JBOD.jpg
SAS交换机与JBOD实现的存储池化

还有一些业务应用对服务器的配置和交付要求更高,譬如公有云类应用,对服务器机型配置要求多样化,而且交付周期要求短,都对服务器的技术引入和运行提出了很多挑战,传统服务器定制方式和天蝎2.x整机柜服务器无法满足弹性和快速交付的需求。

天蝎3.0在架构上的改变可以解决上述问题:通过将高速缓存、存储、IO、异构计算等资源从传统的服务器节点中解耦出来,形成共享的资源池,再根据业务工作负载的需要,灵活的配置和“组装”服务器,这样一来,服务器的配置更加灵活,同时服务器的外设资源的利用率也可以大幅提高,进一步降低了服务器和数据中心的功耗。

上述思路,与大家熟悉的服务器虚拟化很相似,但是资源的分配在hypervisor/OS(单机操作系统)之下更贴近硬件的固件等层面实现,避免了额外的开销。要达成这一目标,需要一套精细的配置管理软件对机柜内的各种资源进行监控和管理。在天蝎2.0版本,RMC实现了对机柜的电源(2.5加入了电池)、风扇、BMC的监控和管理;天蝎3.0版本中,将会对RMC的功能进行补充和增强,形成天蝎3.0的资源配置和管理软件,包括硬件平面、资源和配置的管理。

Scorpio3-management.png
天蝎3.0的管理体系,“节点”的概念发生显著的变化,计算、存储、I/O的划分体现了解耦的思路

天蝎3.0采用独立的管理面Fabric,通过高速互连接口,实现资源的带外的实时监管控。“管理面与数据面分离”、“Fabric互连分层分级”、“数据面Fabric支持多种协议”这三大特点体现了“硬件重构+软件定义”的发展趋势,而两个Fabric的实现是天蝎3.0最大的挑战。

与刀片式服务器或高密度机架式服务器类似,天蝎3.0架构也能以1个或多个机柜(Rack)为单位,共享资源池,在更大的范围内提高资源的利用率。资源池的配比会根据实际业务负载进行调配,因此并非每个机柜的资源池配置都是一样的。

天蝎+传统企业

天蝎1.0定义的框架、天蝎2.0/2.5细化的六大模块规格标准,都会在天蝎3.0中得到保留。天蝎3.0最大的不同在于解耦合,需要软件架构的配合才能充分发挥价值。因此,一方面在BAT等巨头的大型互联网数据中心,天蝎2.0/2.5整机柜还会存在很长一段时间;另一方面在传统企业市场,天蝎3.0及天蝎2.5之后的整机柜产品将拥有更多机会。

绝大多数传统企业的采购量没有BAT大,应用需求通常还不一样。即使是规模比较大的运营商(如中国电信和中国移动),应用也比较多的依赖第三方开发集成,业务类型多且分散,单一业务的需求量同样不能与互联网巨头相比。天蝎2.5及以前的整机柜产品,(服务器)节点都是紧耦合设计,为某一类或几类应用场景而优化,如果传统企业用户想要进行调整,又没有足够量的需求,只能削足适履,就违背了天蝎项目的初衷。

其实,只要实现最基本的存储——确切的说,是硬盘——解耦,就可以解决大多数传统企业用户的需求。SAS JBOD(Just a Bunch of Disks,硬盘的集合)是存储与计算资源解耦的典型代表,不同配置的服务器节点可以作为计算资源,与不同数量的JBOD节点(存储资源)组合出符合用户需求的解决方案。

天蝎3.0的第一步就是硬盘解耦,1(S)U的JBOD节点可以容纳20个3.5英寸硬盘。但是,JBOD节点不仅能搭配SAS交换机节点/模块,作为多个服务器节点共享的存储池,更可以直接与服务器节点相连(DAS,Direct Attached Storage),作为服务器内部存储的扩展。当然,JBOD直连不属于天蝎3.0架构,天蝎2.x整机柜即可支持,BAT等客户也都能使用。

天蝎项目最初成立的时候,没有将传统企业作为目标市场。其中很重要的一点是,互联网巨头与传统企业的规模和业务不同:前者,服务器数以万计的环境中,对整机柜规模的故障有更高的容忍度和应对措施;后者,一些离线业务也能经受一定的损失。但是,经过几年的实践检验,发现整机柜故障的几率已经小于TOR坏掉的情况,可以说具备了用于企业级市场的基本条件。另外,在天蝎整机柜的采购量上来之后,ODCC希望能有更大的量,把这个市场做起来,共同推动服务器行业的变革。

当然,起码的规模门槛还是有的。我们不建议半个机柜(少于20个节点)都配不到的用户采购天蝎整机柜,云计算或高密度机架式服务器——如服务器工作组正在开发的4U多节点服务器——更适合他们。具有一定规模的企业或集成商,如12306和2015年加入ODCC的中电普华,已经部署或正在考虑采购天蝎整机柜,高性能计算(HPC)也是很有潜力的目标市场。相信随着天蝎标准和生态的不断发展,天蝎整机柜会在越来越多的行业中开花结果。

ODCC多节点服务器简介

“多节点服务器”是中国移动2014年底、2015年初在ODCC服务器工作组发起成立的一个项目,也得到了ODCC决策委员会其他单位的大力支持。

之所以启动这个项目,是因为“天蝎”整机柜服务器虽然有前述诸多优势,但整机柜采购和部署这种方式,在某些情况下也限制了其应用范围,主要表现在:

  1. 整机柜服务器对于数据中心的功率密度、层高、承重和其它一些设计细节等有一定要求,否则会影响部署效果;
  2. 以整个机柜为单位进行采购和部署,不太适合应用比较分散、单次采购规模较小的客户。

多节点服务器则可以在一定程度上避免这些问题。其设计是4U(标准U)的机框,其中放置4个存储型节点或者8个计算型节点。服务器尺寸完全适合目前的数据中心(19英寸)标准机柜,而且采购、部署也相对更加灵活,适应性更广。有很多用户具有这样类似的服务器需求,特别是对于运营商或一些企业客户来说可能更是如此。

多节点服务器的设计借鉴了天蝎整机柜服务器集中供电和散热的理念,因此相比传统机架式服务器也更加节能;而与整机柜服务器相比,它在相对规模较小、采购部署比较分散的传统机房中更为灵活。可以预期,它应该是介于传统机架式服务器和整机柜服务器之间的一种相对折衷的解决方案。

目前,国内多个主流供应商已经研发了多节点服务器产品,预计多节点服务器未来也将会成为业界定制服务器应用的一个重要选择。

ODCC服务器工作组

张家军
头像张家军.jpg
ODCC服务器工作组组长
百度高级技术经理

肖德芳
头像-肖德芳.jpg
天蝎整机柜服务器项目经理
阿里巴巴高级专家

唐华斌
头像-唐华斌.jpg
多节点服务器项目经理
中国移动研究院资深研究员

王伟
头像-王伟.jpg
天蝎整机柜服务器3.0项目经理
腾讯服务器架构师

文件名 大小 下载次数 操作
天蝎整机柜服务器发展报告.pdf 5.71MB 25 下载
推荐阅读
关注数
2834
内容数
57
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息