狒话 · 2020年05月06日

整机柜2.0:天蝎的新高度

本文最初发表于2014年7月24日

上周参加2014可信云服务大会,在阿里的天蝎机柜(ALI RACK)前流连拍照一番,回来发了三条阿里定制服务器的微博,久违的小小热闹了一把。不过,反而把这个天蝎2.0的机柜给“冷落”了。

Scorpio20-01.jpg
阿里展示的天蝎2.0机柜及部分服务器。前端维护,后端供电和散热

原本在三、四月份的时候,有想过再小小讨论下天蝎项目(Project Scorpio)。缘起于ZDNet企业解决方案中心今年一月初发布的《数据中心2013:硬件重构与软件定义》技术报告——在第一章天蝎项目与Open Compute Project(开放计算项目,OCP)的部分,侧重于指出天蝎1.0与Open Rack V1的区别,而没有探讨两大规范互相借鉴的可能性。

实际上,彼时太平洋两岸的2.0版本都已接近就绪。“天蝎2.0技术规格”在2013年11月初即达到Rev 0.5,2014年3月底公开;而2014年1月底召开的第五届OCP峰会,也展示了Open Rack V2的设计。

天蝎整机柜与Open Rack的主要尺度变化对比
Scorpio20-02.png

天蝎2.0最大的改变之一,就是机柜内部的宽度,由1.0沿用的19英寸(483mm)EIA标准,向538mm(约21英寸)的OCP标准靠拢。这当然是件好事,既增大了IT设备(如服务器)的可用空间,又有利于标准的统一。

Scorpio20-03.jpg
阿里的冷存储服务器,可以横向并排3个3.5英寸硬盘(每个147mm),还留有一定的维护空间,这得益于天蝎2.0将内部可用宽度增加了55mm。服务器没有风扇和电源模块,散热与供电由机柜后部的风扇墙及左侧的铜排解决

在每U高度上,天蝎2.0也放弃了EIA标准的1.75英寸(44.45mm,即Rack U,简称RU),却并未采纳OCP的Open U(简称OU,48mm),而是近乎取中的46.5mm。既然天蝎2.0整机柜内部的空间宽度已经是与Open Rack一致的538mm,那么在纵向高度的划分上,还有必要在不到4mm的区间里切割出一个新的标准吗?难道仅仅是为了与OCP不同而不同?

《天蝎2.0整机柜服务器技术规范Revision 0.5》中没有讲原因,我先后询问了浪潮和阿里的工程师。目前来看,可以接受的解释如下:

为什么超过RU:IT设备(服务器)的高度可能仍然遵守RU,不过要加上L形隔板的厚度,所以每U多留出约2mm。L形隔板作用相当于服务器机架套件中的滑轨,便于将服务器从前端拉出来维护,但结构简单、成本更低;

Scorpio20-04.jpg
传说中的L形隔板,一两个毫米的厚度是有的

为什么小于OU:天蝎2.0和Open Rack V2都不满足于1.0时期2.1米的机柜高度,Open Rack V2增加到2.21米,天蝎2.0则是多了一个2.3米的选项——这是为了实现46U的内部空间,相应的每U高度就不能是48mm,而是46.5mm。

天蝎项目只比OCP“小半岁”,不过部署量还不大,有说不到BAT三家服务器总数的10%(待考)。我也是第一次看到天蝎2.0机柜的实物,这次展出的阿里服务器都是1U设备,L形隔板的影响就尤其显著了。相比之下Open Rack更看重纵向空间,不仅一开始就弄了“OU”,而且服务器设计以2U为主,3款1U方案基本不敢想。比较典型的是Open Vault,一个2U(确切的说是2OU)Sled内部分成上下两层。

Scorpio20-06.jpg
Open Vault的2OU双层Tray结构,以及后部60mm风扇模块特写

这几台阿里服务器当然不能代表全部的天蝎方案,但天蝎的服务器之所以能大肆采用1U设计,天蝎整机柜后部的风扇墙功不可没。天蝎和Open Rack都集中了电源模块(PSU),由机柜后部的铜排(busbar)为服务器供电,这没啥说的,分歧在于散热是否也要集中。Open Rack选择让IT设备自备风扇,我们知道风扇尺寸大一些效率会更高,所以2U方案要好于1U,Open Vault就可以理解为2个1U共享风扇。

Scorpio20-05.jpg
天蝎服务器后部供电用的折线臂(Cable Arm),与机柜铜排的连接,以及并排的3个140mm大风扇

天蝎2.0把风扇尺寸统一为140mm×38mm,相当于3U的水平,理论上效率更高,风扇墙的冗余更好,集中起来也便于维护。风扇都在机柜上,服务器就不必考虑做成1U时的(40mm)小风扇了。不过,理论总是很美好,如果相邻的服务器因为结构及热负荷的差异,对风量的要求不同,风扇墙就难免顾此失彼。天蝎2.0的解决方案是以散热区(Cooling Zone)为单位独立设计(譬如把同类服务器放在一起并均衡工作负载),由RMC或机柜背板实现独立风扇控制,以保证散热效率。总之,风扇的集中共享或分散自理,可谓各有利弊。

不过,在内部IT设备如服务器的设计上,天蝎与OCP比起来,还是略显粗放。仍以阿里展示的这三款(1U)服务器(节点)为例,设计水平参差不齐,个人以为冷存储服务器较佳:硬盘可免工具拆卸,系统板便于更换,提供在Atom与ARM之间选择的灵活性。另外两款则不够精心,感觉过于强调降低生产成本,空间利用率和可维护性都有较大的优化空间。反观OCP的服务器设计,很注重部件的模块化和方案之间的搭配使用(如Winterfell计算节点与Open Vault JBOD组合),看似单个部件成本提高,但能在可重用性和易维护性等方面获得补偿,还可适度减少SKU,有助于库存管理。

Scorpio20-07.jpg
计算与存储相对均衡的服务器(左),还有计算密集型服务器(右),设计理念和实现细节都值得商榷

目前来看,OCP的硬件设计水平仍然优于天蝎项目。原因是多方面的,组织架构或许可以算一条。我们知道,两个项目中都有英特尔(Intel)的深入参与:天蝎项目中,Intel扮演唯一的顾问角色,与阿里巴巴、百度、腾讯、中国电信(中国移动还未正式宣布)一同制订规范,浪潮、曙光、联想、华为等服务器厂商外围支持;而在OCP基金会中,有大量硬件厂商参与,Intel只是在董事会中占据一席。

Scorpio20-08.jpg
开放计算项目(OCP)的部分成员,总数已超过150家,当然也不乏混进来探听虚实的…

乍看起来,有可能得出“天蝎项目是Intel控制多家客户,OCP是多家厂商为Facebook服务”的结论。然而,从已经公开的各项方案来看,OCP的机制使部件和系统厂商在硬件设计上的经验积累得到了更充分的体现,这应该归功于OCP基金会的设置。OCP的目标是发展开源硬件,效仿开源软件如OpenStack的做法,成立基金会可以避免被发起者(Facebook)所控制。虽然Facebook仍是主要用户,但基金会让厂商的参与度更好。Facebook自己主导了一些设计(如Open Vault),也从厂商直接贡献的设计方案中获益良多。

阿里交易,百度搜索,腾讯社交,传统上BAT三大的核心应用各有侧重。但在社交、移动、大数据、云计算(SMAC)大潮的推动下,旧有的分界线已然消失,主要用户的竞争关系愈发明显,决定了天蝎项目不容易达到OCP的开放度。不过,吸纳更多起码是元器件级的硬件厂商,借鉴x86成功的经验,把生态圈建立起来,还是天蝎项目可以做到的。在这方面,Intel不仅有丰富的经验,也需要更多的变通。

天蝎项目的未来不会局限于整机柜交付,包括把服务器放大到机架的维度重新设计,以往的成功经验仍然可以派上用场。

推荐阅读
关注数
2835
内容数
57
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息