狒话 · 2022年10月12日 · 北京市

中美开放整机柜服务器实践与演进

本文是OCP China Day 2022开放整机柜分论坛回顾的第三部分,正文提炼嘉宾的主要观点,建议以观看演讲视频为主。

前两部分回顾
开放整机柜服务器简史(OCP China Day回顾之一)
京东云“天枢”服务器的思考与实践

我们知道,OCP(Open Compute Project,开放计算项目)“原生”的机柜规范Open Rack的主要用户是Facebook(Meta),而BAT共同发起的天蝎整机柜项目(Project Scorpio)主要用户是百度。所以,天蝎整机柜和Open Rack的发展,可以在很大程度上代表中美(开放)整机柜服务器的现状。

百度郑建武.jpg

天蝎5.0整机柜:中国开源整机柜技术创新与突破

百度资深系统工程师郑建武的分享分为四部分:

  • 整机柜的发展历程;
  • 整机柜的问题和挑战;
  • 浸没液冷整机柜介绍;
  • 未来架构思考。

https://www.bilibili.com/vide...

天蝎整机柜与Open Rack基本同龄,从2012年的第一代到今年在探索试点的浸没,正好十年,经过了6个版本的迭代,主要介绍突出的三个阶段。

  1. 2012年的风冷整机柜,集中散热、集中供电,还有集中交付,算下来整体的TCO收益大概是5~15%;
  2. 2019年在做的冷板液冷整机柜,风液结合,目前看来有5%的收益;
  3. 今年在探索的浸没整机柜,全液冷,算下来长期收益在10%左右。

天蝎历程.jpg

整机柜的问题和挑战分为三个维度:

  • 政策:为实现“双碳”目标,数据中心要逐渐液冷化;环保政策,对液冷的部署提出新挑战。
  • 芯片功耗:芯片堆核设计,功耗随之攀升;如CPU 350W(瓦)、GPU 500W,单节点功耗增加明显。
  • 机柜密度:单柜12kW(千瓦)时,节点密度低,风冷对液冷收益变薄;提升单柜密度,24~36kW逐渐成为主流。

天蝎5.0-机构.jpg

(天蝎)浸没液冷整机柜外尺寸为2500×1400×850(长宽高,单位mm),52U(单位SU,具体见《开放整机柜简史》一文介绍),21英寸节点,也兼容19英寸(通用)服务器。

布局上,集中供电的电源(PSU)和交换机放在中间。供电铜排(busbar)在机柜底部,为一体式(不分段),采用灵活的Clip而非硬锁连接。54伏供电,整机功率36千瓦,未来Eagle Stream(EGS,对应英特尔新一代CPU)可以扩展到60千瓦乃至72千瓦。双输入钛金(Titanium)电源进一步提高集中供电效率,但也兼容通过PDU配电的传统供电方式。

天蝎5.0-供电.jpg

浸没式液冷的核心是冷却液的选择,天蝎5.0采用单相氟化液,化学特性友好,方便运维,国产化溶液可以降低成本。集中CDU主备配置,目前是一拖四,未来可能一拖八,集中换热又可实现单柜控制。

Clip取电和IO前运维的设计都很适合浸没式液冷环境,风冷和液冷节点采用一套设计,物料共用,自由切换。

浸没式液冷的管理采用机柜级的管理设计,可以进行远程的控制和报警。机柜监控管理单元模块(RMMU)与RMC互联,可以采集Tank里所有的信息,后期可以进行一些散热策略的管理。

百度郑建武-问答.jpg

思考:芯片的功耗一直往上走,PUE值要一直往下走,这是一个矛盾体,解决方案肯定是液冷。机柜级、节点级还是封装级?从机柜级的角度,风冷机柜的搬迁运维不是很方便,液冷倒是更适配机柜级的(交付和运维)。

ORv2到ORv3机架设计的演进

在Open Rack v1的基础上,Open Rack v2(ORv2)发展得相当成熟,其主要用户Facebook(Meta)也成长为百万台服务器量级的数据中心巨头。

正如《开放整机柜简史》中所指出的,在新的历史时期,Open Rack和天蝎整机柜都致力于回归松耦合,给用户提供更灵活的选择,包括更好的支持19英寸的“标准机”。

https://www.bilibili.com/vide...

Open Rack v3(ORv3)在2019年浮出水面以来,经过几年的发展,逐步走向完善。Delta(台达)机构高级经理楊茗棠远程接入此次开放整机柜分论坛,介绍了ORv2到ORv3的几处细节变化。

台达杨茗棠.jpg

作为一个以集中供电为核心的机柜规范,铜排(busbar)的变化显然是最需要关注的。与天蝎5.0类似,ORv3的铜排也改为一体式,并与电源框(Power Shelf)浮动连接。浮动连接使ORv3的电源框可以和服务器节点(IT Gear)一样灵活的布置在机柜的任意U位,而仅支持48V(ORv2还支持12V)供电也体现了必要的精简。

17.jpg

电源框和节点接到铜排上的连接器结构上类似,主要是尺寸和承载电流的大小有所区别。电源框的接触点可以承载360A电流,节点的官方规格是100A,但是安费诺(Amphenol)等公司已经能支持到150A电流。

16.jpg

ORv3机柜的侧板上,为固定(L型)导轨分别留出了OU(48mm)和RU(44.45mm)体系的安装孔位。因为电源框的左右两侧要给交流电输入留出位置,所以其配套的导轨要短一些,采购的时候需要留意一下。

22.jpg

运维的友好度得到改善,更易于使用。在机柜的底部,采用新设计的双轮脚轮,只需要把机柜(略微)抬起,就可以借助六角扳手从上方拆下,而不必把机柜放平(拧底部的螺丝)。调平器(leveler)也采用了快拆结构的设计。

在机柜顶部的出线口增加了塑料保护罩,避免线材在拉拽时划破线皮。左右两侧模块化的理线架也可以拆下来,更换为用户自己想要的样式。

21.jpg

最后是对液冷的支持。ORv3机柜后端两侧预留了悬挂分水器(Manifold,集水分歧管)的位置,支持手动的快拆接头和盲插接头。还有后门换热器(Rear Door HEX)的安装,总之是为冷板式液冷(风液混合)方案做了充分的优化。

23.jpg

Meta的ORv3产品产品规范,包括机柜本体、电源框、BBU等,预计在年底之前陆续定稿。

下篇将回顾本次开放整机柜分论坛最后的圆桌讨论部分,敬请期待!

推荐阅读
关注数
2835
内容数
57
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息