狒话 · 2020年10月12日

落地,在路上:腾讯第四代数据中心技术初体验

作者注:本文首次发表于 2016年5月9日

当我收到腾讯T-Block首秀的邀请时,首先想到的是 T-Back 和 T-Bone ——衣和食是人的基本需求嘛,所谓饱暖思数据……中心?

T-Back 和 T-Bone 的共同点是扒开肉才能看清"T",T-Block 也需要了解相关技术后才能理解腾讯赋予的两种含义:

1. Tencent Block(腾讯积木),希望未来数据中心就像堆积木一样简单;
2. 突破(T)限制(block),有突破原有土建工程耗时耗力/突破系统能效等技术瓶颈的意味。

如果说,传统数据中心负责服务器等IT设备的衣食住,那么,T-block还可以包括行。

4月中旬去深圳开会,原本想借机看看位于宝安的腾讯第一代数据中心(传统工艺,厂房改造),因为第二代的天津数据中心(多种节能方案,自建园区)和第三代的上海青浦数据中心(TMDC+建筑模块化,见上面第一篇文章)都已经去过了,汕尾呢……又太远。

很遗憾我没能达成愿望,因为腾讯数据中心架构师李典林根本顾不过来。不过,他正在忙着的事情,给了我更大的惊喜——下周,带你去看腾讯第四代数据中心(的技术)!

框架图.jpg
腾讯第四代数据中心的主要技术亮点

准确的说,腾讯第四代数据中心所用到的大部分新技术都还处于研发试验阶段,其最大特点是“可移动,产品化”。我的感受是:

可移动,在路上;
产品化,正落地……

集装之意不在箱

正如大家已经熟悉的TMDC是腾讯第三代数据中心的产品名称,T-block是腾讯下一代数据中心(即第四代数据中心)的产品名称。目前T-block的载体是集装箱,承担着腾讯将数据中心全面产品化的使命。

Tblock-效果图.jpg
T-block外观

众所周知,模块化数据中心滥觞于集装箱数据中心,近几年来却忙不迭的与“老祖宗”撇清关系,以至于此Container(集装箱)的热度完全不能与彼Container(容器)类比。现在集装箱在数据中心的优势主要体现为便于运输和室外部署,腾讯西部实验室项目的T-block也利用了这两大特点,然并非传统意义上的集装箱数据中心。

Tblock-model.jpg
高度集装箱化的T-block模型

西部实验室是腾讯云计算示范工程的一个子项目,也是T-block的测试局。传统集装箱数据中心的特点在于内部独立集成,适合零散独立部署;T-block更多的是利用集装箱对外接口的标准化,而非独立集成,腾讯第四代数据中心的目标是大规模拼装对接,集装箱体作为结构支撑和尺寸对接方便,T-block现阶段采用集装箱并柜方案,未来可能会变成标准化程度很高的钢结构框架。

柯博文.jpg
T-block未来可能的结构形式,不离其“柯博文”(变形金刚中“擎天柱”的港译名)本意

正如腾讯IDC平台部技术发展中心总监朱华所说:产品化和标准化是(数据中心的)发展方向,模块化是达成的具体手段,微模块是其中的一种实现方式。TMDC(Tencent Modular Data Center,腾讯微模块数据中心)实现了IT末端/空调末端/配电末端的产品化,T-block的目标则是进一步将整个数据中心产品化,贯彻通过产品化手段解决数据中心建设问题的核心思路,从而“快速响应业务需求,提供一个稳定可靠的IT设备运行环境。”

TencentTJ-10.jpg
腾讯天津滨海数据中心早期曾部分采用整机柜服务器

IT设备的模块化相对容易实现,整机柜服务器为一例,TMDC在更大范围内实现了IT设备及其周边配套(如UPS)的快速部署,而电力、空调的主体仍然与数据中心建筑紧耦合在一起,无法从根本上改变数据中心建设周期长、工程气息浓重的本质。在TMDC的基础上,T-block将重点放在电力、空调的产品化,按照搭积木的方式,突破原有土建工程耗时耗力的限制,“实现全数据中心的模块化配置及快速建设,仅需场地平整甚至都可以不需要建筑物。”

Tblock-outlook.jpg
腾讯西部实验室外景

看到这里,我眼前不禁出现了类似“俄罗斯套娃”的既视感,只不过方向相反,即由内而外——解决了一层,外面还有一层。微模块外面是数据中心建筑和场地,建筑可以不需要(如室外部署),选址不能不重视吧?

如此看来,集装箱便于运输的优点也为肩负探索使命的西部实验室提供了额外的帮助。

风水轮流转,选址是关键

4月14日在深圳召开的开放数据中心委员会(ODCC)技术分享和成果宣贯会上,朱华的开场演讲重点提到了今年刚刚立项的数据中心选址白皮书,出示了大致的纲要,其中就包括“选址风水学”。

在现代科技行业讲古老的风水学,听起来有点儿匪夷所思,却绝非没有先例。2013年11月在美国科罗拉多州丹佛超级计算机大会上,便发表了一篇以风水为题的论文“Feng Shui of Supercomputer Memory: Positional Effects in DRAM and SRAM Faults”。

Fengshui-Memory.PNG
五位作者看起来都和中国没啥渊源…?

如果说,在有些场合,“风水”二字不过是个噱头,那么,数据中心的选址,乃至技术选型,还真是被“风”和“水”所左右的。

犹记首届腾讯数据中心分享日上,朱华在演讲中表示,数据中心的水冷管道系统是典型的工程项目,也是数据中心进一步模块化、从而全面产品化的一大阻碍(大意)。作为解决方案,在数据中心建设上几乎与腾讯同时起步的Facebook,利用美国相对优越的自然条件,在自建数据中心里广泛应用新风供冷(fresh air cooling)技术,水管阀门的数量大为减少,不仅建设速度快,还取得了1.1以下的PUE。

Tubes.jpg
水管颜色可以涂的很漂亮,但改变不了空调管路工程复杂和系统故障影响很大的现实

不过,新风供冷并不意味着完全以“风”代“水”,在环境温度较高时,需要向吸入的空气中喷水雾,通过提高相对湿度来降低湿球温度,以保证冷却能力。这就对环境的相对湿度提出了要求:2011年夏天,Facebook的Prineville数据中心投入使用不久,因建筑控制系统错误的输送了富含水分(相对湿度95%)的冷空气(80℉),导致很多服务器遇湿重启,或者因电线短路而自动关机。后来,Facebook取消了将Prineville数据中心二期的相对湿度和温升进一步提高的计划。

据投身于西部实验室项目的腾讯数据中心架构师曾宪龙介绍,由于类似的原因,欧洲的数据中心建设也对(直接)新风供冷持比较谨慎的态度。空气湿度较高,和空气质量太差,都需要把数据中心内外的空气尽量隔绝起来,避免直接混合。于是乎,来自欧洲的间接蒸发冷却方案,在大环境迥异的中国找到了知音。

为了让T-block摆脱工程复杂的空调管网束缚,腾讯从一家历史悠久的德国供应商引进了国内首台间接蒸发冷却机组,让数据中心热通道出来的热空气,流经机组核心的板式换热器(板换)与外部冷空气交换热量,温度得以降低,再回到数据中心的冷通道,完成内循环。室外空气温度足够低的时候,直接换热即可;当室外空气温度高到一定程度,机组自动开启喷雾装置为其降温,保证换热效果。

换热监控.jpg
间接蒸发冷却机组的气流组织

内外部的空气各走各的通道,空气与空气换热芯体只是交换热量,不用担心外部湿度过高对数据中心内部设备造成损害。但在有些地方,更让人操心的是空气质量啊……于是,在腾讯的强烈要求下,德方为其间接蒸发冷却机组加入了新风功能,条件符合时打开内外通道之间的活门,外部空气直接混合进入,成为首台带新风功能的间接蒸发冷却机组。

间接蒸发冷却机组在3月初到货,直接及间接蒸发冷却腾讯定制机组在4月初到货,均快速安装到位,秒杀需要安装大量水管阀门的工程项目。两台机组的设计负载为120kW,通常只开一台即可满足西部实验室的制冷需求。

有道是,气功再高,也怕菜刀。如此神器,要想用好,仍需外部条件配合:

  1. 环境温度。外部气温过高(如29℃以上),间接蒸发冷却机组可自动启用压缩机冷媒或冷冻水等传统方案来应对。据了解,在西部实验室,这些辅助设施全年开机时间也就百来个小时。显然,如果这种天气所占比例太高,间接蒸发冷却机组的节能效果必将大受影响。
  2. 空气质量。如果足够洁净,可以直接启用新风功能,进一步提高效率;反之,外部空气通道的过滤和板换清洗成本,也将抵消间接蒸发冷却带来的好处,甚至得不偿失。

Tblock-weather.jpg
从这个角度可见集装箱上面的太阳能电池板和气象采集装置,以及常规制冷产品箱和间接蒸发冷却机组的部分

于是,又回到数据中心选址的话题。高度模块化的集装箱和间接蒸发冷却机组运输方便,部署很快,据称包括密封在内,我们参观的西部实验室演示环境只用两天就组装完毕。T-block还持续采集空气质量、温湿度、日照辐射、水质等参数,作为未来数据中心选址的重要依据。

能“行”有多重的意义。

循序渐进新能源

模块化市电直供和AHU自然冷技术的结合,帮助T-block在4月26日工信部电信研究院组织的24小时不间断带载测试中取得了小于1.10的PUE(1.0955),而在计入太阳能发电的光伏收益之后,PUE可进一步降至1.07以下(1.0665)。

Sun-PUE.png
光伏发电对改善PUE的加成效果

去年12月上旬参观建设中的腾讯上海青浦数据中心时,看到了楼顶为太阳能电池板留出的大片空位。T-block则在并柜的集装箱上方布满了太阳能电池板,为3个IT机柜供电。实验室共有20个IT机柜(约400~500台服务器),单机柜最大可以支持10kW,目前总运行功耗70kW。每个机柜又都配备了假负载,方便后续把负载进一步加大。

Test-PUE.png

采用光伏及风能等清洁能源是数据中心社会责任的体现,谷歌(Google)和亚马逊(Amazon)等数据中心大户通过合作等方式建设百MW(兆瓦)级别的光伏及风能发电农场,以兑现100%清洁能源供应的承诺。西部多地建有大规模的光伏农场,从这个角度来看,腾讯西部实验室是一个探路尖兵。

DC-DC.png

T-block将光伏直流输出与(来自市电输入的)高压直流(HVDC)输出直接并网,供给IT机柜。光伏直流输出电压比HVDC高3V,一旦光伏DC输出中断,HVDC即刻顶上,实现无缝切换。

PV-culve.png

从腾讯的实际经验来看,日照辐射在800W/m²附近时,光伏DC输出即可满足对应负载的100%电力需求。但我们知道,光伏发电要“看天吃饭”,需要储能装置“削峰填谷”。腾讯尝试用磷酸铁锂电池完成这一任务,在T-block的供电产品箱中设有4个磷酸铁锂电池柜,3个给HVDC做后备,还有1个就是留给光伏DC的。

Power Supply Box.jpg

与特斯拉采用的NCA系列三元锂电池(18650只是个尺寸规格)相比,磷酸铁锂电池被认为更适合用作动力电池,在耐高温(更安全)和充放电次数(寿命长)上占据优势,不足之处是能量密度较低。

磷酸铁锂.jpg

T-block现用的磷酸铁锂电池单元尺寸也大于18650,用作机柜级电池(如天蝎2.5的BBS)时管理单元较少,已经有供应商在设计相应的方案。回到电池柜的层面,尽管铅酸电池有能量密度更低、充放电次数少、耐高温性能差等优点,其成本优势仍然不容忽视,所以供电产品箱中还设有高温(设计正常工况可到35℃)铅酸电池柜,作为冷却机组的后备电源。

物联网助力可视化整体管控

数据中心基础设施常说的“风火水电”,T-block相比以往都有突破或新的探索,也包括可视化的整体管控平台。

Racks.jpg
IT产品箱内部的机柜,可见前端内侧贴有RFID感应条,将每台服务器都纳入资产管理

这个整体管控平台基于腾讯自研的Nebula平台,目标是从基础设施管控到日常运营的全方位自动化能力。为了电子化管控IT设备等数据中心资产,T-block为每台服务器配备了RFID标签,把服务器纳入整个数据中心的“物联网”,可以从管理界面直观的看到每个机柜的服务器上架情况,以及温度和负载水平,一目了然。

Nebula.png

更进一步,这个定制的管控平台可以实现全程控制,包括开关通断,现场即演示了通过管控平台为指定机柜下电的操作。通过管控平台实时监测数据中心的各项参数,必要时进行远程操控,既降低了对数据中心现场运营的依赖,也有助于业务调度。

监控.jpg
可视化整体管控平台的部分功能,包括查看数据中心的整体状况(左上)、机柜内的功耗分布(右上)、服务器的温度(左下),以及断开电源(右下)

循序渐进产品化,因地制宜任组合。我所理解的腾讯第四代数据中心,本身就是一段旅程。

推荐阅读
关注数
2834
内容数
57
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息