狒话 · 2020年10月09日

相辅相成:腾讯数据中心的云化与标准化

作者注:本文最初发表于 2015年12月24日

11月底,我正在准备12月10日在北京举办的2015中国存储峰会“云计算与业务连续性”分论坛的开场演讲材料,接到腾讯数据中心架构师李典林的电话,邀请我参加12月9日在上海举办的第二届腾讯数据中心分享日。

这意味着我必须在9日晚上从上海赶回北京。一则,典林兄的邀请通常难以拒绝;二则,“基石长固,腾云共舞:第二届腾讯云+数据中心分享日”的主题正对我的心思——10日演讲的主题已经确定为云计算基础设施(分享实录:云计算本是O2O)。

今年夏天,青云、阿里云和谷歌云平台(Google Cloud Platform,GCP)的数据中心相继遭受天灾,先后成为当周的业内热点话题。正如不应在父母老去后才意识到家的好,数据中心也不该在“背锅”时才进入我们的视线。

Tencent Cloud 6 New Product.png
腾讯云12月中发起的新品限时抢购活动

除非是构建在其他提供商的IaaS(Infrastructure as a Service,基础设施即服务)云之上,领先的云计算服务商都不会忽视数据中心(含服务器与网络)基础设施建设——同理于O2O(Online to Offline),并不是数据中心(线下资源)强就一定能做好云计算,但若是数据中心跟不上,云计算(线上能力)就成了无源之水。亚马逊(Amazon)和阿里巴巴的服务器数量显著增长分别与AWS(Amazon Web Services)和阿里云的发展壮大有直接关系,连续两年的AWS re:Invent大会上都有AWS副总裁站出来讲在基础设施上的创新。今年早些时候,我也曾对百度的相关人士断言,百度开放云的未来对百度基础设施规模的继续扩大至关重要。

Cloud IDC-02.jpg
所以,当腾讯IDC负责人钟远河宣布腾讯的服务器数量已经超过50万台,在BAT中率先“公开撞线”;腾讯IDC平台部运营服务组组长肖力透露,内部预估在两年以内,新增的IDC资源可能有一半都会被云这个业务的需求吃掉……我不由得感叹,纵然“走马观花”也是不虚此行。

表里如一以贯之

云计算简化了IT交付的流程,与流程繁琐的采购部署项目相比,以产品和服务的方式快速交付IT资源(计算、存储和网络),省时省力。正如前面所述,如果数据中心基础设施的建设方式不能进行相应的调整,迟早会拖云计算的后腿。

Cloud IDC.jpg

在腾讯云发力之前,腾讯IDC平台部已经开始实践模块化数据中心建设方法论。2014年9月10日,腾讯数据中心在北京腾讯汇举办了以“开放创新,合作共赢”为主题的第一届数据中心分享日,正式对外发布了耕耘多年的第三代数据中心技术——微模块(Tencent Modular Data Center,腾讯模块化数据中心,简称TMDC),并于第二天组织参观了可容纳20万台服务器的天津滨海数据中心(见微知著:腾讯数据中心开放活动随想)。

可能是微模块给人留下的印象过于深刻,不久前还有人将其理解为腾讯模块化数据中心实践的全部(虽然只看TMDC的表面含义确有可能误解)。接受企业网D1Net采访时,我的观点是:“微模块只是模块化数据中心的一种形态。模块化数据中心体现了由传统的工程施工项目到工厂预制产品、现场模块化组装的转变,共同的诉求是快速部署,发展方向是标准化、可重用,形成新的生态,进一步降低成本。模块化数据中心确实是国内外大规模数据中心共同的发展方向,传统行业未来一定会跟随模块化数据中心的潮流,具体是腾讯式的微模块还是其他表现形式,最终还要取决于各自业务的需求。

对于产品化、标准化和模块化的关系,腾讯IDC平台部技术发展中心总监朱华给出了更为精炼的表达:产品化和标准化是发展方向,模块化是达成的具体手段,微模块是其中的一种实现方式

TMDC old.jpg

这些年腾讯数据中心微模块的采购成本下降了一半多,也降低了供应商进入的门槛,初步体现了标准化的价值。在此基础上,腾讯IDC平台部决定进一步扩展为完整的模块化数据中心建设方法论——开关发展了上百年,电源发展了几十年,线缆也很成熟了,为什么数据中心不能标准化?是否有最优数据中心模型?2012年,朱华领导的IDC平台部数据中心规划组闭关一个月,拿出了代号“诺曼底”的成果:从园区,一步步到建筑、机房单元、微模块、机柜,比例配比都可以算好,用标准化的方法来做。

Water loop.jpg

2014年3月底,李典林在DCD Converged会议深圳站上阐述了腾讯的模块化数据中心建设方法论:模块化数据中心设计遵循“从小到大”的原则,即从机柜、IT微模块、机房模块、建筑单体到园区逐层设计;而模块化数据中心建设遵循“从大到小”的原则,即从园区、建筑单体、机房模块、IT微模块到机柜逐层实施。“通过微模块,我们可以不断复制堆叠,形成机房楼,乃至整个园区。”

微模块是第一届腾讯数据中心分享日的明星,参观天津滨海数据中心的环节亦然——后者由于建设较早,没有机会完整实践模块化数据中心建设方法论。第二届腾讯数据中心分享日组织参观的上海青浦数据中心,和稍早投产的深圳汕尾数据中心,则很好的贯彻了从园区、建筑单体、机房模块、IT微模块到机柜的逐层实施,是腾讯模块化数据中心模型落地的最佳体现。

1.园区

青浦数据中心园区由4栋机房楼组成,每栋可容纳2.5万台服务器,每年启用一栋。总容量10万台服务器。

Scale Model.jpg
青浦数据中心园区1:200模型图,左下角为办公楼,上方四座为对称布置的机房楼

机房楼都是同样的设计,园区规划根据机房楼的数量不同而做相应的调整,有配套的计算方法,降低了工作量,保证了一致性。

同理,汕尾数据中心园区有6栋机房楼,已启用一栋。总容量15万台服务器。

按照这个速度,仅青浦和汕尾两地,每年就可以为腾讯增加5万台服务器,再加上天津和建设中的重庆数据中心,短期内不用担心50万台以上的服务器没有地方安置了。

2.建筑单体

每栋机房楼占地6000平方米,两层结构,底层是9米高的机电层,上层是6米高的机房层(放服务器)。

9米高可作为两层计算,这样一共三层,符合容积率(参见《BAT的基石:TMDC、去IOE、天蝎整机柜》一文)的要求。

IDC Building.jpg

目前来看,这种建筑单体设计是比较符合中国国情的方案:

  • 上面再加一层,对机电的负荷能力和建筑本体的要求都很高;
  • 大平层的话,一则容积率不达标,二则机电设备仍然需要建筑的保温等功用,很难露天部署。

阿里巴巴正在相对地广人稀的张北建设数据中心,从之前流出的建筑框架照片来看,也是类似的两层结构。

机电层采用二、八、二十的配比,具体说是两路市电入口,都分到8个高低压变配电柜,其中2个变压器供冷机等机电基础设施,另外6个供楼上的IT微模块,都是两两互备,每组IT变压器带20个微模块,约300个IT机柜。水冷的设计是3+1,在秋冬季可以启用水侧自然冷却。

Electronics Beauty.jpg

青浦数据中心的一大亮点是开始采用数据中心颜色标识管理系统,除空调系统采用了不同颜色的水管外,在配电系统上也使用了不同颜色的卡通形象代表不同的供电路由,而每个微模块门口处不同颜色的小牛持叉卡通则是典型代表,分别代表了色差、牛叉和守卫夜叉。

3 cross.jpg
一个微模块上两个不同颜色的“三叉”

另外一个亮点是取消集中式的UPS,省去了蓄电池间,改用分布式的市电+HVDC供电架构。市电+HVDC已经是腾讯微模块中的重要组成部分,不仅可以实现高达97~98%的效率,还可以随IT负载的增长按需部署,又不用走传统集中式UPS复杂繁琐的采购部署流程。节省了前期投入而不降低响应速度,数据中心本身的设计也得到进一步的简化。

3.机房模块

机房层有6个机房模块,每个包括5组微模块,每组有18个机柜和12个机柜的微模块各一,所以总共是900个机柜:

(18 + 12) × 5 × 6 = 900

每个机柜的供电容量为6~8千瓦(kW),最大可支持到12千瓦,加列间空调(满足更高的散热需求)即可,只要整个微模块总用电不超120千瓦。

TMDC.jpg
已投入使用的微模块,注意门两侧上方的“三叉”

腾讯仍然以传统的机架式服务器为主,52U的机柜,全部采用2U服务器,放满的话,也能超过2万台,实际还会有1U或2U4的机型,接近2.5万台的建筑单体最大容量无压力。

52U机柜的高度为2.5米,青浦机房的电梯高度为2.7米,有足够的空间容纳。

TMDC base.jpg
施工中的机房一角,可以清晰的看到微模块的安装位置

参观伴以解读,我对从机柜、IT微模块、机房模块、建筑单体到园区的逐层设计有了直观的认识,也是头一次参观尚未完工的数据中心而不感觉混乱无序。背后的支撑,正是设计者多年的经验积累与反复计算配比后总结出的一套方法论。

Nebula.jpg

除了硬件层面的标准化,另一个让朱华感到自豪的是全自动化数据中心支撑平台的开发。去年宣布贡献给开放数据中心委员会(ODCC)做标准化(微模块)南北向接口的工作正在稳步推进,更关键的是812事件发生后,离爆炸中心不到1.5公里的腾讯天津滨海数据中心受损严重,全部人员在两天内撤离,这个名为Nebula的系统实现了远程无人值守,帮助腾讯将受影响的业务转移到深圳的数据中心,通过了实战的考验。

新能源拓新领域

本次分享日上,工信部电信研究院标准所副所长何宝宏博士在题为“云数据中心助力互联网+”的演讲中提到:以前是有网络才有数据中心,数据中心的选址是围绕网络;今天我们正在反过来,即围绕数据中心建网络。

不过,鉴于我国的网络环境,这还需要一个过程。为了保证用户访问的响应速度,除了中国电信在内蒙古建设的数据中心、AWS尚未投产的宁夏中卫数据中心,以及阿里巴巴即将完工的张北数据中心,其他大规模数据中心基本都在人口密集区域。在这种情况下,清洁能源就显得格外重要。

Solar Water.jpg
配套办公/生活楼顶的太阳能热水器,看看天空……

风能和太阳能都是数据中心领域比较推崇的清洁能源,不过风能在上面提及的情况基本不适用——北京和上海周边如果有比较充沛的风能,也就不会长期受雾霾困扰了。太阳能相对可行,青浦数据中心园区的生活楼顶部全是太阳能热水器,而每栋机房楼的顶部,除电梯和冷却塔占用的空间,都有三千平方米以上的面积留给太阳能电池板(大约300千瓦以上)。

Solar base.jpg
机房楼顶除了冷却塔等设施,基本都是留给安装太阳能电池板的空间

钟远河表示,现在清洁能源面临最多的问题,是我们用的风能和太阳能不稳定,而供给计算机必须要稳定,从不稳定到稳定要付出很多的成本,目前这个鸿沟在缩小。青浦数据中心园区正在建设一个8兆瓦(MW)的天然气三联供(供电、供冷、供热)能源站,是国内在数据中心方面做的最大的尝试,而且刚刚宣布天然气降价,所以清洁能源在数据中心的比例会提升,以后腾讯愿意把取得的成果拿出来与大家分享。

Overview.jpg
站在园区正门,可以看到四座机房楼中间围起来施工中的三联供能源站

中国的经济和人口主要集中在东南沿海一带,这是短期内无法改变的局面(注:“胡焕庸线”提出已有80年)。在以前网速不快的年代,只有就近建设数据中心,否则体验无法保证。从长远来看,数据中心的(运营)成本是两个,一个是网络成本,一个是能源成本。能源成本低的地方在西部,如内蒙、贵州都是能源集中的地方,但是存在网络传输的问题,相信在将来可以解决;一个是互联网的去中心化,在贵州上网和北京差距体会不出来。另外运营商也在往西北走,比如去贵阳、内蒙建设数据中心,在这种带动之下,相信整个网络的布局和数据中心的布局会有转变。

DC as Computer.jpg
过了4个月我才知道,这就是以后会专文介绍的T-block……

虽然数据中心集中在北上广深和重庆一带,但据钟远河介绍,腾讯还有一个实验室计划,正在做移动式的实验室,先在贵州和宁夏这几个中国能源最便宜的地方试一下,包括在贵阳探索新能源(如太阳能和风冷)和新风制冷。有一些环境上的问题是很难想象到的,譬如极限天气的挑战,以及沙尘和污染空气,都会带来各种意想不到的困难。如果腾讯数据中心将来向那边迁移,IDC平台部需要提前做好准备工作。“一旦条件成熟,我们肯定会走在前面。”

推荐阅读
关注数
2835
内容数
57
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息