狒话 · 2020年05月07日

OCP缘起、组织与典型项目浅析

本文最初发表于2014年9月17日

2004年2月,Mark Zuckerberg在哈佛大学宿舍内将Facebook上线,当时只有一台服务器。仅仅五年之后,这个世界最大的社交网站已拥有超过3亿活跃用户,每天处理3.9万亿feed,超过10亿聊天信息,1亿搜索请求,每月超过2000亿PV…

在只有一小撮人使用,少量照片、没有视频的草创时期,全部服务运行在一台服务器上还是没问题的。2009年时的Facebook网站显然是另一个样子:载入用户主页这么一个看似简单的动作,就需要在不到一秒钟的时间里访问数以百计的服务器,处理上万片分散在各处的数据并提交所需的信息。

服务器的增长速度不难想象,有迹象表明,Facebook的服务器数量:

  • 2008年4月约1万台;
  • 2009年约3万台;
  • 2010年6月至少6万台……

即使放在今天,这个数量也可以排在Tier 2互联网客户的前列(超过10万台在国内便是Tier 1,Facebook是十几家之一),能效就是必须要考虑的问题了。以每台服务器200W的保守计算,年耗电量已经超过1亿度。如果数据中心PUE(Power Usage Effectiveness,电源使用效率)能从1.5降到1.1,每年即可节省4200万度电。

直到2009年,Facebook仍然依靠租用的数据中心空间,没有自建的数据中心。租用数据中心空间(自己部署服务器、网络等IT设施)的优点是交付速度较快,可以在5个月内搞定;建设一个数据中心则需要大约一年的时间和更多的前期投资,但是在供电和散热等方面可以根据自身需求定制,对超大规模用户更划算,Google和微软早就自建数据中心了。

2010年1月,Facebook宣布在俄勒冈(Oregon)州的Prineville建设属于自己的第一个数据中心,规划面积约1.4万平米,目标PUE为1.15。同年7月,这家社交巨头决定将Prineville数据中心的规模倍增至约3万平米。2010年12月完工,得益于100%使用外部空气冷却、无需空调的一系列高能效设计,PUE可低至1.073。与1.51的“业界平均值”相比,节能幅度还略好于我们刚才的假设。

prineville-data-center-3-620x415.jpg
Facebook Prineville数据中心外景

数据中心的设计一般被视作机密,像Google就将其数据中心和定制硬件视为核心竞争力,秘而不宣。Mark Zuckerberg志在挑战Google,Facebook一向主打开放牌,于是,借鉴开源软件的理念,Facebook在2011年4月11日宣布发起Open Compute Project(OCP,开放计算项目),开源了包括数据中心、定制服务器在内的一系列硬件设计。

OCP logo.jpg

当时OpenStack刚刚兴起,OCP也采用了一些类似的做法,譬如上下半年各一次峰会(Summit),并在2011年10月27日召开的第二届OCP Summit上,宣布成立OCP基金会(Open Compute Project Foundation)。不过,硬件设计的周期较长,于是,从2012年开始改为每年一次,2014年1月底召开了第五届峰会。

目前,OCP的成员总数已接近200家(不乏今年加入的微软、VMware等重量级传统企业厂商),以广达(Quanta)为代表的7家解决方案提供商,大量经过验证的设计,Facebook和Rackspace的采用……下面,就让我们从组织架构和典型项目两个方面,管窥一下OCP这个开源硬件组织的运作及成果吧。

董事会

成立基金会,而不是在Facebook一家控制之下,对OCP发展的重要性不言而喻。OCP基金会在董事会的管理下运作,最初有5位董事,分别来自5家创始公司。

Frank Frankovsky代表Facebook,担任OCP基金会主席兼总裁。2009年10月加入Facebook,先后担任硬件设计与供应链运营总监和副总裁。此前,在戴尔负责服务器定制业务的数据中心解决方案(Data Center Solutions,DCS)部门担任总监近四年,上世纪90年代曾任康柏(Compaq)计算机公司的产品经理。

Mark Roenigk是Rackspace Hosting的COO,在微软工作过9年,大部分时间负责OEM和供应链运营,此前7年是康柏的工程师。Rackspace是著名的服务器托管商,有丰富的数据中心建设、运营和硬件经验,还与NASA共同建立了OpenStack——是惟一在一软一硬这两大开源组织中都有肇始之功的公司。

Jason Waxman现任英特尔(Intel)数据中心事业部高密度计算业务总经理,主要负责的领域包括互联网数据中心、刀片服务器以及与未来密集型数据中心架构相关的技术。他还负责领导英特尔在云计算方面的工作,并在Blade.org和服务器系统架构组织(Server System Infrastructure Forum,SSI Forum)的董事会兼任管理职位。此前曾担任负责英特尔至强处理器、相关芯片组和平台产品及其客户关系的总监。

Andy Bechtolshiem来自Arista Networks,更响亮的名头是“Sun Microsystems共同创办人”。Andy Bechtolshiem担任过Sun的首席系统架构师,成功投资了Google,还担任闪存初创企业DSSD的董事长——后者2014年5月被EMC高调收购。

除高盛(Goldman Sachs)的Don Duet职业生涯主要履历为CIO之外,以上四人均有深厚的硬件行业背景,从产品、技术到供应链都有涉猎,见多识广,经验丰富,对把控开源硬件项目的发展方向至关重要。

2014年3月下旬,Frank Frankovsky宣布离开Facebook,去做一个OCP相关的初创公司(基于光盘的冷存储),但以独立身份保留在OCP基金会董事会的位置,并继续担任基金会主席兼总裁。董事会规模扩大到7人,其中Facebook基础设施总监Jason Taylor显然是接替Frank Frankovsky的代言人角色,而微软负责云和企业业务的副总裁Bill Laing,则很大程度得益于年初第五届OCP峰会上,微软高调宣布加入OCP,并贡献了用于全球云服务(如Windows Azure、Office 365和Bing)的服务器设计作为“投名状”。

项目

第二届OCP峰会过后不到一周,2011年11月1日,BAT(百度、阿里巴巴、腾讯)三巨头在Intel的支持下发起天蝎项目(Project Scorpio)。相隔只有半年的这两个项目因诸多共性而经常被放在一起比较,不过,天蝎项目最初的构想远没有OCP那么宏大,主要聚焦在整机柜层面;而OCP除了对应的机柜规范Open Rack,还包括服务器、网络、存储,乃至数据中心的设计。

数据中心

如前面介绍,OCP的孕育就与数据中心建设有着密不可分的关系,Facebook贡献了基于Prineville数据中心实践的数据中心电气和机械设计规范,是OCP最早的文档之一。BAT都有自建数据中心,但是美国的云计算巨头们自建数据中心更为普遍,最关键的区别就是我们百说不厌的“国情不同”。以我国最大的社交网站腾讯为例,2008年即开始建设天津滨海新区的数据中心,2010年1月封顶,12月建成。仅数据中心土建而言,国内就要复杂得多,周期长,难度大,腾讯计划以后都交给运营商(如电信)按照其标准建成交付,再自行部署微模块。

lulea-data-center-5.jpg
Facebook Lulea数据中心内景

从自建数据中心尝到甜头的Facebook再接再厉,先后在北卡罗来纳州(North Carolina)的Forest City(2010年11月宣布)、瑞典的Luleå(2011年10月宣布)和衣阿华(Iowa)州的Altoona(2013年4月宣布)建设数据中心。每个数据中心建成后都有扩建,像Prineville和Forest City各增加了一个用于冷存储的数据中心(建筑),Facebook向OCP贡献的冷存储硬件设计规范里则有冷存储数据中心地面布局的建议;Luleå和Altoona的二期工程也在2014年启动。

2014年3月初,Facebook数据中心设计团队的设计工程师Marco Magarelli在OCP官网上撰文表示,Luleå园区的第二座数据中心建筑(Luleå 2)将采用“快速部署数据中心”(Rapid Deployment Data Center,RDDC)的概念模块化构建。RDDC包括两种方法,第二种“flat pack”(组合件)组装的方式自称效仿宜家(Ikea),不过,真正“因地制宜”的是为了适应瑞典寒冷的气候(Luleå位于北极圈边缘,相距不到100公里)——Facebook机械和散热工程师Veerendra Mulay在与我的交流中表示,用传统的方法建设数据中心需要11~12个月(参见Prineville),RDDC可以缩短为3~8个月,从而尽量避开下雪的季节(腾讯天津数据中心建设过程中也曾被暴雪所阻)。

resizedimage600516-photo14.png
Flat-pack测试组装模型

提高效率,终归是要服务业务需求。

机柜

OCP在机柜(Rack)上做了比较大胆的尝试,Open Rack除了天蝎项目也有的后方集中供电、前方冷侧维护,主要体现在内部的可用宽度及高度单位都比EIA标准尺寸大:内宽由19英寸(483mm)增至21英寸(538mm),外部宽度仍为600mm;高度单位由Rack U(RU,1.75英寸=44.45mm)改为Open U(OU,48mm)。原因很简单——增加服务器的内部空间,而且效果很显著。

Open Rack.png
Open Rack(V1)前视、侧视和俯视图

Open Rack真正“奇葩”的一点是允许有0.5OU,而标准U(RU)通常没有“半U”的概念。现在看来,继续保留的必要性不大。

Open Rack的详细介绍可参考我们的年度技术报告《数据中心2013:硬件重构与软件定义》

服务器

OCP成立时,Facebook数据中心团队贡献的第一代OCP服务器设计有AMD(12核Opteron 6100)和Intel(6核Xeon 5600)两种双路方案。当时还没有Open Rack,这款产品自带供电单元(PSU)是一方面,宽度(480mm,略小于19英寸)和高度单位也还守“老规矩”。以传统企业用户的眼光来看,OCP V1服务器做工粗糙,无甚亮点…但是,Facebook定制服务器的目标是省钱,在两方面有集中体现:

其一是实践Facebook一直强调的口号“Vanity-free”(无浪费),去掉面板和不必要的涂装、用不到的USB口等,尽可能降低购置成本(省CAPEX)。

其二是采用1.5U设计,服务器高度为66mm(虽然有点矛盾,但真不能算1.5OU),略高于1.5U标准服务器机箱。好处是可以使用60mm风扇,比40mm风扇更有效率;PSU输入电压为277V交流,减少不必要的电压转换,降低能源损耗。双管齐下,控制电费(省OPEX)。

OCP V1-2.jpg
OCP服务器V1(左)和V2(右)

OCP V2服务器在一年后的第三届OCP峰会上推出,采用双路Intel Xeon(至强)E5-2600主板。这款代号“Windmill”的Intel v2.0主板外形长而窄(6.5×20英寸),所以能在同样规格的机箱里容纳两个计算节点,从而将密度翻番。

与前两代相比,第四届OCP峰会上亮相的第三代OCP服务器在设计上有质的飞跃。主板仍然是v2.0,关键在于拥抱Open Rack,改变主要体现在以下三个方面:

  1. 服务器高度为2OU,并特意强调不是1.5OU……目测以后也很难有0.5OU的设计了。更大的纵向空间有利于容纳全尺寸GPGPU,80mm风扇效率更高;
  2. 机柜集中供电,服务器机箱里不需要PSU,直接从后部的铜排(busbar)取电;
  3. 横向宽度增加,可以并排摆放三台服务器,密度进一步提高(2OU3)且相互独立。

观感上,做工精细了很多,裸露部分的处理也较好,总体上不输一般商用服务器的水准。

Winterfell-x3_MB.jpg
单节点俯视图与三节点斜视图

2013年第四季度,Facebook的Intel主板升级到v3.0,但尺寸和主要布局没变,服务器设计基本不用更改,除了要配合Open Rack V2,在供电位置等处有些调整。

不难看出,OCP的服务器设计在标准化和通用化的感觉上,是越来越好啦。

对OCP旗下项目的点评暂时就到这里,要不要看后续呢?

推荐阅读
关注数
2835
内容数
57
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息