E企研究院 · 2021年09月30日

东城西就:软件定义赋能大型云计算中心

关注数据中心行业发展的人,即使没看过《The Data Center as a Computer》(数据中心即计算机),也应该听说过这本以两位谷歌技术高管为主要作者的书。从2009年第一版到2018年第三版,在这十年间,数据中心走入了云计算时代。

76b3a04d07114045a9e1ed0c14ec7281.jpeg
数据中心再往上,可以升级为“Cloud as a Computer”(云即计算机)的逻辑:

在云上,用起来就像计算机一样简单;
在云下,遍布全国乃至全球的数据中心连为一体,按需为用户分配计算、存储和网络资源。
云计算对用户屏蔽了底层的复杂性,不过,适度了解底层的运作机制,有助于更高效的利用云上的资源,拓展业务的边界。

所以,从随处可见的“计算机”代入,是不是更容易理解那看不见摸不着的“云计算”呢?

数据时代的中心和远方

一台典型的计算机,CPU是核心——“中央”处理器嘛。如果可能的话,把所有的数据都放在CPU当然是最好的,问题就在于这不可能,因为“中央”的位置必然是有限的,而数据几乎是无穷的。就像核心城市的核心地段,永远是稀缺资源。

ab3f62b4d86e40e0b0e8b03d600a83be.jpeg
所以,尽管CPU内集成的RAM容量越来越大,但在海量数据面前根本不值一提,只能作为Cache,临时性的存放最急需处理的数据,要长期保存的数据通过PCIe等外部总线输送到固态盘(SSD)和机械硬盘(HDD)等专用存储设备。

近几年来,核心城区的数据中心也体现出类似的趋势,把越来越多需要长期存储的数据,通过数据中心间的网络互连(Data Center Interconnect,DCI),转移到周边数百公里范围内新建的超大规模数据中心里,后者很大程度上解决了存储的容量供给和成本问题,起到类似SSD和硬盘的作用。

大数据唤醒人工智能(Artificial Intelligence,AI),GPU的风头已经盖过CPU。个人的Computer(PC/手机),CPU可以集成GPU,而且功能越来越强,但同样受制于这个“中央”地带(CPU内部)的空间和能耗,无法与独立的GPU比肩。就数据中心市场上的主流产品而言,GPU在晶体管数量和热设计功耗(Thermal Design Power,TDP)上都已超越CPU,两者间通过PCIe之类的互连技术传输数据。

2d7c88a88be64d72be164039983c0610.png
存储要地,算力要电,需求大到一定的规模,位于核心城区的数据中心,从容量到成本,都无法满足,这也是云服务商逐渐向核心城市外围拓展的主要原因。这些地方的园区,要地有地,要电有电,建设超大规模数据中心容纳存储和高性能计算集群,通过DCI与核心城区的数据中心连为一体,利用软件定义(Software Defined)的技术按需分配对应的计算、存储、网络资源(所要即所得),就像在PC/服务器里CPU通过PCIe访问GPU和存储那么简单。

数据中心:北乌居大而易

要实现上面描绘的宏伟蓝图,首先要有一个足够“大肚能容”的数据中心,譬如UCloud(优刻得)乌兰察布云基地。这是UCloud第一个自建自营的园区级云计算中心,定位于为中大型企业构建规模化混合云、云超算、AI训练集群等场景应用,提供自由部署、负载灵活的定制化服务。

181aa25a66cf4e2eafb2ad0196a2e87f.jpeg
UCloud乌兰察布云基地全景,近处自左至右依次是园区自建110千伏变电站、综合办公楼、云计算中心A楼,后面正在施工的是二期工程

“南贵北乌”,即贵州省的贵安新区和内蒙古自治区的乌兰察布市,近几年来我国的数据中心市场上迅速崛起的两大地域。两地都有适合建设超大规模数据中心的诸多优势,因此吸引了多个在数据中心领域如雷贯耳的大品牌入驻。

与贵安新区相比,乌兰察布的一大优势是地势较为平坦,用户自建的超大规模数据中心园区更为集中。以占地6.5平方公里的乌兰察布大数据产业园为例,UCloud乌兰察布云基地东西两侧分别是快手和阿里巴巴的园区,北边依次有苹果和华为的园区,都仅有一街之隔,密集度之高在国内罕见。

本文一直在强调数据中心的“超大规模”(hyperscale),不妨通过UCloud乌兰察布云基地来体会一下:园区整体建筑面积约14万平方米,包括由5栋云计算中心机房楼、独栋综合办公楼和专用仓储,规划机柜总数超过1万柜。

机房楼为两层结构,一层部署基础设施如冷冻站、供配电和柴发,二层部署机房模块;风冷式冷水机组安装在屋面,也就是机房模块的上方。土地地质较好,楼的高度也低,不用挖很深的地基,有利于缩短土建周期,加快交付速度。

4ce5a79c580a45339ffa10f6442def19.jpeg
云计算中心A楼加综合楼的建筑面积为2.3万平方米,一期机柜数量2500柜,今年7月底已交付一阶段的1200柜,剩余机柜将于明年第一季度交付。由云计算中心B楼加C楼组成的二期也已开工建设,建筑面积约5万平方米,机柜数量约5000柜,预计将于2022年初交付使用。

27be14ea0eef4f29baf6d30c3641044a.jpeg
决定云服务容量的不是机柜的数量,而是服务器的类型和数量,所以关键在于每个机柜能安装多少台服务器,这又取决于机柜的高度和供电能力。UCloud乌兰察布云基地的单机柜供电能力为4.4~8.8kW(千瓦),机柜高度有47U和54U,U位比标准U高1mm,优化机柜空间布局,提高机柜空间利用率。

据UCloud云计算中心项目负责人赵雪飞介绍,47U机柜为4.4kW,以出租客户为主,也有存储型的;54U机柜容量更大,国内数据中心行业采用的不超过三家。

a4fb92f7e1c245468d89e16d2beec819.jpeg
存储型服务器对供电能力要求不高,特别是冷存储机型,放满机柜可能4.4kW也就够了,但是整个机柜会很重。UCloud乌兰察布云基地的机房采用末端精密空调水平弥散送风,封闭热通道回风,运输、安装、施工流程均方便高效,没有下送风地板,无需特别设计即可支持重载机柜。

率先入驻UCloud乌兰察布云基地的是AI业务,这类业务用到的设备如GPU服务器,对供电能力的要求比较高。为了保证云计算中心的电力供应,由满达站和益武堂站220kV(千伏)变电站分别引入两路市电,互为热备,双路由容错。位于园区西南角的自建110千伏变电站计划2021年底完成送电,整个园区规划总用电量200MVA(兆伏安)。

4a4b597336f6417d830ee292bb959aba.jpeg
满达220kV变电站距UCloud乌兰察布云基地的直线距离不到3公里

到北京不远不近,是乌兰察布的另一个优势。

“北京向西一步,就是乌兰察布。”乌兰察布在北京的西北偏西方向,纬度相差不大,直线距离也只有300公里,高铁2小时直达。UCloud乌兰察布云基地距乌兰察布火车站车程30分钟,距京藏高速入口仅4.5公里,北京的客户可以当日往返,非常方便。乌兰察布云计算中心已接入UCloud广域网,到北京的双向时延低至5ms(毫秒)。
195262cfbf2a4bb099e2dff6356cd675.jpeg
辉腾锡勒草原上的风电场

说不远吧,乌兰察布已经属于内蒙古自治区,电价全国最低。UCloud乌兰察布云基地所在地集宁区察哈尔工业园海拔超过1300米,夏季平均气温明显低于周边区域,年平均气温在0~6℃之间,UCloud采用的风冷式冷水机组一年内工作在自然冷却模式下的时长达10个月,加上新风机余热回收等手段,非常节能。在西北方向,距离亚洲最大的风力发电场辉腾锡勒风电场只有50公里,丰沛的风电供应也令这里的数据中心离实现“双碳”目标更近。

便宜又大碗,不近又不远。如何充分利用优质的硬件资源,请看软件定义助力的UCloud全栈混合云表演。

计算:多元算力无处不在

软件定义不止是屏蔽底层复杂性,还可以根据用户需要开放到适合的层次,在多个层面定制,包括提供物理机——真的computer。

UCloud具有丰富的云主机系列产品,和可定制化的金翼物理机型一样,可以提供给用户多样化的算力选择——既有传统的x86架构(Intel/AMD),也支持迅速崛起的ARM架构。

b2c21162479846ed963e2e86f38c6f7f.jpeg
快杰Lite型主机采用基于Arm v8.2+架构、Neoverse N1平台的Ampere Altra处理器,支持25GbE网络,最大网络性能达到1000万PPS,最大存储性能达到50万IOPS,适合互联网组件,Android开发等场景。金翼物理机型以独享物理机包年/包月的形式提供用户相应服务,满足混合云用户不同业务场景的计算资源需求,对Arm架构的支持包括鲲鹏、飞腾等国产CPU。

说到多元算力,怎么能少得了GPU呢?特别是AI应用,UCloud在云上提供基于GPU的AI训练服务(UAI Train)和基于CPU的AI在线推理服务(UAI Inference),自建的UCloud乌兰察布云基地也从这些能力中获益,通过应用RFID资产管理、机器人智能巡检、VR远程参观、AR远程运维、数字孪生平台等创新技术,开放运维数据,实现自动化运维、智能化巡检、数字化管理,打造软件定义AI智能管理,利用智能化技术手段,提高运维效率,为客户提供更便捷,更高效的新一代云计算中心。

存储:冷热数据各安其所

针对乌兰察布云计算中心的地理位置及能源优势,UCloud打造了新一代归档存储产品US3, 与北京云计算中心联动,为用户提供数据热、温、冷一站式解决方案:

US3通过引入大盘位JBOD磁盘阵列,结合软件控制磁盘休眠技术,将单位存储容量的存储能耗降低90%,为用户提供了比其他同类产品低30%的存储价格;
通过软件生命周期策略,用户可自由定义数据的降冷时间,实现数据由热至冷的全生命周期自动转换,大幅降低成本;
通过自研元数据索引,为用户提供快速检索、取回归档数据的能力,借助乌兰察布与北京数据中心的双回路光缆,实现5min内的数据激活、20ms内的数据取回延迟。
基于乌兰察布云计算中心的托管服务能力,UCloud US3为海量数据存储用户提供了US3专有云存储平台,结合海量托管算力资源,帮助用户实现安全、可信赖的托管业务区域,保障用户数据存储的合规性同时,实现数据应用的快速落地。

0e566e2fc8ac4602af7ae154dd698d1a.jpeg
利用US3的成本优势,UCloud可以为用户提供存储混合云与灾备混合云等服务。以存储混合云为例,UCloud存储专家会帮助用户进行数据生命周期管理、将冷热数据分层,在一线城市如北京部署热数据和温数据,降低数据处理延时;而在二三线城市如UCloud自建的乌兰察布云计算中心,可以存储海量的冷数据,极大降低用户TCO,为传统行业、互联网行业大客户提供大型混合云服务。

网络:连通内外按需卸载

前面已经提到数据中心之间网络互连的重要性,按照“Cloud as a Computer”的原则反推,在数据中心内部是一样的。

UCloud乌兰察布云计算中心网络架构,采用fabric设计框架升级至100GE/400GE网络,核心层spine使用多个独立平面,每个平面由多组核心构成;各业务专区部署到不同POD,每个POD内的每台fabric交换机,会链接到其所在spine平面内的每台spine交换机,整个乌兰察布云计算中心可支持数十万台物理机。

无损网络的部署使当前的计算性能、网络性能、存储性能达到质的提升,为用户带来了创新性的使用体验,以更强且更稳定的计算性能帮助用户更为顺畅地开展业务。
e11df949702a4442bba533d435de343e.jpeg
UCloud通过软件定义网络的方式将网络的控制平面和数据平面分离,控制平面与数据平面之间通过开放的接口和标准的协议进行交互,用户可以自定义任何想实现的网络路由和传输规则策略从而支持未来网络的创新和新业务支持。

UCloud的裸金属物理云主机也是软件定义的产物,通过结合了Arm核心与高性能网卡的DPU(Data Processing Unit,数据处理单元)卸载底层网络与存储操作,UCloud让物理机具备可与传统物理机相媲美的高性能计算能力的同时,可以接入虚拟网络与虚拟存储,给予了传统物理机更多的扩展性,以及分钟级交付的能力。

按照UCloud前店后厂式“双中心”布局,另一个位于核心城市区的上海青浦云计算中心,也在加紧建设中,预计在明年交付后,能进一步丰富UCloud的全栈混合云解决方案。

推荐阅读
关注数
5033
内容数
335
E企实验室由E企研究院专职产品技术分析师针对数据中心、云计算、AI和5G等领域最新技术和应用研究、验证、试用、分析,数据中心级新产品新技术的市场教育,国内唯一同时研究互联网和传统企业IT基础设施的机构和部门
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息