狒话 · 2021年09月06日

以数据为中心,迎接多云时代

语言很微妙,从“数据中心”(data center)到“以数据为中心”(data centric),不过增改了一两个字(母),含义就截然不同。
“数据中心”是客观存在,“以数据为中心”是主观愿望。

那么,“数据中心以数据为中心”呢?

什么意思?名字都叫“数据”中心了,数据还能不是中心么?

Application Architecture.png

从我多年的观察来看,很多人提到数据中心,想到的其实是计算中心或者说算力中心——毕竟,数据中心主要为各种服务器服务,服务器的中心又是CPU等算力元件,数据看不见摸不着,由存储设备通过服务器外部的网络或内部的总线送到CPU去计算。

计算是中心,数据成外围。这样的存在并不总是合理,譬如一些数据量大但计算相对单一的任务,像加密、压缩,花在数据传输上的时间就很长,如果能在数据存储这一端就地解决,不仅可以节省大量的时间,还降低了对网络带宽的要求。

所以,存储厂商在十多年前就提出,可以利用存储设备自身具备的计算能力,在本地对数据做一些简单的处理工作,尽量避免非必要的数据移动,减少对网络等“公共资源”的占用,可以说是“以数据为中心”思想的发端。

Data Centric.jpg
“以数据为中心”的市场机会,这饼真的很大,要看一下

在云计算的驱动下,网络设备也加入战团。从前几年的SmartNIC(智能网卡),到现在的DPU(Data Processing Unit,数据处理器)乃至IPU(Infrastructure Processing Unit,基础架构处理器),都打着“以数据为中心”的旗号——典型如英特尔。考虑到英特尔(IPU)和英伟达(DPU)都是计算大厂,“以数据为中心”俨然已是业界共识。

IPU.png
IPU的逻辑:接管底层运行,CPU专注上层应用

回到数据中心(基础设施)的层面,又该如何理解呢?

上云、近云、混合云

数据无形可流动,算力则不能脱离CPU、服务器等实体设备,所以通过数据中心之间的互连(Data Center Interconnect,DCI)把分布在全国乃至世界各地的数据中心连为一体,让数据能够在这张大网里自由流动,也可以视为一种“以数据为中心”的设计。大型的互联网和公有云服务提供商,莫不精于此道。

但是,当数据不在这张大网里的时候,又会重复前面提到的格局——计算在内,数据在外。以公有云为例,上云、混合云和多云也往往与数据迁移服务联系在一起。如果用户本着“以数据为中心”的原则,不希望迁移数据,或者尽可能少的迁移,有没有解决方案?

传统IT-新IT.jpg

以上云为例,非常注重数据安全的用户,既想利用公有云提供的弹性计算资源,又想把核心数据保留在自己的数据中心。这种云上+云下的混合模式对“位置”有较高的要求:用户自建或租用的数据中心,离公有云的数据中心要足够近,两者之间的网络有较低的时延和很高的带宽,才能达到相当或接近算力和数据在一起(都在本地或云上)时的效能。

在中国数据中心市场的“城市战”时代,这个要求并不难满足。企业数据中心(EDC)和互联网数据中心(IDC)都集中在城市里,特别是核心城区,只要找到一家有实力提供“近云”服务的数据中心运营商,租用其紧邻公有云客户的机房就可以了。

数据流.jpg

2016年初公开的某服务外包企业案例就是典型代表:在万国数据上海自贸区数据中心里,UCloud(优刻得)公有云与NetApp私有存储(NetApp Private Storage,NPS)架构经过专线互联互通,为该服务外包企业自主研发的一站式资源管理服务平台提供混合云解决方案。

回望这一年,为了满足云计算业务发展的需求,大型公有云服务提供商已经将目光转向核心城市50公里以外,寻找合适的地点自建(或合建)超大规模数据中心,颇有些“农村包围城市”的意味,不妨称之为数据中心市场上的“野战军”。

多云、野战、城市战

“到广大的农村去”,把有限的城市资源留给更需要的人,这个大方向是对的。但是,超大规模数据中心对电力、气候、土地等环境资源的要求较高,公有云服务提供商又倾向于在几十公里的地域内建设二到三个通过DCI互为备份的园区作为数据中心基地,放眼核心城市周边200公里范围,能满足这些要求的区域并不多,且彼此间的距离通常也比较远。

GDS-SH6.jpg
万国数据上海6号数据中心

在这种情况下,如果“王不见王”,即两个公有云服务提供商建设的数据中心基地不在同一个区域,跨云的访问成本就会很高。以上海周边为例,A和T都有自建的超大规模数据中心园区,但一个在正北,一个在西北,两地间的距离就超过200公里。要是基于这两个区域做多云解决方案,挑战还是很大的。

显然,“野战”并不能替代“城市战”,两者是互为补充的关系。位于核心城市的数据中心离用户最近,乃兵家必争之地,适合作为连接各大公有云的枢纽,部署多云方案。仍以万国数据在上海自贸区的布局为例,我实地探访过的数据中心就不下10座,相互间的距离很近,排名靠前的公有云服务提供商都有入驻,非常利于开展多云业务。

GDS-NetApp.jpg
联想凌拓与万国数据签约仪式现场

于是,时隔五年之后,联想凌拓(Lenovo NetApp)与万国数据再次携手,将“云上计算+云下存储”的架构扩展到多云环境,可以说是“多云计算+云下存储”。具体而言,就是把联想凌拓的存储设备私有化部署在万国数据的IDC,通过万国数据提供的云连接能力( CX服务)挂载到多个公有云。在多云环境中部署应用,根据业务需要进行切换,数据则可以保持在原地,不需要跨云迁移或复制,实现存储及数据的安全可控。

多云Data Fabric.jpg

如果说DCI释放了数据的流动性,让这种流动变得高效有序、真正“以数据为中心”则是Data Fabric的价值所在。联想凌拓的Data Fabric战略旨在将企业存放在不同位置上的核心数据高度整合、统一、连贯起来,使得数据能够跨云、核心及边缘无缝流动,以便企业自由地调用数据,无论是复制、归档,还是其他数据相关的应用,都可以在Data Fabric中实现,真正解决企业在混合多云情况下的数据管理难题。

Data Fabric案例.jpg

至于数据的可用性,云上和云下的保障原则是一样的,不外乎复制多份、异地保存。譬如,把联想凌拓的存储设备分放在万国数据的3个数据中心区域,1和2之间实时镜像(双活),3作为容灾备份站点——类似“两地三中心”的玩法,联想凌拓这样的存储厂商可是老司机了。

作为一家积累深厚的存储厂商,联想凌拓也为多云应用提供了丰富的存储功能。例如,性能方面,可以选配联想凌拓全闪存存储产品,匹配万国数据近云连接服务提供的高带宽,提供极佳的数据存取性能;成本方面,通过自动分层功能,将冷数据按规则分层到大容量软件定义存储(Software Defined Storage,SDS)中,优化客户投资成本。

文件上传.jpg
识别上面的二维码,可以体验万国数据与联想凌拓提供的多云(阿里云、微软Azure、AWS)数据存取方案——有惊喜哦

全国一盘棋,岂止于上海。作为国内最大的第三方IDC提供商,万国数据的数据中心布局覆盖了全国的一线城市,网络也随之遍布主要城市及周边的金融级数据中心,群聚超700家大中型客户,正是“多云计算+云下存储”的主要目标客户群。

目前,万国数据的布局正在扩展至省会城市,以覆盖到全国范围内的更多城市为目标,而联想凌拓也会下沉到二三线城市。在希望的田野上,双方的合作是否能再次演变出新的范式?让我们拭目以待。

推荐阅读
关注数
2834
内容数
57
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息