19世纪的最后10年,爱迪生、特斯拉、威斯汀豪斯三大巨头展开了一场波澜壮阔的世界电力之争,时至今日,依然有人认为“电力是世界上最伟大的发明”,有了电力,发电机、电灯、电话、手机、电视等新事物才得以诞生。
云计算被视为数字时代的电,但正如我们对电力习以为常,对发电厂却所知甚少。云计算对我们来说同样如此,倘若以最朴素的视角看待云计算,云计算要解决的是不外乎是计算这一根本问题,这离不开IaaS层的基础能力。
可能有人会觉得,IaaS是云计算基础中的基础,并不能体现云计算厂商的差异性,其实不然。在技术领域,越是基础的,越是核心的,这是亘古不变的道理。
弹性计算是几乎所有企业上云都会用到的能力,在弹性计算领域分出高下,更见云服务商的真章。如何决胜于云计算的“隐形战场”,阿里云自有一番感悟。
三次架构升级
从什么是云计算,到客户需要什么样的云计算,云服务商们走过了市场拓荒的十年,这条路还远远没有尽头,但是已经可以窥见一些共性。
稳定、安全、高性能,是企业客户对IT设施的基础诉求,而且不论上层应用如何变化,客户的对这三者的要求只会越来越高。
阿里巴巴集团研究员、阿里云弹性计算负责人张献涛告诉我,过去十多年时间阿里云弹性计算已经历了三个阶段的架构演进:第一阶段,最初的阿里云弹性计算采用的是Xen开源架构,“就像每家云计算公司都会经历的过程一样,当时主要面向的中小互联网用户。”
第二阶段的标志是面向企业级的技术延伸,很多大型企业把业务生产系统逐渐向云端迁移,这就意味着架构对稳定和可靠性的要求更高,在2015年,阿里云发布了弹性计算2.0。2015年到2016年期间,整个阿里双11超过60%的流量运行在阿里云上,阿里自身也开始了向弹性计算2.0升级的过程。“可以看到在这个阶段,如12306等大型的场景开始显现价值,弹性2.0一定程度开启了中国企业上云的历程。”张献涛说。
第三个阶段是以神龙架构的推出为标准的。第三个阶段是以神龙架构的推出为标准的。从2016年初立项到2017年发布,作为IaaS领域最有影响力的创新,阿里云神龙架构面世后一个月,大洋彼岸的AWS发布了理念类似的Nitro架构,两位云计算巨头不谋而合,引领了新一代虚拟化架构的发展,也开启了DPU研发的新时代。
尽管业界出现了很多通过降低虚拟化损耗的技术,但真正在实际的应用场景中无可挑剔的仍然仅有阿里云和AWS,“因为技术的投入是巨大的,阿里云前期就已经投入了上亿的研发资金,而且我们基于百万台服务器的量级去衡量性价比,与规模化也是成正比关系的。”张献涛说。
安全、可信的第七代ECS
时至今日,神龙技术已迭代至第三代。而在2021年2月,阿里云也全球率先开启了搭载第三代英特尔®至强®可扩展处理器(代号Ice Lake)的第七代云服务器ECS的邀测,并于4月20日宣布正式开启第七代ECS公测。
英特尔Ice Lake CPU提供业界领先的性能,并经工作负载优化,具有内置人工智能加速功能,可提供无缝性能基础,帮助从边缘到云加快数据的变革性影响。
Ice Lake提供增强的数据保护,抵御恶意攻击的同时不损失性能,并完全支持受信任的平台模块 (TPM) 标准。借助英特尔 Software Guard Extensions(SGX)技术,企业可以实现零信任战略,并与行业数据中心安全标准保持一致。
即便是例行的升级,阿里云也能做到超前一步,不仅如此,阿里云的第七代云服务器ECS是搭配了第三代神龙架构的ECS。
早期的虚拟化都不是为云设计的,所以云计算的虚拟化损耗难以避免,2017年,阿里云正式对外发布了自研的软硬一体虚拟化架构“神龙”,并在此后全系云服务器均基于神龙架构,神龙架构不仅消灭了虚拟化损耗,而且在云原生场景下,还能提供比物理机更高的性能和稳定性。
张献涛说,神龙裸金属服务器运行容器,对比起线下物理服务器,性能有20-30%的提升,即便在CPU负载高达80%、90%时,依然非常稳定,远非一般云服务器可及。因此,阿里云判断,这种技术架构将成为云技术的主流,事实也的确如此。
基于第三代神龙架构,阿里云第七代ECS相较于上一代整体算力提升40%,容器部署密度最大可提升6倍,是最佳的云原生载体。神龙架构从软件到硬件为云而设计,这种云原生的、软硬协同的设计思路,运用专用神龙芯片处理虚拟化和转发,让性能大大提升,是真正为云而生的虚拟化架构。
在安全层面,随着上云企业主体从互联网企业到传统企业,尤其是金融、制造和政企等行业客户的深度上云,企业对安全问题愈发重视。
阿里云弹性计算产品负责人王志坤表示,阿里云在2018年发布可信云架构,构建立体化的可信体系,是全球范围内最早一批将SGX技术商业化的云服务商。一直以来,阿里云都在不断探索基于芯片级的高安全能力的数据安全保护能力。
据了解,阿里云第七代云服务器ECS全量搭载了可信芯片,首次全量搭载安全芯片作为硬件可信根,实现服务器的可信启动,确保零篡改。
其次,在可信的基础上,阿里云第七代云服务器ECS还支持加密计算能力,实现运行态数据的可用不可见。
“英特尔第三代至强处理器本身有基于芯片级的SGX加密计算技术,而阿里云也有自己的基于神龙虚拟化加密计算技术,这是完全自研的技术,一方面通过两大加密计算技术的叠加,提供更安全的弹性计算环境,另一方面我们自研的技术也可以做到不依赖其他第三方平台,做到完全自主。”王志坤说。
阿里云认为,技术发展的成熟度、客户体验和政策环境多种因素的作用下,可信计算和加密计算未来将成为云服务器的标配。
弹性计算的进阶:IaaS+服务
从阿里云弹性计算的创新历程,我们发现IaaS层的创新从未止步。
如张献涛所说,“新的场景总在不断涌现,客户不仅仅是对传统数据中心的需求,在云原生场景中,客户会将云当做一台超级计算机,这要求云本身的能力,计算、存储和网络的要求又提升了一个层次,这些需求在不断倒逼IaaS层的技术变革。”
的确,随着上云的客户越来越丰富,客户的需求已经出现了明显的分化,云需要根据客户需求提供兼备广度和深度的产品形态。
云计算IaaS原来仅是提供通用基础设施,后期开始形成针对不同场垂直景的云服务器家族,譬如阿里云最早云服务器仅有一款通用规格,如今在通用计算、异构计算和高性能计算等不同场景下都有产品,现在已经支持超过300种场景。
与此同时,场景化与垂直化的深耕,以及自动化运维套件的需求开始凸显,客户不仅希望上云,还希望做到高效地管云用云。
阿里云弹性计算率先演进到了第三阶段,提供高效智能的、场景化的IaaS+服务能力。
例如针对人工智能和视觉计算等市场规模较大前景广阔的领域,阿里云提供了专门的软件产品支持。近几年兴起的人工智能技术及制造业上云趋势,对云上算力有着强大需求。阿里云ECS自研的神龙AI加速引擎,为云上AI训练与推理提供深度性能优化,大大提升了云上AI效率。
企业在云上涉及迁移、部署和运维等一系列操作,易用的自动化运维工具将能大提升管理效率。目前,阿里云弹性计算已经围绕云服务器的全生命周期,提供了一整套自动化运维套件,帮助客户低成本构筑云上运维体系。
在实际应用中,弹性伸缩可实现自动化扩容缩容,提升云资源利用率;资源编排服务ROS,帮助某领先SaaS企业将云上部署从2天缩短到2小时;自助实例健康诊断功能则帮助用户快速定位云服务器问题。