申耀的科技观察 · 2021年12月21日

站在亚马逊云科技re:Invent舞台看未来,释放技术创新澎湃力量

一年一度的re:Invent全球大会,是了解亚马逊云科技每年技术创新最好的机会和舞台,自2011年re:Invent大会举办以来,re:Invent已走过了10年,它如今更是成为了观察全球云计算技术发展趋势的重要风向标。

可以看到,在今年re:Invent的大会上,亚马逊云科技就发布了涵盖计算、物联网、5G、无服务器数据分析、大机迁移、机器学习等方向的多项新服务和功能,而事实上,每一年的re:Invent大会,亚马逊云科技的技术创新发布往往会多达成百上千个服务和功能。从这个角度来说,在全球云计算产业的创新之路上,亚马逊云科技其实始终扮演着“探路者”的角色。

正如亚马逊全球副总裁、亚马逊云科技大中华区执行董事张文翊所言:“在亚马逊云科技创立云计算15年来,没有任何一个行业不跟云计算相关,没有任何一个颠覆性的创新缺少云计算的参与,云已经是不可逆的滚滚洪潮。”

确实如此,云已成为千行百业加速数字化转型的关键支撑和“底座”。那么,今年亚马逊云科技在re:Invent全球大会上发布的新服务和新功能,又引领了云计算产业哪些新的发展趋势呢?更为关键的是,这些新服务和新功能,之于客户的数字化和智能化转型,又会起到哪些新的作用和价值呢?

自研底层技术持续创新
今天,随着上云成为了企业数字化转型的“必选项”,不同企业的计算需求也正在变得多样化,越来越多的客户既希望芯片具备强大的计算性能,也希望芯片具备AI推理能力,同时还希望云计算的成本能够进一步的的低。

如何满足这些客户的不同需求呢?亚马逊云科技给出的答案是自研底层技术。据亚马逊云科技大中华区产品部计算与存储总监周舸介绍,早在2013年,亚马逊云科技就专门推出推出了向AI训练和推理的专用芯片Amazon Nitro,截止目前Nitro已经演进和迭代到第四代;而在计算芯片领域,2017年亚马逊云科技发布了Amazon Graviton处理器,在今年的re:Invent大会上,Amazon Graviton3处理器也“如约而来”;不仅如此,在机器学习领域,亚马逊云科技也“与时俱进”的推出了Amazon Trainium芯片,具体来看:

一是,面向计算的Amazon Graviton处理器方面,基于Amazon Graviton2的计算实例自去年推出以来,被全球众多客户在生产中使用并已经获得显著的性能提升和成本节省。目前,基于Graviton2的系列实例共有12种,包括通用型、计算优化型、内存优化型、存储优化型、突发性能型和加速计算型实例,真正让客户拥有了云上至深至广的计算选择,并兼顾性价比和能效。

而为了满足客户更多的需求,亚马逊云科技进一步发布了Amazon Graviton3处理器,与Graviton2相比,Amazon Graviton3能够为科学计算、机器学习和媒体编码工作负载提供高达2倍的浮点运算性能,为加密工作负载速度提升高达2倍,为机器学习工作负载提供高达3倍的性能。Amazon Graviton3处理器的能效也更高,在相同性能下,与同类型EC2实例对比,可节省高达60%的能源消耗。

除此之外,由Amazon Graviton3处理器支持的C7g实例与由 Graviton2 处理器支持的当前一代C6g实例相比,可将计算密集型工作负载性能提高多达25%。C7g实例是云中第一个采用最新DDR5内存的实例,与基于Amazon Graviton2的实例相比,它提高了50%的内存带宽,从而提高了科学计算等内存密集型应用的性能。同时,与基于Amazon Graviton2的实例相比,C7g实例的网络带宽也高出20%。C7g 实例支持 Elastic Fabric Adapter (EFA),也允许应用程序直接与网络接口卡通信,提供更低且更一致的延迟,提高需要大规模并行处理(如 HPC 和视频编码)的应用程序的性能。

二是,面向机器学习领域的Amazon Trainium芯片方面,此前亚马逊云科技已为机器学习提供了包括采用NVIDIA A100 Tensor Core GPU的EC2 P4d实例和采用Habana Labs  Gaudi 加速器的 EC2 DL1 实例。但即使拥有当今最快的加速实例,训练持续变大的机器学习模型仍然是非常昂贵和耗时的,这是因为机器学习模型的复杂度往往是以10倍以上的速度在增长,因此要破解这一难题就需要更加创新的方法,亚马逊云科技的做法是在内存和网络带宽上给Amazon Trainium芯片持续“加码”。

这就催生了全新的Amazon Trainium芯片的“面市”——目前,由Amazon Trainium芯片支持的Trn1实例能够为在Amazon EC2中进行深度学习模型训练提供最佳性价比以及最快的训练速度,与P4d实例相比,通过Trn1实例训练深度学习模型的成本降低多达40%。同时,Trn1实例提供800Gbps EFA网络带宽(比最新基于GPU的EC2实例高两倍),并与Amazon FSx for Lustre高性能存储集成,更能够让客户可以启动具有EC2 UltraClusters功能的Trn1实例。

此外,通过EC2 UltraClusters的全新联接模式,开发人员也可以将机器学习训练扩展到一万多个与PB级网络互连的Trainium加速器,让客户按需访问超算级性能,即便是最大型和最复杂的模型,训练时间也可以从过去的几个月缩短到几天。

三是,针对AI训练和推理的专用系统Amazon Nitro方面,这套系统是亚马逊云科技底层自研技术的“起点”,Nitro系统已从当初的一款芯片演进成为包括定制化硬件Nitro卡、Nitro虚拟机管理程序(Hypervisor)、Nitro芯片,可以说它已经成为亚马逊云科技新一代云服务实例的关键技术“底座”。

在今年的re:Invent大会上,亚马逊云科技又进一步宣布,基于自研Amazon Nitro SSDs(固态驱动器)的新存储优化型Im4gn/Is4gen/ I4i实例,能够为在Amazon EC2上运行的I/O密集型工作负载提供最佳存储性能。“借助Amazon Nitro的支持,企业客户可以获得一致的安全性、一致的VPC接入能力、一致的API的统一性,同时在存储方面也能获得更多的存储性能,可以说Amazon Nitro在亚马逊云科技的服务中可谓是无处不在。”周舸说。

毫无疑问,基于底层核心技术的自研和创新,往往是最具有“颠覆性”的,而亚马逊云科技作为云计算公司中最早做自研芯片的企业,目前已拥有Nitro、Graviton、Trainium三条自研产品线,可以说亚马逊云科技在底层自研技术创新和布局方面不仅具有先发和领跑的优势,同时这种强大的创新能力,也会为未来重构云计算的底座、改变云计算游戏规则奠定坚实的基础。

代码即云背后的新价值
众所周知,系统论中有一条很经典的原则,那就是“加尔定律”,其核心思想是“一个运转正常的复杂系统,总是从一个运转正常的简单系统演化而来”。

对此,亚马逊云科技大中华区产品部数据类产品高级经理王晓野表示:“今天云已经遍布全球的每一个角落,而亚马逊云科技可以用最简单的方式支撑着客户的系统的运作,背后的关键就在于亚马逊云科技今天提供的超过200多项的云服务从诞生之初就是一个API,无论是Amazon EC2还是Amazon S3其本质上都是一个API,而我们过去这些年通过不断的迭代和不断的改进,持续推动这些API的优化,最终为亚马逊云服务好更多的客户提供了重要的支撑。”

此前,IDC在年初发布的《2021年中国云计算市场十大预测》也曾指出,到2021年,所有采用云计算的企业都需应对跨云的应用孤岛和数据集成问题,20%的企业将采用互连的云架构来克服这些问题;而为了获得业务敏捷性,企业将致力于通过使用云原生开发和部署服务,在2023年前实现其30%的现有应用的现代化;而到2024年,企业对于轻量级的功能丰富的SaaS解决方案的需求,将推动35%以上的ISV重新架构或构建新的云原生应用。

但在此过程中,企业也往往会面临一系列的挑战,包括应用的基础设施建设和扩容时间长、可靠性低、上线周期长、安全性弱、治理复杂等问题,企业业务升级无法快速响应激烈的市场竞争和用户需求等等,而现在亚马逊云科技也希望通过自身15年在API领域的经验分享和技术赋能,显然可以更好的帮助开发者和企业实现应用和服务的转型和升级。

为此,针对API的构建和管理方面,亚马逊云科技总结出了六大经验包括:一是,API是永远的;二是,永远不要破坏向后的兼容性;三是,从客户场景出发逆向工作;四是,让API的故障模式有据可查;五是,要创建具有明确的、特定目的的、自描述的API;六是,不惜一切代价避免泄露实现细节。

可以看到,在亚马逊云科技的创新中,就始终遵循这上述的原则,最为典型的例子就是今天亚马逊云科技大量的底层自研技术的创新,都能够通过亚马逊云科技构建的托管服务赋能给客户,而客户不需要做任何的改变,就能享受到这些技术创新带来的价值。

在此基础上,亚马逊云科技又进一步针对不同的人群提供相应的服务,希望能够大幅度降低这些客户的使用门槛,更好的专注于开发和企业的创新工作。比如,面向开发者,亚马逊云科技希望持续地去提供能够让开发者轻松构建应用程序的能力;而面向运维人员,亚马逊云科技希望能够帮助他们消除差异、繁琐工作的能力;最后,对于业务人员,亚马逊云科技希望他们能够从数据中去实现洞察,最终实现企业的转型,赋能业务创新,具体来看:

首先,在微服务应用方面,亚马逊云科技通过App Runner将Amazon Fargate、ALB和Amazon Route 53等服务封装成为由开发者更容易去部署的一种方式,通过App Runner的赋能,开发者就可以快速的、大规模的实现通过代码或者容器镜像的方式,很快的部署一套真正线上可用、可轻松扩展的应用。

其次,在低代码应用方面,亚马逊云科技的Amplify服务,同样也将底层去调用云原生数据存储Amazon DynamoDB以及身份认证Amazon Cognito这样的一层服务实现了封装,由此可以极大的降低没有开发概念或者没有相应技能的企业人员的门槛;而在UI设计方面,最新发布的Amazon Amplify Studio也允许前端的开发人员以“低代码”的方式,在手机端、Web端实现端到端的,包括UI以及后端业务逻辑创建的能力。

最后,在现代化应用方面,亚马逊云科技也提供了一种基于开源软件开发框架的云开发工具包(Amazon CDK),能够帮助开发者使用熟悉的编程语言模拟和预置云应用程序资源,同时,在今年的re:Invent大会上,亚马逊云科技又发布了Construct Hub,这是一种寻找和使用CDK技术的全新方式,可以帮助开发人员更好地找到基于CDK的构造库。

由此可见,亚马逊云科技之所以能够始终处在API运营和管理以及应用现代化转型的最前沿,背后的关键在于其本身丰富的实践和经验沉淀,让它能够站在开发者和企业应用现代化转型过程中需求的视角,且能够通过多种多样的赋能方式帮助开发者和企业实现转型,由此也在整个市场中形成了“独此一家”的新能力,而这也是亚马逊云能够成为开发者和企业在未来API和应用现代化转型中扮演“护航者”的底气和信心所在。

释放机器学习澎湃力量
机器学习同样也是亚马逊云科技持续投入的重要技术创新领域。此前,亚马逊云科技已通过构筑机器学习的“三层服务架构”,包括机器学习框架和基础设施服务、机器学习服务和普惠的AI服务,可以说亚马逊云科技打造的机器学习堆栈,为数据科学家和工程师提供了广泛而深入的人工智能与机器学习的服务和能力。

在亚马逊云科技大中华区机器学习产品高级经理张洋看来,对于亚马逊云科技而言,这些创新是远远不够的,在今年re:Invent全球大会上,亚马逊云科技围绕机器学习的端到端服务工作流程,又再一次展开了持续的创新。

第一,在数据标注方面,亚马逊云科技发布了Amazon SageMaker Ground Truth Plus,该服务能够更加快速提供高质量的训练数据集,并降低开发人员的数据标记成本,同时为了让开发人员更直观的看到数据标记的过程,该服务新增仪表盘能力,这样开发人员即可通过仪表盘看到整个项目的进度。

第二,在数据建模方面,亚马逊云科技发布了Amazon SageMaker Studio NoteBook,该服务可以让用户只需通过一个NoteBook就可以运行数据工程、数据分析以及机器学习工作流,同时由于和Amazon EMR、Amazon S3以及更多服务相连接,也使得用户可以更好的交互访问、转化分析大量不同的类型数据,因此大大加快了数据建模的整个流程。

第三,在基础设施方面,数据显示,目前在全球已有数万名用户通过Amazon SageMaker平台进行模型训练,有的模型甚至高达数十亿参数,而这些模型在Amazon SageMaker平台上每月都要进行数千亿次的推理。但是,随着机器学习的研发水平的提高,模型也变得越来越大,随之训练时间也越来越长,带来的成本也越来越高,部署的难度也越来越大。

基于此,Amazon SageMaker平台今年也在三个方面实现了持续的优化,并全新发布了Amazon SageMaker Training Compiler,该服务可实现最高50%的提速;Amazon SageMaker Inference Recommender,该服务可以进一步降低客户的部署时间,由过去的几周降至几小时;以及Amazon  SageMaker  Serverless Inference,通过“按量计费”的模式,进一步降低用户机器学习的使用成本。

与此同时,为了进一步降低运维人员和企业业务部门的使用门槛,亚马逊云科技也发布了一系列全新的技术,包括Amazon DevOps Guru for RDS、Amazon Redshift Serverless、Amazon EMR Serverless、Amazon MSK Serverless、Amazon Kinesis On-demand、Amazon SageMaker Canvas、Amazon SageMaker Studio Lab等,最大化地帮助开发人员和企业释放机器学习的澎湃力量,加速企业的智能化转型。

值得一提的是,今天亚马逊云科技的这些技术创新,都可以借助亚马逊云科技遍布全球的基础设施为开发人员和企业提供服务,而这也正是亚马逊云科技最新提出的The Everywhere Cloud(大云无疆,无限拓展)理念的体现。

不仅如此,亚马逊云科技还通过一系列技术,将云延伸到亚马逊云科技的基础设施之外,包括Amazon Outposts、IoT 服务、Snow 家族服务,一直延伸到 Amazon Ground Station,让云扩展到了太空的卫星数据。其中,Outposts能够将亚马逊云科技的云体验延伸到客户的本地数据中心,跟云端无缝连接。IoT服务、Snow家族将云的能力延伸到地球上各个角落,而Amazon Ground Station是卫星地面站服务,能够通过卫星地面站接收数据到亚马逊云科技区域进行处理,由此也进一步将亚马逊云科技云的边界拓展到了太空。

正如亚马逊云科技大中华区产品部总经理顾凡最后总结所说:“今年re:Invent一个特别重要的关键词就是探路者,而亚马逊云科技作为在云计算里面的探路者,在过去的15年间,也一直都在探索、一直在创新,从来没有停止创新的步伐。”

总的来说,从今年的re:Invent大会上,我们看到了一个更为强大、更为自信的亚马逊云科技,其在技术领域的持续迭代和创新,必将对更多企业打开数字化和智能化转型的突破口起到引领和示范的新作用,这背后可以说是亚马逊云科技一直以来致力于通过创新释放技术红利的一种印证,同时也是一种更加具体的落地行动的体现,而这也是亚马逊云科技仅仅通过15年的时间,就跻身全球第五大企业级科技公司关键和根本所在。

推荐阅读
关注数
2383
内容数
377
专注产业互联网、企业数字化、渠道生态以及汽车科技的 观察和思考。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息