软硬件融合 · 2021年07月19日

增强的新一代亚马逊EC2,深度理解NITRO系统

编者按:
本文是AWS Re:Invent 2019上关于NITRO系统的核心演讲,演讲者是AWS Principal Engineer Ravi Murty。NITRO是AWS的云主机EC2的底层技术支撑,可以说是云计算这些年来最大的创新。NVIDIA的DPU和Intel的IPU,都是对标AWS Nitro系统的。
后续文字内容是根据演讲内容进行的总结,作为参考。

增强的新一代亚马逊EC2:深度理解NITRO系统

1.jpg

这是AWS Re:Invent 2019上关于NITRO系统的核心演讲,演讲者是AWS Principal Engineer Ravi Murty。

CMP303中CMP意思是AWS的计算相关的幻灯片及演讲,303是本演讲的代号,AWS还有很多相关的演讲。

2.jpg

这次演讲包含四部分:

  • 第一部分,NITRO概述。会讲到Nitro系统是如何工作的,并深入了解Nitro的基本原理,以及Nitro在EC2中的作用。
  • 第二部分,为了更好的服务客户,Nitro过去一年持续不断的创新。
  • 第三部分,会介绍AWS近期发布的一些EC2实例类型。如果理解了Nitro系统的原理,就会理解EC2实例类型的本质。
  • 最后,会讲解对AWS云计算运维管理非常重要的,随着AWS云主机规模的持续扩大,如何管理EC2机群。

3.jpg

这是跟本次演讲有关的一些内容,包括:

  • CMP334:深度理解亚马逊 EC2中的100G网络和EFA
  • CMP322:深度理解基于基于ARM CPU(AWS Graviton)的EC2实例
  • CMP302:AWS前哨:扩展AWS在预配置环境方面的经验
  • CMP321:Expedia如何把计算的成本降低10%,基于AMD实例
  • CMP338:深度理解AWS Nitro安全,用于运行于EC2的应用程序
  • SEC310:AWS EC2实例元数据服务的安全最佳实践

1 NITRO系统概述

4.jpg

Nitro系统是2017年底发布的,到现在(演讲的Re:Invent 2019)有两年了。之后发布了C5实例。实际上,Nitro相关的工作已经持续多年,最开始是从2013年逐步迭代研发的。

扩展:关于Nitro的迭代,可以参考软硬件融合公众号文章:NITRO系统——AWS EC2虚拟化加速平台

AWS持续不断的优化创新EC2已经10年多了,从性能和安全的角度来看,通过软件堆栈的平台做一些简单的事情,后来逐步形成了Nitro。从2017年引入Nitro系统,2018年发布C5时重新定义了Nitro。基于Nitro系统,AWS推出了大量的实例和实例特性和功能。2019年,AWS持续扩大了实例类型的数量以及更多的功能和特性。

Nitro是从2013来一年持续不断的开发,首先是2013年发布的增强型网络或ENA,这是第一次专门做网络的Nitro卡。

5.jpg

但在更高级别上,Nitro系统的确是定制的硬件、定制的软件和一个定制的Hypervisor。Nitro系统是由三个重要但独立的组件组成:

  • 首先是一系列Nitro卡,每张卡聚焦一个功能,如VPC网络卡、AWS弹性块存储卡、实例本地存储卡以及系统控制卡。
  • 第二个重要组件是Nitro hypervisor。市场现有的虚拟机Hypervisor和AWS运行于EC2的Hypervisor都比较臃肿,AWS在KVM基础上做了一些裁剪,完成内存和CPU分配,使得虚拟机可以达到几乎裸金属的性能。
  • 最后一个,是Nitro的安全芯片。Nitro安全芯片是AWS自研的,它将使整个EC2平台真正的安全,硬件可信根实际上是在服务器的主板上。

6.jpg

Nitro不仅仅是一张卡,而是一系列卡。有用于VPC的卡,有用于EBS的卡,有用于本地存储的卡,还有一个用于系统控制的卡,系统控制卡是物理的可信根。

这些卡是完全不同的,比如Nitro网络卡一端连接的是x86或ARM的CPU,一端连接的是网络。而本地存储卡,则一边与SSD通信,一边与主机通信。

实际上,有四种不同的卡,但他们构建在相同的ASIC芯片上。

7.jpg

用于VPC的Nitro卡,物理形态上像一个普通的网卡,不同的是,它是为专门支持VPC而构建的。这张卡支持ENA服务,如果把这张卡放在一台服务器上,在操作系统中将看到一张ENA网卡,会加载ENA网卡驱动。

并且为了支持用户的网络数据传输,在卡里要支持VPC,这样我们需要对所有的包进行封装和解封装。

这张卡还实现了安全组,限制器和路由等机制。限制器的主要作用是确保所有的实例,不管是在哪个区域,性能和体验都是一致的。

8.jpg

弹性块存储的Nitro卡,看起来就是一个PCIe板卡,插到服务器上,会看到标准的NVMe控制器,会加载NVMe驱动。当操作系统给EBS的Nitro卡发送存储访问时,内部机制会劫持这个访问,并将其打包成网络请求。当采用EBS的分布式存储时,就要用到EBS的Nitro卡。

EBS远程存储和本地存储不一样的是,本地存储随着实例的消亡而消亡,而远程存储则可以在新的实例重新挂载。

EBS的Nitro卡是EBS的数据平面,需要支持加解密的功能。

从NVMe到远程存储,需要有协议的支持,例如NVMeoF类似的协议。

9.jpg

很多客户喜欢用本地实例存储,本地存储位于服务器本地,不跨网络。本地存储一般用于数据暂存,而不是长久的存储数据。

在第一代EC2上是提供实例的本地存储的,这个时候主要是基于磁盘,虽然磁盘的访问带宽受限,但至少好于网络带宽,因此本地存储有存在的价值。后来,随着网络带宽升级到10G,这个时候,分布式的弹性存储就变得更有吸引力,因此在这一时期,AWS在一些机型上取消了本地存储。再后来,基于NVMe的SSD存储开始流行,这个时候本地的存储带宽变得非常的好,这个时候,AWS在新的机型上,也就又恢复了实例的本地存储。

此外,因为SSD盘存储磨损的可能,需要通过驱动监视功能去了解磁盘的磨损情况。

10.jpg

Nitro控制器卡实际上是整个系统背后的大脑,它负责跟其他Nitro卡进行协作,它暴露了一个被动的API接口供其他卡访问。

当用户启动一个实例时,Nitro控制器卡与其他卡一起准备需要的东西,存储、网络等,并且与在Host侧的Lite Hypervisor通信,与安全芯片协调,然后实例才能运行起来。

11.jpg

AWS经过深思熟虑,实现了一个全新的芯片,这个芯片专门负责安全。

考虑一个典型的服务器,处理CPU、PCIe设备之外,还有一些微控制器,例如BMC。这些微控制器上会运行一些代码,c或者汇编,通常这些代码存储在服务器主板的某个闪存设备里。按照通常的操作,要想更新这些底层固件的时候,通常是通过ssh到操作系统,然后执行固件更新操作。

但是,如果你运行在一个虚拟实例里,你要更新存储在闪存的固件,Hypervisor会拒绝这些访问。

如果是在裸机实例,用户操作系统可能会修改这些微控制器的固件,我们要避免这种情况发生。

12.jpg

一种解决方案是采用UEFI安全启动。就是系统从一个已经签名和认证的小块程序开始,然后不断的检测是否签名正确,正确后才跳转到新的程序块执行。依此类推,这是一个链式加载的过程。如果整个过程有程序被篡改,则启动失败。这个太复杂了,更新很复杂,维护很复杂。

13.jpg

因此,AWS采取了新的方式,实现了一个独立的安全芯片。当操作系统通过总线更新闪存时,会被拒绝。

14.jpg

如果启动一个裸金属实例,则不存在Lite Hypervisor。如果启动的是一个虚拟机实例,则是基于Lite Hypervisor运行的,Lite Hypervisor基于KVM,KVM是Linux的一部分,Lite Hypervisor不需要systemd或busybox,并且不需要sshd。因为,完全不允许通过ssh的方式访问Lite Hypervisor。

Lite Hypervisor是非常薄的一层,把很多不需要的功能拿掉了。很多功能都卸载到了Nitro卡,因此,在物理CPU上运行的工作非常轻量的。

这带来了两个好处:一个是安全,因为我们知道在Nitro Lite Hypervisor上运行的是什么。另一个好处是出色的性能。

15.jpg

这里是一个案例,客户需要构建一个非常严格要求的应用程序,例如实时性的要求,需要在50ms? 内进入数据包。在虚拟机上运行延时会非常紧张。最低下的红色线是裸金属实例,可以看到延迟是非常非常低的。而黄色线,则是上一次虚拟机实例,可以看到70%的时候就超过了SLA线。而采用了Nitro系统的新一代的虚拟机实例,则是由一个非常恒定的延迟,在一个非常高的百分位上是一致的。

原因则是Lite Hypervisor超级的薄,很多工作卸载到了卡上,在Lite Hypervisor几乎不做事情。所以,也称之为一个静态的Hypervisor。称为静态Hypervisor的原因是它永远不做任何事情,只有实例请求它时才工作,之后继续保持静止。

2 NITRO使得EC2更加快速的创新

16.jpg

因为有了Nitro系统,加快了AWS创新的步伐。例如,基于GPU的实例,以及支持推理的实例,都是基于Nitro系统的。AWS 2017年以来推出的所有实例,都是基于Nitro的。并且,Nitro支持在不同架构的创新。因此,在Intel x86架构之外,还有了AMD架构和ARM架构。

此外,Nitro系统还支持实现各位不同规格的裸机产品,2019年就推出了一堆裸金属实例类型。

同时,Nitro还能支持很多新的特性和能力。因此,当客户想定制一个功能时,我们能非常快速的响应。

Nitro系统,也使得可以为Nitro,只维护一套通用的代码库。

17.jpg

2018年,重构了一些实例类型,2018年推出了A1实例,是基于ARM架构的。A1是虚拟机实例,运行在Lite Hypervisor之上。A1裸机实例,则没有Lite Hypervisor。

18.jpg

基于AMD的裸机或虚机实例类型。

19.jpg

以及Intel最新处理器平台Cascade Lake的实例类型。

20.jpg

AWS在构建任何一个产品的时候,都会倾听客户的需求。如果客户任务很有趣,AWS就会仔细的考虑和评估。

2016年的时候,VMware找到AWS,希望提供裸金属机器,来部署VMware虚拟化环境,这样就可以把VMware云迁移到AWS。

之后,这些机型都对所有人开放。

有些客户的业务需要在没有Hypervisor的环境中运行,或者有些不能在虚拟机环境运行以满足许可要求,或者因为性能的原因不能在虚拟机中运行。

21.jpg

基于全新的用于VPC的Nitro卡,实现了100Gbps的网络,在一些网络增强的实例类型中提供。

100Gbps的网络非常有用,它是构建很多HPC场景的必须。HPC场景,通常要解决一个规模庞大的问题,例如对全球天气进行建模,然后把它分散在很多个节点上,每个节点是问题的一个子集,当各自完成工作后,需要非常快速的大规模数据的交换,这就需要非常快速的网络。

22.jpg

HPC场景,需要高带宽低延迟的网络,因此AWS定义了全新的EFA,弹性的Fabric适配器。

基于新的用于VPC的Nitro卡,实现了对EFA的支持,专用于HPC场景的高性能低延迟网卡。

在软件层,集成了Libfabric高性能计算库,实现消息的传递。

而在网卡内部,则支持SRD协议。SRD是AWS定义的一套高性能的,相比RoCEv2更优的一套高性能网络协议,并在VPC的Nitro卡里实现了它。

并且,在AWS Linux或其他一些Linux的发行版本中,不管在用户态还是内核态、虚拟机或者裸金属机,AWS都提供了EFA网卡功能的支持。

23.jpg

对HPC场景来说,需要在不同的计算节点快速而大量的进行数据传输交互,因此对高带宽低延迟的网络非常的敏感。

支持EFA和不支持EFA的软件堆栈区别:

  • 主要是在传统的协议栈是基于TCP/IP的,需要从把数据从用户空间传输到内核空间,整个协议栈要更重一些。这就是传统的应用程序所经历的整个协议堆栈。
  • 而EFA协议栈则直接从应用程序通过Libfabric送到EFA网卡中,不需要经过内核空间。并且在网卡中还有SRD技术进行进一步优化。

24.jpg

上图是一个流体力学仿真的案例。

理想的来说,如果采用一定数量的CPU核进行计算,需要20秒;如果能够采用两倍数量的处理器Core,则计算时间减半到10s;如果是四倍,则需要5s。这是完美的横向扩展。

从图中可以看到,采用EFA技术之后,整个计算集群的效率衰减是非常低的。

EFA蓝色线之后的显著衰减,主要是由于整个流体力学仿真程序本身对更大规模的支持不够,数据集也不够多的缘故。

25.jpg

AWS还引入了基于Nitro系统的异构加速实例。

当用户启动一个裸金属机或虚拟机时,加速实例的GPU都是完整分配给用户使用的,这类实例是ML和图形密集处理的最优选择。

26.jpg

存储优化型实例,提供最优价格的本地存储,适用于大量数据的IO密集型场景。

27.jpg

AWS outposts是AWS的混合云解决方案,Nitro的软件和硬件在底层提供了技术支持。用户可以将Outposts安置在自己的数据中心。使用AWS标准的API和标准的AWS服务。

3 管理EC2机群

28.jpg

29.jpg

AWS在持续增长,在全球有22个地域和69个可用区,可用区是物理上分开的一个个的数据中心。

这么多的可用区,这么多的服务器,需要添加NITRO卡需要安装Lite Hypervisor,还有Intel AMD的x86以及ARM等不同的CPU架构。每天都有很多这样的重复工作需要做。

因此需要在软件层面,对这些工作进行管理,需要快速的软件分发机制。

30.jpg

在更新Nitro卡和Lite Hypervisor的时候,不影响客户的业务。

为了保险起见,一个区域一天之内只处理一个可用区。

31.jpg

32.jpg

软件更新主要是NITRO Hypervisor和每个NITRO卡的软件。

(正文完)

作者:黄朝波
来源:https://mp.weixin.qq.com/s/7cGrbaVTmutO2S7K3EzxUg
微信公众号:
软硬件.jpg

相关文章推荐

更多软硬件技术干货请关注软硬件融合专栏。
推荐阅读
关注数
2803
内容数
104
软硬件融合
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息