黄朝波 · 2021年08月16日

NVIDIA DPU综合介绍

编者按:

NVIDIA在其GTC Oct. 2020发布Bluefield2,以及GTC Apr. 2021发布Bluefield3。因为NVIDIA在行业内的巨大影响力,其DPU一经发布,就在行业内引起巨大反响。本文是NVIDIA CEO黄仁勋演讲相关内容的整理。

数据中心基础设施单芯片

1.jpg

数据中心技术设施单芯片。

GTC 2020秋,Bluefield DPU正式发布。

2.jpg

数据中心是一个新的计算单元,现代的数据中心的工作负载非常多元,并不仅仅是单一计算节点运行大型的应用程序。

AI和数据分析应用会在多个GPU和多个计算节点上分布式运行。

云端服务是由微服务组成,并分散在不同的计算节点运行。

这些新的工作负载使得东西向流量大幅增加,并给网络带来非常大的压力。

NVIDIA开发了Magnum I/O SDK,通过Mellanox RDMA技术为CPU卸载数据搬运任务,并加速Mellanox网卡上的网络、存储和安全处理。Magnum I/O SDK还包括每个计算域的加速器。

3.jpg

现代的数据中心都是软件定义的,计算虚拟化的趋势使得资源池化更加的简单,管理如今已经扩展到了网络、存储和安全。

因为对灵活性的极致要求,以前很多为硬件实现的功能,如今都变成了在CPU上运行的软件服务。整个数据中心都是软件可编程的,变成了软件即服务。

虚拟机VM会透过虚拟交换机和虚拟路由器发送数据包,防火墙也是虚拟化的,且可以保护每一个节点。微切分确保东西向通信的安全,使得攻击无法穿透数据中心的东西向网络通信。

4.jpg

软件定义数据中心是管理、扩展和安全方面的最佳选择。但在软件中进行所有“数据中心基础架构”处理会给CPU带来很大的负担。

随着越来越多的用户增加超大规模数据中心的工作负载,为了支撑每个微服务,随之而来的虚拟化、网络、存储和安全处理,都在持续增加。而这些都是需要消耗CPU资源的。

5.jpg

因此,需要设计新型的处理器,专为数据传输和安全处理所设计,我们称之为DPU数据处理器。

DPU由用于网络、存储和安全的加速器自己可编程的ARM CPU组成,以减轻虚拟化Hypervisor的工作负载。

DPU是数据中心基础架构的处理芯片,我们预测至少30%的CPU资源用于执行数据中心基础设施架构,而这些任务都可以卸载到DPU里去完成。

6.jpg

这是我们要发布的NVIDIA Bluefield2 DPU,这是包含加速器引擎的可编程处理器,用于网络、存储和安全的在线处理。

DPU是数据中心基础设施单芯片,Bluefield2 DPU具有ARM CPU以及大量高性能加速器和硬件引擎。Bluefield2 DPU可以为私有云、公有云以及混合云进行安全处理。

7.jpg

Bluefield2 DPU会将应用程序域和技术设施域隔离,存储并加速加密秘钥,支持SHA256认证和加密协议处理。

并且具有正则表达式、深度包检测加速功能,用于应用程序辨识、入侵防护等。

还有Web应用防火墙、带外恶意软件检测等。

Bluefield2 DPU还包括流量速率控制包处理用于视频流、SMPT-2110广播以及5G网络等。

与此同时,Bluefield2 DPU同时是一个NVMe存储处理器,是计算和存储服务器的理想选择。支持弹性块存储服务,支持存储加密、去重和压缩。

这些是Bluefield2 DPU为CPU减轻工作任务负载并加速一些先进的功能的介绍。

如果在软件执行,IPSec、正则表达式、包处理、弹性存储,要达到100Gbps的处理带宽,则需要125个CPU核。

因此,Bluefield2 DPU在高性能网络处理方面非常的优秀。

并且,Bluefield2 DPU具有工业界最佳的RDMA以及加速交换和包处理ASAP2,支持OpenStack和Kubernetes的软件定义网络加速。

8.jpg

今天还发布了Bluefield2X,在板卡上集成了Ampere GPU并通过CUDA及NVIDIA AI进行网内计算。

9.jpg

Bluefield2 DPU具有接近70亿晶体管,一个可编程的数据中心技术设施处理单芯片。

我们会持续支持基于DPU更好的编程,类似于CUDA之于GPU,基于DPU我们发布了DOCA编程框架。

DOCA SDK能让开发者开发用于软件定义的网络、存储、安全和遥测,以及未来基于网络的计算应用。

DOCA构建在开源API之上,例如用于包处理的P4、用于网络的DPDK、用于存储的SPDK,以及CUDA和NVIDIA AI。

DOCA是完全兼容并无缝的集成到主流的OS和Hypervisor中。

基于DOCA编写的应用程序可以运行在Bluefield2 DPU以及未来其他版本的DPU。

10.jpg

NVIDIA会跟VMWare进行通力合作。全球70%的企业使用VMware使用他们的虚拟化OS平台,并推动着软件定义数据中心的革命。我们共同合作,将VMWare移植到Bluefield中。Bluefield是基础架构处理器,VMware是数据中心基础架构OS平台,我们的合作将重新定义数据中心。

我们会将虚拟化、网络、存储及安全功能转移到Bluefield上,建立分布式的、零信任的安全架构。我们的成果将大幅提升全球3-4千万企业服务器的效率和安全性。

11.jpg

接下来展示运用Bluefield进行卸载、加速和隔离的好处。

这个范例是Volvo实际的设计环境,其中包含了多种技术。

IP保护和安全防护是首要的问题,其中提取、串流及载入进行渲染的数据量相当惊人。

安全、存储和网络连接都可以在Bluefield上完成,使用RTX GPU的Omniverse平台正在执行仿真的路径追踪,VMware正在执行虚拟化、软件定义堆栈和虚拟工作站。

左边是使用了Bluefield的服务器,右边则是一台需要在CPU运行堆栈的普通服务器,使用Bluefield的VMware平台,其网络、存储和安全都已经卸载、加速和隔离。当两个系统都遭受DDoS攻击的时候,左边的CPU资源消耗仍可以正常工作,而右边的CPU服务器则为了完全阻挡DDoS攻击,而无法进行正常的工作。

12.jpg

Bluefield2 只是一个起点,我们的DPU发展路标正在全面加速,(2020年10月份)Bluefield目前开始送样阶段,Bluefield3已经到达设计完成的尾声。Bluefield4也已经开发规划,我们将在Bluefield4中加入CUDA和NVIDIA AI。每一代Bluefield都能与DOCA兼容。

我们将众多的技术带入网络,短短的几年里,我们的运算性能将提升1000倍,并提供从200-400Gbps的数据处理带宽。

数据中心成为新的计算单元

13.png

GTC 2021,数据中心成为新的计算单元。

14.jpg

云计算和AI促进数据中心架构发生根本性变化。

过去,企业数据中心运行单一的软件包,虚拟化开创了向软件定义数据中心迈进的趋势。

应用可以迁移,并且IT可以通过“单一管理平台”进行管理。

通过虚拟化技术,使得计算、网络、存储以及安全等功能可以通过软件仿真而运行在CPU上。

尽管更易于管理,但随之而来的CPU的负荷会降低数据中心运行应用的能力。而运行应用才是CPU的主业。此堆栈图中的金色部分显示了增加的CPU负载。

云计算再次重构了数据中心,如今为数亿消费者提供服务。大型应用被分解为较小的微服务。可以利用任何空闲资源。同样重要的是,多个工程团队可以利用CI/CD方法同时工作。

分解后的微服务会产生“东西向”流量,让数据中心网络变得拥挤不堪。云服务提供商借助Mellanox的高速低延迟网络,解决了这一问题。

然后,深度学习应运而生。魔法般的互联网服务相继问世。吸引更多的客户,并且客户的参与度前所未有的提高。

深度学习是计算密集型工作负载,推动了GPU的应用。几乎一夜之间,消费级AI服务成为GPU超算技术最大的客户。

与此同时,基础设施软件的数量仍在攀升。现在,随着“零信任”安全的兴起,基础设施软件处理,成为数据中心内最大的工作负载,而原本应该用来处理应用程序和服务。

结论就是用一种新型的处理器,来专门处理数据中心基础架构。比如NVIDIA的Bluefield DPU

15.jpg

现在我们以云游戏服务GeForce Now为例,对比说明一下。GeForce Now是NVIDIA的云端GeForce服务,GeForce Now为70多个国家和地区的100万会员提供服务。

两年前,GeForce Now还只有100万会员,这一增长着实惊人。即使相连的数据中心相隔数百英里,玩家们也能实时的在GeForce Now服务器上畅玩。

GeForce是一项非常难交付的消费级服务,各方面都要求很高,光速、视觉质量、帧率、响应、流畅度、启动时间、服务器成本,以及最重要的安全。

GeForce Now目前使用NVIDIA vGPU技术,虚拟网络、存储和安全,完全由软件来完成,CPU负载很高。我们正在把Bluefield应用到GeForce Now。借助Bluefield,我们可以将基础设施从游戏负载中分离,卸载并加速网络、存储和安全。

GeForce Now基础设施成本高昂,借助Bluefield,我们可以同时改进服务质量,并增加并发用户量。

Bluefield的投资回报率非常的好。

16.jpg

DOCA是我们用来为Bluefield编程的SDK,DOCA简化了应用程序向Bluefield加速器和可编程引擎的卸载流程。

从现在开始,每一代Bluefield都将支持DOCA。因此,当下一代Bluefield到来时,今天的应用程序和基础设施将变得更快。

NVIDIA首个数据中心基础设施SDK,DOCA 1.0现已发布,其中包括各种先进的技术,DPI、安全启动、TLS加密卸载、RegEx加速,以及一项令人印象深刻的新功能——基于硬件的实时时钟,可用于同步数据中心5G和视频广播。

我们与优秀的合作伙伴一起,致力于在Bluefield上实现对于各种领先平台的优化。包括基础设施软件供应商、边缘和CDN供应商、网络安全解决方案和存储供应商。

基本上,涵盖了全球最杰出的数据中心基础设施公司。我们将用Bluefield帮助他们加速所有这些应用。

17.jpg

虽然刚刚开始使用Bluefield2,但是我们今天要发布的是Bluefield3。

220亿个晶体管,首款400Gbps的网络芯片,16个ARM Core可运行整个虚拟化软件栈,例如运行VMware ESX。Bluefield3让安全保障再上一个台阶,可全面卸载并加速IPSEC和TLS加密算法、秘钥管理以及正则表达式。

Bluefield2卸载了相当于30个CPU核的负载,而通常需要300个核才能达到卸载和加速网络流量到400Gbps。整个性能提升了10倍。

18.jpg

我们正以每18个月的节奏推出新一代Bluefield。Bluefield3是400Gbps网络带宽,处理能力是Bluefield2的10倍。Bluefield4将实现800Gbps的处理带宽,并且添加NVIDIA AI计算技术,计算能力将再次提升10倍。

3年内性能提升100倍,满足市场的需求。简单来说,市场上每年交付的大约3000万台数据中心服务器中,有1/3用于运行软件定义的数据中心堆栈。这种工作负载的增长速度远快于摩尔定律。这是因为我们一直在产生和传输大量的数据。因此,除非我们卸载或加速这些负载,否则数据中心用于应用的CPU将越来越少。

作者:黄朝波
来源:https://mp.weixin.qq.com/s/TTiBS1WT3cx0VkFPznnkag
微信公众号:
软硬件.jpg

相关文章推荐

更多软硬件技术干货请关注软硬件融合专栏。
7 阅读 868
推荐阅读
0 条评论
关注数
1288
内容数
56
软硬件融合
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息