IT大嘴巴 · 2021年12月20日

当云原生遇上超算,英伟达用3U一体加速高端算力

“他们是死的,我们是活的”,多年前,某互联网云超算服务商信誓旦旦跟我说。

他口中的“他们”指的就是传统超算中心。受限于架构等因素,传统超算大多采用物理机的方式,而恰恰是这一点让云超算看到了全新的机会,甚至对于互联网服务商来说,云原生所带来的先天弹性扩展优势就是“完败”传统超算的最佳手段。所以在他口中,“活”更多意味着弹性,及按需实现算力分配。

这或许是一家之言,但是云原生的弹性优势却是业内有目共睹。伴随着数字化转型的到来,各行各业都在积极拥抱云计算,而云化带来的业务迁移也让弹性应用获得了更多的发展空间。即便对于传统意义上更依赖性能的超级计算或者高性能计算来说,云原生的应用也是势在必行。正因为如此,不少业内巨头都看到了这个蓝海,从自己擅长的领域进行“突进”。这其中,英伟达或许是综合能力最全面的一家,因为它能够提供包括计算、网络在内的多种加速,更好的适应云应用的发展。

3U一体,英伟达的“加速生态”仍在壮大

CPU、GPU,这两个名词如今在业内已经是尽人皆知,也有越来越多的用户使用它们进行业务的加速。但伴随着数据与网络的价值越来越高,以DPU为代表的网络加速也获得了更多用户的青睐。DPU是Data Processing Unit的简称,是继CPU、GPU之后,数据中心场景中的第三颗重要的算力芯片,为高带宽、低延迟、数据密集的计算场景提供计算引擎。而说到DPU,就不能不让人想到英伟达。

image001.jpg

早在去年的GTC大会上,英伟达就在原有智能网卡的基础上开发出了BlueField 系列的两款DPU——英伟达 BlueField-2与BlueField-2X,这为行业打造出了全新的应用场景。这款全新的产品把ARM处理器核、VLIW矢量计算引擎和智能网卡的功能集成在了一起,主要应用在分布式存储、网络计算和网络安全领域。

除了硬件之外,英伟达还同时宣布了DPU处理器的软件开发工具包—— DOCA(Data-Center-Infrastructure-On-A-Chip Architecture)。英伟达的专家将DOCA类比为数据中心服务器领域的CUDA,其意图在于帮助开发人员在DPU加速的数据中心基础设施上构建相应的应用程序,从而丰富DPU的应用开发生态。

image002.jpg

这就可以看作是英伟达对于云原生应用的一次重构,用英伟达网络事业部亚太区市场开发高级总监宋庆春的话说,就是“通过DPU来加速HPC业务中的通信,由DPU来运行通信框架,由CPU和GPU执行真正的浮点计算”。这也就解决了传统应用中CPU既要负责计算又要负责网络加速的问题,也让这一功能“卸载”并得到了进一步的加强,是应用思路的转变。

这种变化带来的效果是惊人的。比如在HPC应用中常见的“傅立叶变换”,通过计算和通信重叠可以使得性能达到近30%的性能提升,这样的效果以往必须通过硬件升级才能实现。而在AI应用常用的Alltoall通信模型中,通过用DPU和CPU实现计算通信重叠,甚至可以获得44%的提升;另一款用于大规模训练的iAllgather性能也高达36%。

换句话说,只是卸载了CPU原有的网络功能,让CPU、GPU和DPU各司其职,就能够带来30%以上的性能提升,这显然是所有客户都喜闻乐见的。正如宋庆春所说——3U一体新型数据中心架构,让数据中心成为新的计算单元……成为数据中心一个必然的架构,实现数据中心的最优性能。

400G网络,实现HPC的性能飞跃

许多人可能会好奇,网络的加速能力有这么神奇?网络的性能已经如此强大了?是的,尤其是在HPC应用层面,网络一直都关乎最终的性能表现,特别是高带宽低延迟的InfiniBand网络。

其实熟悉高性能计算的都知道,InfiniBand网络自研发之初就凭借着低延迟获得了业内的广泛关注,尤其是对于海量数据传输的HPC应用来说,低延迟的价值甚至要超过高带宽,因此InfiniBand网络也就成为了众多用户搭建超算系统的首选。即便是在覆盖更广泛的TOP500榜单中,InfiniBand网络也与以太网“势均力敌”,甚至排名靠前的超算平台大多使用InfiniBand网络(除了自研网络之外)。

image003.jpg

全新的InfiniBand网络平台Quantum-2就是英伟达针对云原生超算中心推出的新一代网络解决方案,旨在为云计算提供商和超算中心带来极致性能、广泛的可访问性以及强大的安全性。就大家关心的性能来说,Quantum-2底层采用400Gbps的InfiniBand网络,结合英伟达的Quantum-2交换机、ConnectX-7网络适配器、BlueField-3数据处理器(DPU)以及所有支持新架构的软件,可以打造面向下一代高规格超算中心的平台支撑。

“Quantum-2是一个会计算的网络,真正契合了超级计算和云原生对网络的需求。当超级计算机和云原生超算系统要实现高性能时,一定需要所有的资源都参与到计算里面来,我们的目标是实现数据在哪里,计算就在那里,”宋庆春介绍说。

image004.jpg

除了性能优势之外,Quantum-2的多租户性能隔离,可防止一个租户的活动干扰到其他租户,利用具有云原生功能、先进的基于遥测的拥塞控制系统,还可确保用户工作负载需求激增情况下的可靠吞吐量。比如在微软的Azure云上,通过Quantum-2所具备的InfiniBand动态路由和拥塞控制技术,可以实现对于不同业务的隔离与全业务性能的保障。

宋庆春同时也谈到,如今绝大多数的HPC用户都已经使用了200G InfiniBand网络,而伴随着明年1月400G InfiniBand交换机的量产和明年第二季度400G InfiniBand网卡的量产,英伟达也将实现端到端的400G InfiniBand网络解决方案,届时将会为用户提供更快速、更高效的网络选择。

零信任环境下如何保障云原生安全

零信任(Zero-trust)这个概念最近几年特别火。尤其是在如今的万物互联时代,各种网络攻击和黑客勒索层出不穷,也很大程度上都来自网络边界泛化带来的安全风险。相比之下,零信任以其“持续验证、永不信任”的理念彻底颠覆了基于边界的传统安全防御模型,能够有效帮助企业在数字化转型中解决曾经难以解决的难题,也因此受到市场追捧。

不过一直以来,零信任大多是安全企业的“主业”,国内包括奇安信、深信服等专业公司和阿里、腾讯等许多互联网大厂都参与其中。但是如今,以加速为主业的英伟达也进入了这个市场,并发布了 DOCA 1.2安全框架,将零信任作为主要价值,这就让人疑惑了——难道英伟达也要进军安全市场了么?

其实这一点儿都不奇怪。刚刚在介绍DPU的时候我们提到,DPU可以实现在每台主机和所有网络流量上通过加密、细粒度访问控制和微分段实现了网络的筛选,同时也提供了隔离功能,这样就可以在系统安全收到威胁甚至攻击的时候阻止恶意软件访问安全软件,进而保护整套系统。从这个角度来说,身为网络“核心”,DPU有责任也有义务保护用户的数据安全,自然支持零信任也就是水到渠成。

image005.jpg

“通过NVIDIA DPU可以对数据进行100%加密。这样可以在传输数据的时候,对所有的数据都做加密,即使有一个数据不小心忘了加密,很快Morpheus就能侦测出来,同时它可以跟踪数据到达任何地方,跟未经加密的数据任何有关联的事件都会被Morpheus抓出来,同时它会推荐下一步应该怎么做。通过Morpheus软件可以对网络中所有的异常行为来进行跟踪,这就是利用了AI强大的能力再加上DPU里面非常强的硬件加速执行的单元。所以,Morpheus相当于是一个发号施令的单元,最后的执行都会落在NVIDIA DPU上”。

这段话很好的解释了为什么英伟达会涉足安全领域——一方面是应用场景的需要,另一方面也是自身多年来积累的AI能力使然。“硬件加速+软件定义”,这就是英伟达对于安全的理解,也是它所坚持的标准。借助于训练和推理能力,英伟达可以随时迭代自己的安全能力,同时提供行之有效的安全策略,保障客户数据与应用的万无一失。

image006.jpg

从加速到网络,从计算到安全,如今的英伟达涉足的领域越来越广,3U一体以及对于云原生的坚持也让它成为了业界为数不多能够提供数据中心乃至于超算中心一站式解决方案的企业,这也正是行业看好它的原因。相对于传统企业来说,英伟达正如它推出的产品那样,有着不断学习和进化的能力,这也让它始终站在行业发展的潮头,并通过自身的产品和解决方案,继续引领行业。

推荐阅读
关注数
1943
内容数
252
专注开放计算、大数据应用、人工智能、企业数字化转型、云计算等领域产业观察及产学研合作。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息