技术的飞速进步,离不开强大的基础架构支持。今年初,ChatGPT引发了一系列AI革命,似乎各行各业都开始为走向AI化而做好准备,与此同时基于AI的算力需求也与日俱增。
正是在这个算力需求大爆发的时刻,AMD携众多新品而来,为整个企业级市场注入了新活力。当地时间6月13日,“数据中心与AI技术首映”(Data Center and Al Technology Premiere)开幕,AMD 董事会主席兼首席执行官苏姿丰博士(Dr. Lisa Su)宣布推出了最新的第四代AMD EPYC 97X4处理器、基于3D V-Cache技术的EPYC及Instinict MI300A、MI300X加速器,并正式进军DPU领域,发布了AMD Pensando DPU系列产品,从而构建起全方位的数据中心基础架构算力阵营。
EPYC 97X4打造业界首款128核x86
此次大会新推出的处理器最为吸睛,代号为"Bergamo”的第四代AMD EPYC 97X4首次将物理核心拓展至128颗。与之前外界猜测的相似,此次AMD继续“魔改”Zen 4核心,通过将CCD单元扩大、优化缓存等方式,缩小核心尺寸,从Zen 4核心的3.84平方毫米,减至2.48平方毫米,缩小了多达35.4%,节省出来的空间可以放置更多核心。
以CCD为单元,Zen 4C的面积仅比Zen 4增加了9.7%,但却将CCD内核心数量从8颗增加至16颗,并依此带来了更加出色的性能。
在核心数量明显增加的同时,AMD为Zen 4c提供了12通道的DDR5支持,内存频率达到了4800Hz。SP5插槽的供电能力更上一层楼,它将持续为EPYC服役至2025年。该平台有64条I/O通道,能够以更高带宽来支持CXL 1+1。
原本就性能强劲的AMD EPYC 9004系列,在将核心拓展至Zen 4C后又再次刷新了多项性能纪录。从上图可以看出,在云相关应用、数据库性能等测试中,拥有128颗核心的EPYC 9754表现出了压倒性优势,众多项目中领先竞争对手8490H超过两倍。
在云平台容器测试中,EPYC 9754的数据吞吐性能惊人,并可支持更多的容器,这无疑能够大幅度降低企业及云服务商的运营成本。
在核心数量与性能大幅度提升的同时,基于Zen 4C的EPYC 9754也将能效比拓展至一个新的“境界”。从上图我们可以看到,仅凭15台2P服务器,就可替代43台Altra Max M128-30或38台Platinum 8490H的2P服务器。能够帮助用户明显降低能源消耗所带来的碳排放,并减少空间占用及后期运维成本。
题外话:Platinum 8490H这次又被AMD“抓到”并拿来对比,可以说“遭老罪了”。
与此同时,AMD也宣布了与AWS的最新合作关系,并公布了下一代由第四代AMD EPYC处理器提供支持的Amazon Elastic Compute Cloud(Amazon EC2)M7a实例。据了解,EC2 M7a实例还会提供诸如AVX3-512、VNNI和BFloat16等全新的处理器功能,并可让客户获得比M6a实例高出50%的计算性能,同时带来更广泛的工作负载。
此次大会重点谈及了云原生,其实一直以来最为青睐AMD EPYC的就是互联网企业和云服务商,而云原生也恰恰是他们所关注和服务的重要方向。会上来自Meta的嘉宾介绍了与AMD的合作情况,其主流应用如Instagram、WhatsApp的背后都有EPYC提供支持。目前Meta也已经将系统平台升级至第四代EPYC。在最新的EPYC 97x4平台支持下,明显提升了系统性能,同时带来更优的TCO。AMD也和Meta共同针对能效和计算密度方面的需求来优化EPYC处理器。
1.1GB容量L3,大缓存版EPYC剑指专业应用领域
此次大会上,除Zen 4C的EPYC 97X4系列之外,拥有超大容量3D V-Cache的小胖子也如约登场。
之所以称其为“小胖子”,是因为它比标准版处理器在缓存方面要“胖”出了一大圈。3D V-Cache版EPYC基于Zen 4核心,拥有1.1GB的L3缓存,能够使其在更加繁重的工作负载中释放出更高性能。并针对计算流体动力学(CFD)、有限元分析(FEA)、电子设计自动化(EDA)和结构分析等应用进行了优化。
同样地,在这些专业级应用面前,带有3D V-Cache的EPYC 9684X的性能表现非常给力,以两倍以上的优势领先于竞争对手。
目前,微软已经推出了Azure HBv4和HX实例,均由采用AMD 3D V-Cache技术的第四代AMD EPYC处理器提供支持。
面向AI与未来,Instinct MI300系列更新
在今年的全球超算TOP500上,AMD大放异彩,基于EPYC CPU处理器、GPU加速卡驱动的“Frontier”实现了三连冠。同时榜单上出现了121套采用AMD平台的超算系统,比去年增加了29%。
在这些性能强大的超算中,总能看到AMD Instinict系列加速卡的身影,而今天该系列又迎来了两名新成员:Instinct MI300X和MI300A。
AMD此次推出的Instinct MI300X加速器,同样面向生成式人工智能等领域。MI300X基于下一代AMD CDNA3加速器架构并支持高达192GB的HBM3内存,提供了充分计算和存储效率,可满足大型语言模型的推理和生成式的 AI工作负载需求。
众所周知,大型语言模型推理这样的AI相关应用对内存容量及性能要求很高,因此AMD为Instinct MI300X配备了192GB容量的HBM3内存以保证性能输出。AMD也表示,仅需一套独立的MI300X GPU加速器,就可以完成像Falcon-40B这样拥有400亿参数的模型训练,性能表现惊人。
此外,AMD还推出了AMD Infinity Architecture Platform系统,它汇集了8个MI300X加速器和24核心的Zen 4处理器,支持CPU+GPU共享内存机制,能够独立完成生成式人工智能推理和训练等任务。“单机”就可以构建起一套完整的解决方案,适用性很强。
正如前文所述,现在的AI发展势头非常强劲,并开始涉足各个领域,而AMD的软件生态化建设也在稳固推动中。此次AMD介绍ROCm软件生态系统的时候重点强调了与行业领导者们的合作,并致力于构建一套开放的AI软件生态系统。当前炙手可热的PyTorch,实现了ROCm软件堆栈的上游配置,并为所有AMD Instinct加速器上的ROCm 5.4.2版 PyTorch 2.0提供即时“零日”支持。也就是说,PyTorch所提供的AI模型,可以在AMD加速器上实现开箱即用,开发者无需考虑兼容性问题。
Hugging Face是一家初创服务商,其在github上开源的Transformers库火遍了机器学习社区,目前已经有超过10万个预训练模型,有了这些模型,就能够让众多初学者快速用上AI大牛们训练出来的高水平模型了。
此次Hugging Face也与AMD展开了合作,它在AMD平台上优化了数千个Hugging Face模型,可支持AMD Instinct加速器、EPYC、锐龙、Radeon GPU及Versal和 Alveo自适应处理器。
由此可见,在AI与软件开发方面,AMD已经取得了阶段性成果。
染指DPU,AMD布局算力生态
没错,正如你想象的那样,AMD也开始“染指”网络领域了,它的DPU强势来袭!
谈到DPU,相信大家都已经非常熟悉了。它是一种新型的可编程处理器,主要任务就是卸载CPU方面对于网络的工作负载。在数据中心实际应用中,DPU可以明显降低相对昂贵的CPU资源占用率,使其可以将更多资源投入到传统算力中,从而降低成本。同时,DPU在网络端数据传输、加密解密等方面表现也会明显强于CPU,是一套实用性非常高的解决方案。目前各大云服务商和互联网企业都开始大量配备支持DPU的服务器了。
在此次大会上,AMD推出了Pensando DPU、超低延迟网卡和自适应网卡三大类别产品。据了解,AMD Pensando DPU通过强大的堆栈与“零信任安全”和领先的可编程数据包处理器,构建起了一套高性能的DPU系统。
AMD代号为“Giglio”的下一代 DPU,能够为客户带来更高的性能和能效,它预计将于 2023 年底上市。AMD还发布了AMD Pensando软件芯片化开放工具包,帮助客户能够快速开发或迁移服务,以部署在AMD Pensando P4可编程DPU上,同时利用AMD Pensando平台实现丰富的功能,为基础设施提供网络虚拟化及安全功能。
据了解,AMD Pensando DPU现已在IBM Cloud、Microsoft Azure和Oracle Compute Infrastructure等云合作伙伴中大规模部署。同时,它还部署到了HPE Aruba CX 10000 智能交换机中。与DXC合作,AMD Pensando DPU成为了VMware vSphere Distributed Services Engine(DSE)的重要组成部分,DSE是一种基于容器的分布式服务,它可以在多个主机上运行,并提供高可用性和可伸缩性。
近年来,我们看到了AMD在企业级领域的飞速发展,并在处理器性能等方面持续保持着领先地位。同时,面向当今炙手可热的AI,AMD也提供了丰富的产品阵营,并形成了一套完整的基础架构算力生态。
未来是什么样子,我们暂时还无法确定。但可以相信的是,随着算力的提升AI必将改变世界,而更高能效的IT硬件将在AI发展之路上为其推波助澜。