从数据中心到AI，AMD全方位布局算力生态

技术的飞速进步，离不开强大的基础架构支持。今年初，ChatGPT引发了一系列AI革命，似乎各行各业都开始为走向AI化而做好准备，与此同时基于AI的算力需求也与日俱增。

正是在这个算力需求大爆发的时刻，AMD携众多新品而来，为整个企业级市场注入了新活力。当地时间6月13日，“数据中心与AI技术首映”（Data Center and Al Technology Premiere）开幕，AMD 董事会主席兼首席执行官苏姿丰博士（Dr. Lisa Su）宣布推出了最新的第四代AMD EPYC 97X4处理器、基于3D V-Cache技术的EPYC及Instinict MI300A、MI300X加速器，并正式进军DPU领域，发布了AMD Pensando DPU系列产品，从而构建起全方位的数据中心基础架构算力阵营。

EPYC 97X4打造业界首款128核x86

此次大会新推出的处理器最为吸睛，代号为"Bergamo”的第四代AMD EPYC 97X4首次将物理核心拓展至128颗。与之前外界猜测的相似，此次AMD继续“魔改”Zen 4核心，通过将CCD单元扩大、优化缓存等方式，缩小核心尺寸，从Zen 4核心的3.84平方毫米，减至2.48平方毫米，缩小了多达35.4％，节省出来的空间可以放置更多核心。

以CCD为单元，Zen 4C的面积仅比Zen 4增加了9.7%，但却将CCD内核心数量从8颗增加至16颗，并依此带来了更加出色的性能。

在核心数量明显增加的同时，AMD为Zen 4c提供了12通道的DDR5支持，内存频率达到了4800Hz。SP5插槽的供电能力更上一层楼，它将持续为EPYC服役至2025年。该平台有64条I/O通道，能够以更高带宽来支持CXL 1+1。

原本就性能强劲的AMD EPYC 9004系列，在将核心拓展至Zen 4C后又再次刷新了多项性能纪录。从上图可以看出，在云相关应用、数据库性能等测试中，拥有128颗核心的EPYC 9754表现出了压倒性优势，众多项目中领先竞争对手8490H超过两倍。

在云平台容器测试中，EPYC 9754的数据吞吐性能惊人，并可支持更多的容器，这无疑能够大幅度降低企业及云服务商的运营成本。

在核心数量与性能大幅度提升的同时，基于Zen 4C的EPYC 9754也将能效比拓展至一个新的“境界”。从上图我们可以看到，仅凭15台2P服务器，就可替代43台Altra Max M128-30或38台Platinum 8490H的2P服务器。能够帮助用户明显降低能源消耗所带来的碳排放，并减少空间占用及后期运维成本。

题外话：Platinum 8490H这次又被AMD“抓到”并拿来对比，可以说“遭老罪了”。

与此同时，AMD也宣布了与AWS的最新合作关系，并公布了下一代由第四代AMD EPYC处理器提供支持的Amazon Elastic Compute Cloud（Amazon EC2）M7a实例。据了解，EC2 M7a实例还会提供诸如AVX3-512、VNNI和BFloat16等全新的处理器功能，并可让客户获得比M6a实例高出50%的计算性能，同时带来更广泛的工作负载。

此次大会重点谈及了云原生，其实一直以来最为青睐AMD EPYC的就是互联网企业和云服务商，而云原生也恰恰是他们所关注和服务的重要方向。会上来自Meta的嘉宾介绍了与AMD的合作情况，其主流应用如Instagram、WhatsApp的背后都有EPYC提供支持。目前Meta也已经将系统平台升级至第四代EPYC。在最新的EPYC 97x4平台支持下，明显提升了系统性能，同时带来更优的TCO。AMD也和Meta共同针对能效和计算密度方面的需求来优化EPYC处理器。

1.1GB容量L3，大缓存版EPYC剑指专业应用领域

此次大会上，除Zen 4C的EPYC 97X4系列之外，拥有超大容量3D V-Cache的小胖子也如约登场。

之所以称其为“小胖子”，是因为它比标准版处理器在缓存方面要“胖”出了一大圈。3D V-Cache版EPYC基于Zen 4核心，拥有1.1GB的L3缓存，能够使其在更加繁重的工作负载中释放出更高性能。并针对计算流体动力学(CFD)、有限元分析(FEA)、电子设计自动化(EDA)和结构分析等应用进行了优化。

同样地，在这些专业级应用面前，带有3D V-Cache的EPYC 9684X的性能表现非常给力，以两倍以上的优势领先于竞争对手。

目前，微软已经推出了Azure HBv4和HX实例，均由采用AMD 3D V-Cache技术的第四代AMD EPYC处理器提供支持。

面向AI与未来，Instinct MI300系列更新

在今年的全球超算TOP500上，AMD大放异彩，基于EPYC CPU处理器、GPU加速卡驱动的“Frontier”实现了三连冠。同时榜单上出现了121套采用AMD平台的超算系统，比去年增加了29％。

在这些性能强大的超算中，总能看到AMD Instinict系列加速卡的身影，而今天该系列又迎来了两名新成员：Instinct MI300X和MI300A。

AMD此次推出的Instinct MI300X加速器，同样面向生成式人工智能等领域。MI300X基于下一代AMD CDNA3加速器架构并支持高达192GB的HBM3内存，提供了充分计算和存储效率，可满足大型语言模型的推理和生成式的 AI工作负载需求。

众所周知，大型语言模型推理这样的AI相关应用对内存容量及性能要求很高，因此AMD为Instinct MI300X配备了192GB容量的HBM3内存以保证性能输出。AMD也表示，仅需一套独立的MI300X GPU加速器，就可以完成像Falcon-40B这样拥有400亿参数的模型训练，性能表现惊人。

此外，AMD还推出了AMD Infinity Architecture Platform系统，它汇集了8个MI300X加速器和24核心的Zen 4处理器，支持CPU+GPU共享内存机制，能够独立完成生成式人工智能推理和训练等任务。“单机”就可以构建起一套完整的解决方案，适用性很强。

正如前文所述，现在的AI发展势头非常强劲，并开始涉足各个领域，而AMD的软件生态化建设也在稳固推动中。此次AMD介绍ROCm软件生态系统的时候重点强调了与行业领导者们的合作，并致力于构建一套开放的AI软件生态系统。当前炙手可热的PyTorch，实现了ROCm软件堆栈的上游配置，并为所有AMD Instinct加速器上的ROCm 5.4.2版 PyTorch 2.0提供即时“零日”支持。也就是说，PyTorch所提供的AI模型，可以在AMD加速器上实现开箱即用，开发者无需考虑兼容性问题。

Hugging Face是一家初创服务商，其在github上开源的Transformers库火遍了机器学习社区，目前已经有超过10万个预训练模型，有了这些模型，就能够让众多初学者快速用上AI大牛们训练出来的高水平模型了。

此次Hugging Face也与AMD展开了合作，它在AMD平台上优化了数千个Hugging Face模型，可支持AMD Instinct加速器、EPYC、锐龙、Radeon GPU及Versal和 Alveo自适应处理器。

由此可见，在AI与软件开发方面，AMD已经取得了阶段性成果。

染指DPU，AMD布局算力生态

没错，正如你想象的那样，AMD也开始“染指”网络领域了，它的DPU强势来袭！

谈到DPU，相信大家都已经非常熟悉了。它是一种新型的可编程处理器，主要任务就是卸载CPU方面对于网络的工作负载。在数据中心实际应用中，DPU可以明显降低相对昂贵的CPU资源占用率，使其可以将更多资源投入到传统算力中，从而降低成本。同时，DPU在网络端数据传输、加密解密等方面表现也会明显强于CPU，是一套实用性非常高的解决方案。目前各大云服务商和互联网企业都开始大量配备支持DPU的服务器了。

在此次大会上，AMD推出了Pensando DPU、超低延迟网卡和自适应网卡三大类别产品。据了解，AMD Pensando DPU通过强大的堆栈与“零信任安全”和领先的可编程数据包处理器，构建起了一套高性能的DPU系统。

AMD代号为“Giglio”的下一代 DPU，能够为客户带来更高的性能和能效，它预计将于 2023 年底上市。AMD还发布了AMD Pensando软件芯片化开放工具包，帮助客户能够快速开发或迁移服务，以部署在AMD Pensando P4可编程DPU上，同时利用AMD Pensando平台实现丰富的功能，为基础设施提供网络虚拟化及安全功能。

据了解，AMD Pensando DPU现已在IBM Cloud、Microsoft Azure和Oracle Compute Infrastructure等云合作伙伴中大规模部署。同时，它还部署到了HPE Aruba CX 10000 智能交换机中。与DXC合作，AMD Pensando DPU成为了VMware vSphere Distributed Services Engine(DSE)的重要组成部分，DSE是一种基于容器的分布式服务，它可以在多个主机上运行，并提供高可用性和可伸缩性。

近年来，我们看到了AMD在企业级领域的飞速发展，并在处理器性能等方面持续保持着领先地位。同时，面向当今炙手可热的AI，AMD也提供了丰富的产品阵营，并形成了一套完整的基础架构算力生态。

未来是什么样子，我们暂时还无法确定。但可以相信的是，随着算力的提升AI必将改变世界，而更高能效的IT硬件将在AI发展之路上为其推波助澜。

推荐阅读

目录