AMD 2025年第一季度财报出炉:单季营收同比飙升36%至74亿美元,其中数据中心AI业务以37亿美元营收、57%同比增速强势领跑。这份漂亮成绩单的背后,EPYC CPU与Instinct GPU的销量狂潮正揭开一个真相——在万亿参数大模型主导的AI基础设施竞赛中,算力基座已从技术底座升维至重构产业格局的战略支点。
紧随财报释放的强信号,AMD于当地时间6月12日在美国加州圣何塞召开的Advancing AI 2025大会上,以全栈式AI策略为这一战略支点注入实体化路径。会上AMD展示了从CPU、GPU、网卡到ROCm 软件引擎的全栈式AI策略,进一步助燃企业AI基础设施更迭。
苏姿丰表示,去年预测AI加速器数据集市场将年增超过60%,至2020年达到5000亿美元,如今看来这一数字将更高,预计到2028年将超过5000亿美元。更重要的是,推理将成为推动AI发展的主要动力,其市场预计将以每年超80%的速度增长,成为AI计算的最大驱动力。高性能量子计算将占据市场大部分份额,因其提供了模型持续演进所需的灵活性和编程能力。
为了提供全方位的AI解决方案,AMD在过去几年里显著增加了投资,通过内部研发和战略收购加强了其在AI领域的实力。
在AI和高性能计算领域,Instinct加速卡的市场份额持续增长。当前,Instinct MI250和MI300等产品,已广泛应用于大规模的内部云部署,包括微软,Meta等企业。
性能新巅峰:AMD Instinct MI350系列
此次大会的主角之一就是基于AMD CDNA 4架构打造的AMD Instinct MI350X和MI355X GPU加速卡,它们分别适用于风冷与液冷环境。MI350系列实现 AI计算性能较前代提升4倍,推理性能跃升35倍,为各行业变革性AI解决方案铺平道路。该系列GPU提供领先的内存容量(288GB HBM3E)和带宽(高达8TB/s),确保推理和训练任务均具备卓越的吞吐量。
具体来看,AMD Instinct MI350系列GPU通过革命性架构设计实现性能跃迁。其核心采用Chiplet分模块架构:每颗GPU集成4组XCD计算芯片,每组含8个CU计算单元与4MB二级缓存,通过全局资源调度器实现128个CU的协同工作;双IOD芯片则整合128通道HBM3E内存控制器(支持8颗12Hi堆叠内存,总容量288GB)与256MB Infinity Cache,借助第四代Infinity Fabric总线实现1075GB/s双向带宽。创新3D封装技术将计算、内存与互联模块垂直堆叠,配合5.5TB/s芯片间高速互联链路,构建起高密度、低延迟的算力矩阵。
AMD Instinct MI350系列的8TB/s总内存带宽较前代提升超50%,单位CU带宽大幅提升;288GB HBM3E内存可承载万亿参数级大模型,700亿参数模型推理延迟压缩至毫秒级。
更猛的还在后面:AMD Instinct MI350系列GPU通过多卡协同构建超大规模算力集群。单节点支持八卡并行部署,总计提供2304GB HBM3E内存,FP8精度突破80.5 PFlops,FP6/FP4低精度计算更飙升至161 PFlops。
卡间通过双向带宽的Infinity Fabric通道互连,与CPU则采用128GB/s PCIe 5.0通道连接,确保数据传输零瓶颈。风冷模式支持64卡并行,液冷方案可扩展至128卡(2U-5U机架),满足超算中心多样化部署需求。
AMD Instinct MI350系列百卡级集群性能实现了指数级跃升。当128块MI350 GPU协同工作时,总内存容量达36TB,FP16/BF16精度算力飙升至644 PFlops,FP8精度达1.28 EFlops,FP6/FP4低精度计算更突破2.57 EFlops。这种性能密度足以支撑万亿参数大模型的实时训练,或同时运行数十个千亿参数模型的推理任务。
在AI模型训练的效能比拼中,AMD Instinct MI355X加速器以FP8精度下的微调训练性能,实现对英伟达竞品的显著超越:相较B200芯片性能提升10%,较GB200集群方案亦实现了效率领先。
这一数据基于Meta开源的Llama 2 70B大模型实测得出,直接印证了AMD在混合精度计算领域的架构优势与运算优化,MI355X在保持模型精度的前提下,将万亿参数模型的迭代周期缩短至英伟达方案的90%以内,为AI实验室与超算中心提供了更具性价比的算力升级路径。
时刻蜕变中的ROCm 7
作为专为AI加速设计的开放引擎,ROCm 7实现推理性能超3.5倍跃升,并深度整合FP4等低精度计算与FAv3等前沿算法,使vLLM、SGLang等开源框架性能超越闭源方案。其"零日支持"策略确保LLaMA、DeepSeek等主流模型发布即获优化,配合以周为单位的更新开发节奏,已为全球超大规模AI平台提供基础架构支撑。通过Hugging Face生态内180万个预训练模型的无缝接入,ROCm正将开源社区的创新势能转化为实际生产力。
随着AI应用从研究转向真实企业部署,ROCm也在随之演进。ROCm Enterprise AI将全栈MLOps平台推向前沿,通过用于微调、合规、部署和集成的即用型工具,实现安全、可扩展的AI。
AMD全栈式策略推动AI快速发展
随着AI Agent在各行业和场景中的广泛应用,其价值已从自动化重复劳动延伸至复杂规划、分析与创造任务的优化。AI的下一阶段发展将聚焦于连接大型语言模型与企业数据、工具及应用的深度整合,以此驱动业务、科研及产品开发的创新突破。这一进程对计算资源提出更高要求:GPU与CPU需提供更强性能与安全性,以支撑AI Agent的多步骤决策流程与跨资源访问需求。AMD通过其行业领先的技术,在GPU、CPU及网络基础设施领域构建了开放、全面且可编程的架构,确保AI Agent的高效执行与数据安全,为智能化转型奠定硬件基石。
在AI系统中,CPU的合理选择对避免性能瓶颈、提升资源利用率及整体系统效能至关重要。AMD的技术方案不仅强调硬件协同,更通过持续创新与对开放标准的支持,推动AI技术普惠化。例如,其“Zen”架构CPU与CDNA架构GPU的深度整合,可显著优化异构计算负载分配,确保从边缘到数据中心的AI部署均能实现高效能比。通过兼容主流框架与工具链,AMD正助力企业降低AI落地门槛,加速智能化应用从实验室到生产环境的转化,持续引领AI技术生态的开放演进。
据了解,全球顶级OEM厂商已量产超过35款基于AMD MI300系列平台的解决方案,助力云服务商、企业级用户及AI创新者规模化扩展GPU计算集群。目前,Meta、微软、Oracle、IBM Cloud等科技巨头正加速部署MI300加速器,以支撑其AI训练、推理及高性能计算需求,进一步验证了AMD在数据中心AI市场的技术领导力与生态渗透力。
你以为这就结束了?
等等,还有彩蛋!
这是啥?2026年将推出代号威尼斯的EPYC,256核、2nm制程,CPU到GPU带宽提升2倍,内存带宽达1.6TB/s,基本提前预定了处理器“刷分王”。
AMD Instinct MI400作为计划2026年推出的生成式AI加速器,具备FP4达40 PF、FP8为20 PF的算力,搭配432GB HBM4内存、19.6 TB/s内存带宽与300 GB/s横向扩展带宽。咋评价呢?可以说,压力已经给到了竞争对手。
又一次感受到了AMD在产品与技术方面的“霸气外露”!
AI技术变革浪潮中,AMD凭借全方位技术革新重塑了计算产业格局。 从Instinct MI350系列GPU在架构、内存与能效上的突破性创新,到ROCm软件平台对开源生态的深度赋能,AMD已构建起覆盖硬件、系统与生态的完整创新链。
AI时代的基础设施,正以更简单直接的方式向企业走来。