今天给大家分享一份调研报告《_Responsibly Deploying Al Clusters at Scale - 650 Group_》,来自2025 OCP Canada Tech Day——即Open Compute Project的首次加拿大技术日活动。
全部资料文档的网盘分享链接如下:
https://pan.baidu.com/s/1Ge1M...
提取码: enjz
参考议程如下
Keynotes
Open Systems for AI Clusters(针对AI集群的开放系统)
Responsibly Deploying Open Hardware and Software for Edge Computing(负责任地部署边缘计算开放硬件与软件)
在这次OCP加拿大技术日的讨论中,我看也有与《AI Scale-Up集群:3.2T网络时代的共封装硅光子(CPO)互连》相关的内容。今天我展开的部分还是先聚焦一下,围绕以下这篇调研报告:
报告的主题Responsibly Deploying Al Clusters at Scale,可以译为:“负责任地规模化部署人工智能集群”。650 Group是一家市场情报研究公司。
Setting the Stage for AI
在上图定义的4波AI发展浪潮中,我们当下处于第3波——AI Agents阶段。
数据中心半导体:2025年GPU与ASIC的预期市场格局
上面左侧的图表是数据中心半导体收入:与传统部分的“红线”相比,代表“AI Focused”的绿线从2023年Q1到现在一直在爆发性增长。右侧图表中,“Merchant ASIC”应该代表通用GPU/XPU,Custom ASIC则代表像Google TPU、微软 Maia 100 、 Meta MTIA 这类大厂自用的 AI 芯片。
数据中心关联电力:北美地区数据中心电力需求(初步研究)
在2020-2024年,数据中心只占整个北美地区耗电的3-6%,而由于AI需求(蓝色部分)的激增,预计到2027-2028年这一数字将超过15-20%——部分区域还会更高。右边列出的应对措施我列出翻译给大家:
- 二级训练与推理需采用专用低功耗ASIC芯片(降低蓝色AI能耗条)
• 为不同工作负载匹配专用ASIC芯片
- 可将计算任务迁移至电力资源更丰富的地区(降低蓝色AI能耗条)
• 这与日本大多数数据中心位于太平洋西北(海岸)地区的情况类似
- x86服务器更新换代可压缩非AI算力需求(降低橙色能耗条)
• 100万台旧服务器可缩减至约60万台,保持同等算力水平
• 虽为一次性节能,但几乎能弥补全年新增发电量的缺口
注:上面这个也算是本文开头服务器CPU问题的一种解释吧。在服务器核心数、IPC提高的同时,如果功耗持平或者增长较少,就是提高了能耗比。CPU厂商在新品宣传时经常会列出下面这样的图例:
使用131台新型服务器就能替代1000台几代之前的服务器,实现7:1的“整合/合并”。这份资料我最早在《_AMD EPYC 9005 (Zen 5&5c) 服务器CPU架构解读_》中引用过。
- 液冷技术降低功耗(降低蓝色AI能耗条)
- • 冷板式液冷是当前数据中心主流技术
• 浸没式液冷在多类设施中尚未达理想适用状态
参考信息:我在《_从风冷、冷板到浸没式:数据中心散热技术演进与2030市场格局预测_》中列出过另一种观点,即“在2028年CPU也达到1000W时,预计浸没液冷将迎来拐点”。
云计算报告:资本密集度分析
服务器市场:AI与传统服务器出货量分析
上图左边是台数预测:非AI服务器(x86+ARM)从2025到2029年有缓慢的下降,而AI/ML机型则显著增长。右边则是销售额:感觉AI服务器有点就像老黄说的 “你买的越多,就省的越多”… 无论如何,至少看到那些在服务器中高价格占比的GPU/XPU都卖出去了。不然NV的股价从哪里来?
AI服务器出货客户群体预测:Hyperscaler、Rest of Cloud、Enterprise和SP
AI网络
商用硅片——数据中心交换机:基于SERDES速率的带宽出货分析
尽管传统数据中心需求的L2、L3+、DCI出货端口总带宽也在逐年增长,但由于AI部分的年复合增长率高达82%,所以到2029年AI占据网络带宽的比例超过一半许多——这应该还只是training训练部分。
终端市场:数据中心网络——AI与高性能计算网络转型
上面图表中把AI/HPC服务器中的网络分为3大类——前端(外部)连接,包括存储、管理访问;后端(内部Scale-Out,计算节点间);以及后端(内部Scale-Up,通常指XPU芯片间的内存语义互连)。这里NVLink分为机器内的直连以及通过交换机的铜(机架内)/光(多机架)互连;也提到了基于AMD Infinity Fabric 技术的 UALink。
以太网交换机市场:数据中心领域总营收预测
由此可以看出每一份报告预测的不同,比如Scale-Up和Scale-Out的增长态势,650 Group这个与我之前分享的《_Building Reliable at Scale AI Clusters with Co-packaged Optics_》哪个更靠谱?要靠大家自行判断了。
上图右侧我没有对照另一份报告,这里对NVLink是比较看好的,而UALink所属的Other则到2029年似乎市场还挺小?
按照之前第三方透露的AMD Instinct MI450X平台概念图(扩展阅读:《AI超节点Scale-Up展望:为什么NV和AMD都要“消除”PCIe Switch?》),明年GPU之间的互连预计先用到IFoE(使用通用以太网交换机),那么UALink交换机首次应用是不是要等到2027年?除了AMD之外,有公司会跑得更快吗(特别是在国内),这个我也有点小期待。
END
作者:唐僧 huangliang
原文:企业存储技术
推荐阅读
- AI超节点Scale-Up展望:为什么NV和AMD都要“消除”PCIe Switch?
- Fastllm:DeepSeek R1-0528 CPU+GPU混合推理加速方案
- 供电、散热资料分享:OCP AI/ML Physical Infra Workshop 2
- OCP AI/ML 研讨会资料:数据中心机架、供电、散热
欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。