技术背景说明:根据 Meta 在 2024 年 OCP 峰会的披露,Catalina 是其基于 NVIDIA Blackwell 平台开发的 AI 机架解决方案。该项目在保留标准 GB200 NVL72 液冷机架核心设计的同时,针对性优化了网络架构和冷却系统,既缩短了 6-9 个月的开发周期,又实现了与 Meta 现有 AI 基础设施的无缝集成。这种"80%标准化+20%关键定制"的模式,已成为超大规模 AI 基础设施建设的行业最佳实践。
《2024 OCP Global Summit 会议资料分享 (完整&推荐)》
本文参考资料来自 OCP 文档《Catalina - Specification Contribution Review》,分享人是 Meta 的硬件工程师 Matt Bowman。
本次贡献涉及Catalina计算托盘(Compute Tray)。该设计是Meta最新AI/ML机架中的主要CPU+GPU托盘。机架内的其他组件可能由其他规格和贡献涵盖。
概览
- Meta 公司的下一代人工智能 / 机器学习平台
- 符合 ORv3 HPR 标准
- 1RU 托盘,使用适配卡(转换套件)以兼容 Open Rack 开放式机架
- 每个计算托盘包含前端网络、后端网络、启动盘、工作负载存储、散热和管理组件。
- 具体组件包括:
DC-SCM 2.0
OCP NIC(开放计算项目网卡)
E1.S 固态硬盘(启动盘和数据盘)
配电板(PDB)
风扇
用于液冷高功耗组件的冷板回路
平台架构
如上图,Catalina 1U 节点由 2 块 GB200 主板组成,每块上面包含 Grace ARM CPU 和 B200 GPU。除了 B200 对外提供 NVLink 5 Scale-out 扩展互连接口之外;CPU 与 GPU 之间,以及 2 颗 Grace CPU 之间应该也是 NVLink C2C 互连,提供内存一致性访问。
B200 片上自带 HBM 内存,Grace CPU 的内存则由 LPDDR5x CAMM 模组提供(下图供参考)。
在 Grace CPU 与 B200 GPU 之间,看上去还有蓝色示意的 PCIe 连接,B200 支持 Gen6 x16 Endpoint 设备模式,但 Grace CPU 应该还只能支持到 PCIe 5.0。
CPU+GPU 1:1 配比的模式(传统 x86 CPU+GPU 的服务器多为 1:4),不需要 PCIe Switch,也可以理解为 CPU 兼做了 PCIe Switch 的工作。东西向网络是 2 块后端的 CX7 400G 网卡;另有 1 块 CX7-200G 应该是用于南北向网络(存储、管理等流量)。
每块主板连接到机箱前端的 2 个 E1.S NVMe SSD,支持 Gen5 x4。1U 机箱一共能安装 4 块盘。
机械规格
- 1RU 规格的托盘,可安装在适配卡上,以实现与 Open Rack 的兼容。
- 尺寸:高 43.60 毫米 × 宽 498 毫米 × 深 766 毫米
- 重量:约 20.5 千克(45 磅)
电源
- 采用符合 ORv3 标准的机架,使用约 48V 直流电供电。
- 配电板(PDB)将 48V 电压降压至 12V 进行分配。
- 电源设计支持每个系统的最大热设计功耗(TDP)为 3.9 千瓦。
不难看出,功耗最大的设备就是 GB200 模块,Blackwell GPU 的 1200W 和 Grace CPU 的 300W,一共需要 125A 的 12V 电流;CX8 网卡也要 100W。(注意这里写的网卡与上文中不同,很可能是支持 2 种配件)
散热
该托盘采用风冷和液冷相结合的方式。
八个风扇用于冷却 E1.S 驱动器和 OCP 网卡
- 最大进气温度 35°C
- 最高海拔 6000 英尺
- 相对湿度 10%-90%
- N+1 冗余设计
采用带有冷板回路(CPL)的液冷系统来冷却高 TDP(热设计功耗)设备(高性能模块、后端网卡模块)
- 冷却液类型:基于 PG25 的液体(例如陶氏 Frost LC-25)
- 冷却液供应温度:标称 40°C,允许波动至 42°C
- 冷却液流速和压力差:最高 100 升 / 分钟,15 磅 / 平方英寸
- UQD04 接口
原则
- 开放性
Catalina 计算托盘以其专注且优化的设计彰显了开放性。这种设计能在保持整体设计一致性的同时,根据需求对托盘的不同部件进行重复利用或升级。众多其他由开放计算项目(OCP)贡献的设计(如 OCP 网卡、NVMe Cloud 等)构成了该计算托盘设计的关键组件。 - 效率
Catalina 计算托盘采用了所有可行的方法和特性来提高密度并降低功耗(如功率平滑、节流控制、优化的风扇和液体冷却控制等)。这对于成功集成到我们的数据中心环境至关重要。 - 影响力
随着我们系统功率密度的不断增加,Catalina 计算托盘代表了我们首次大规模部署的液冷人工智能硬件。它为我们如何利用气助液冷(AALC)以及设施用水进行设计、管理和部署硬件奠定了基调。 - 可扩展性
Catalina 计算托盘的设计便于扩展,旨在打造大规模集群。为实现这一目标,该设计具备高密度、模块化的特点,并配备强大的遥测功能,从而能够快速且准确地进行故障诊断和修复。 - 可持续性
Catalina计算托盘在设计上注重循环利用,包括未来的再利用、前瞻性的兼容性和可升级性,这是其核心设计理念之一,有助于确保 Meta 能够实现其净零可持续发展目标。
以下补充几种基于 x86 CPU 的 GPU 服务器参考架构/规格:
1、同样来自 OCP(Meta)的 Grand Teton 项目
2、PowerEdge XE7745 架构图(经过我补充)
3、Lenovo 问天 WA7785a G3 规格参考
扩展阅读
《OCP AI__开放系统白皮书:可扩展基础设施蓝图》
《DeepSeek时代:关于 AI服务器的技术思考(PCIe__篇)》
《3U 8卡:对 AI推理服务器意味着什么?》
《风冷、液冷 GPU服务器密度提升 - PowerEdge 17G整机架预览 (2)》
参考资料《Catalina - Server Workgroup Presentation》
链接: https://pan.baidu.com/s/1lvIl... 提取码: 5xbk
END
作者:唐僧 huangliang
原文:企业存储技术
推荐阅读
- 推测解码:加速 vLLM 文本生成 Token/s 2.31 倍
- DeepSeek 能否引领 AI PC 发展趋势?(技术篇)
- 在AMD MI300X上增强DeepSeek-R1推理能力:调优至7,318 Token/s
欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。