Meta 的 GB200 液冷 AI 服务器 - Catalina - 极术社区

技术背景说明：根据 Meta 在 2024 年 OCP 峰会的披露，Catalina 是其基于 NVIDIA Blackwell 平台开发的 AI 机架解决方案。该项目在保留标准 GB200 NVL72 液冷机架核心设计的同时，针对性优化了网络架构和冷却系统，既缩短了 6-9 个月的开发周期，又实现了与 Meta 现有 AI 基础设施的无缝集成。这种"80%标准化+20%关键定制"的模式，已成为超大规模 AI 基础设施建设的行业最佳实践。

《2024 OCP Global Summit 会议资料分享 (完整&推荐)》

本文参考资料来自 OCP 文档《Catalina - Specification Contribution Review》，分享人是 Meta 的硬件工程师 Matt Bowman。

本次贡献涉及Catalina计算托盘（Compute Tray）。该设计是Meta最新AI/ML机架中的主要CPU+GPU托盘。机架内的其他组件可能由其他规格和贡献涵盖。

概览

Meta 公司的下一代人工智能 / 机器学习平台
符合 ORv3 HPR 标准
1RU 托盘，使用适配卡（转换套件）以兼容 Open Rack 开放式机架
每个计算托盘包含前端网络、后端网络、启动盘、工作负载存储、散热和管理组件。
具体组件包括：
DC-SCM 2.0
OCP NIC（开放计算项目网卡）
E1.S 固态硬盘（启动盘和数据盘）
配电板（PDB）
风扇
用于液冷高功耗组件的冷板回路

平台架构

如上图，Catalina 1U 节点由 2 块 GB200 主板组成，每块上面包含 Grace ARM CPU 和 B200 GPU。除了 B200 对外提供 NVLink 5 Scale-out 扩展互连接口之外；CPU 与 GPU 之间，以及 2 颗 Grace CPU 之间应该也是 NVLink C2C 互连，提供内存一致性访问。

B200 片上自带 HBM 内存，Grace CPU 的内存则由 LPDDR5x CAMM 模组提供（下图供参考）。

在 Grace CPU 与 B200 GPU 之间，看上去还有蓝色示意的 PCIe 连接，B200 支持 Gen6 x16 Endpoint 设备模式，但 Grace CPU 应该还只能支持到 PCIe 5.0。

CPU+GPU 1:1 配比的模式（传统 x86 CPU+GPU 的服务器多为 1:4），不需要 PCIe Switch，也可以理解为 CPU 兼做了 PCIe Switch 的工作。东西向网络是 2 块后端的 CX7 400G 网卡；另有 1 块 CX7-200G 应该是用于南北向网络（存储、管理等流量）。

每块主板连接到机箱前端的 2 个 E1.S NVMe SSD，支持 Gen5 x4。1U 机箱一共能安装 4 块盘。

机械规格

1RU 规格的托盘，可安装在适配卡上，以实现与 Open Rack 的兼容。
- 尺寸：高 43.60 毫米 × 宽 498 毫米 × 深 766 毫米
- 重量：约 20.5 千克（45 磅）

电源

采用符合 ORv3 标准的机架，使用约 48V 直流电供电。
配电板（PDB）将 48V 电压降压至 12V 进行分配。
电源设计支持每个系统的最大热设计功耗（TDP）为 3.9 千瓦。

不难看出，功耗最大的设备就是 GB200 模块，Blackwell GPU 的 1200W 和 Grace CPU 的 300W，一共需要 125A 的 12V 电流；CX8 网卡也要 100W。（注意这里写的网卡与上文中不同，很可能是支持 2 种配件）

散热

该托盘采用风冷和液冷相结合的方式。

八个风扇用于冷却 E1.S 驱动器和 OCP 网卡

最大进气温度 35°C
最高海拔 6000 英尺
相对湿度 10%-90%
N+1 冗余设计

采用带有冷板回路（CPL）的液冷系统来冷却高 TDP（热设计功耗）设备（高性能模块、后端网卡模块）

冷却液类型：基于 PG25 的液体（例如陶氏 Frost LC-25）
冷却液供应温度：标称 40°C，允许波动至 42°C
冷却液流速和压力差：最高 100 升 / 分钟，15 磅 / 平方英寸
UQD04 接口

原则

开放性
Catalina 计算托盘以其专注且优化的设计彰显了开放性。这种设计能在保持整体设计一致性的同时，根据需求对托盘的不同部件进行重复利用或升级。众多其他由开放计算项目（OCP）贡献的设计（如 OCP 网卡、NVMe Cloud 等）构成了该计算托盘设计的关键组件。
效率
Catalina 计算托盘采用了所有可行的方法和特性来提高密度并降低功耗（如功率平滑、节流控制、优化的风扇和液体冷却控制等）。这对于成功集成到我们的数据中心环境至关重要。
影响力
随着我们系统功率密度的不断增加，Catalina 计算托盘代表了我们首次大规模部署的液冷人工智能硬件。它为我们如何利用气助液冷（AALC）以及设施用水进行设计、管理和部署硬件奠定了基调。
可扩展性
Catalina 计算托盘的设计便于扩展，旨在打造大规模集群。为实现这一目标，该设计具备高密度、模块化的特点，并配备强大的遥测功能，从而能够快速且准确地进行故障诊断和修复。
可持续性
Catalina计算托盘在设计上注重循环利用，包括未来的再利用、前瞻性的兼容性和可升级性，这是其核心设计理念之一，有助于确保 Meta 能够实现其净零可持续发展目标。

以下补充几种基于 x86 CPU 的 GPU 服务器参考架构/规格：

1、同样来自 OCP（Meta）的 Grand Teton 项目