Meta 的 GB200 液冷 AI 服务器 - Catalina

技术背景说明:根据 Meta 在 2024 年 OCP 峰会的披露,Catalina 是其基于 NVIDIA Blackwell 平台开发的 AI 机架解决方案。该项目在保留标准 GB200 NVL72 液冷机架核心设计的同时,针对性优化了网络架构和冷却系统,既缩短了 6-9 个月的开发周期,又实现了与 Meta 现有 AI 基础设施的无缝集成。这种"80%标准化+20%关键定制"的模式,已成为超大规模 AI 基础设施建设的行业最佳实践。

2024 OCP Global Summit 会议资料分享 (完整&推荐)

image.png

本文参考资料来自 OCP 文档《Catalina - Specification Contribution Review》,分享人是 Meta 的硬件工程师 Matt Bowman。

Image

本次贡献涉及Catalina计算托盘(Compute Tray)。该设计是Meta最新AI/ML机架中的主要CPU+GPU托盘。机架内的其他组件可能由其他规格和贡献涵盖。

Image

概览

  • Meta 公司的下一代人工智能 / 机器学习平台
  • 符合 ORv3 HPR 标准
  • 1RU 托盘,使用适配卡(转换套件)以兼容 Open Rack 开放式机架
  • 每个计算托盘包含前端网络、后端网络、启动盘、工作负载存储、散热和管理组件。
  • 具体组件包括:
    DC-SCM 2.0
    OCP NIC(开放计算项目网卡)
    E1.S  固态硬盘(启动盘和数据盘)
    配电板(PDB)
    风扇
    用于液冷高功耗组件的冷板回路

平台架构

Image

如上图,Catalina 1U 节点由 2 块 GB200 主板组成,每块上面包含 Grace ARM CPU 和 B200 GPU。除了 B200 对外提供 NVLink 5 Scale-out 扩展互连接口之外;CPU 与 GPU 之间,以及 2 颗 Grace CPU 之间应该也是 NVLink C2C 互连,提供内存一致性访问。

B200 片上自带 HBM 内存,Grace CPU 的内存则由 LPDDR5x CAMM 模组提供(下图供参考)。

Image

在 Grace CPU 与 B200 GPU 之间,看上去还有蓝色示意的 PCIe 连接,B200 支持 Gen6 x16 Endpoint 设备模式,但 Grace CPU 应该还只能支持到 PCIe 5.0。

CPU+GPU 1:1 配比的模式(传统 x86 CPU+GPU 的服务器多为 1:4),不需要 PCIe Switch,也可以理解为 CPU 兼做了 PCIe Switch 的工作。东西向网络是 2 块后端的 CX7 400G 网卡;另有 1 块 CX7-200G 应该是用于南北向网络(存储、管理等流量)。

每块主板连接到机箱前端的 2 个 E1.S NVMe SSD,支持 Gen5 x4。1U 机箱一共能安装 4 块盘。

机械规格

Image

  • 1RU  规格的托盘,可安装在适配卡上,以实现与 Open Rack 的兼容。
    • 尺寸:高 43.60 毫米 × 宽 498 毫米 × 深 766 毫米
    • 重量:约 20.5 千克(45 磅)

电源

Image

  • 采用符合 ORv3 标准的机架,使用约 48V 直流电供电。
  • 配电板(PDB)将 48V 电压降压至 12V 进行分配。
  • 电源设计支持每个系统的最大热设计功耗(TDP)为 3.9 千瓦。

不难看出,功耗最大的设备就是 GB200 模块,Blackwell GPU 的 1200W 和 Grace CPU 的 300W,一共需要 125A 的 12V 电流;CX8 网卡也要 100W。(注意这里写的网卡与上文中不同,很可能是支持 2 种配件)

散热

Image

该托盘采用风冷和液冷相结合的方式。

八个风扇用于冷却 E1.S 驱动器和 OCP 网卡

  • 最大进气温度 35°C
  • 最高海拔 6000 英尺
  • 相对湿度  10%-90%
  • N+1 冗余设计

采用带有冷板回路(CPL)的液冷系统来冷却高  TDP(热设计功耗)设备(高性能模块、后端网卡模块)

  • 冷却液类型:基于 PG25 的液体(例如陶氏 Frost LC-25)
  • 冷却液供应温度:标称 40°C,允许波动至 42°C
  • 冷却液流速和压力差:最高 100 升 / 分钟,15 磅 / 平方英寸
  • UQD04 接口

原则

  • 开放性
    Catalina 计算托盘以其专注且优化的设计彰显了开放性。这种设计能在保持整体设计一致性的同时,根据需求对托盘的不同部件进行重复利用或升级。众多其他由开放计算项目(OCP)贡献的设计(如  OCP  网卡、NVMe Cloud 等)构成了该计算托盘设计的关键组件。
  • 效率
    Catalina 计算托盘采用了所有可行的方法和特性来提高密度并降低功耗(如功率平滑、节流控制、优化的风扇和液体冷却控制等)。这对于成功集成到我们的数据中心环境至关重要。
  • 影响力
    随着我们系统功率密度的不断增加,Catalina 计算托盘代表了我们首次大规模部署的液冷人工智能硬件。它为我们如何利用气助液冷(AALC)以及设施用水进行设计、管理和部署硬件奠定了基调。
  • 可扩展性
    Catalina 计算托盘的设计便于扩展,旨在打造大规模集群。为实现这一目标,该设计具备高密度、模块化的特点,并配备强大的遥测功能,从而能够快速且准确地进行故障诊断和修复。
  • 可持续性
    Catalina计算托盘在设计上注重循环利用,包括未来的再利用、前瞻性的兼容性和可升级性,这是其核心设计理念之一,有助于确保  Meta  能够实现其净零可持续发展目标。

以下补充几种基于 x86 CPU 的 GPU 服务器参考架构/规格:

1、同样来自 OCP(Meta)的 Grand Teton 项目

Image

2、PowerEdge XE7745 架构图(经过我补充)

Image

3、Lenovo  问天  WA7785a G3  规格参考

Image

扩展阅读
OCP AI__开放系统白皮书:可扩展基础设施蓝图
DeepSeek时代:关于 AI服务器的技术思考(PCIe__篇)
3U 8卡:对 AI推理服务器意味着什么?
风冷、液冷 GPU服务器密度提升 - PowerEdge 17G整机架预览 (2)

参考资料《Catalina - Server Workgroup Presentation》

链接: https://pan.baidu.com/s/1lvIl...  提取码: 5xbk

END

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5620
内容数
281
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息