AI/ML 应用的发展和密度要求,对机架 & 供电、散热等数据中心物理基础设施提出了更高的挑战。
OCP AI/ML Physical Infra Workshop 1 资料网盘下载
链接: https://pan.baidu.com/s/1B-Ci... 提取码: 9xsg
大家也可以在关注本微信公众号之后,从后台对话框发消息 ocp0419__来获取以上分享链接。
来源 https://www.opencompute.org/e...(含qiang外视频回放)
会议日程
以下 ppt 内容按照上表中的发言顺序,中间插入一点我的学习笔记:
Session 1: Rack & Power - Enabling xxx kW - 1 MW racks
AMD:Data Center Power Distribution
未来的 500kW - 1MW 功率机架,将流行+/-400Vdc 高压直流供电。
Intel:Open-Systems-for-AI 1MW Rack
在机架功耗向 1 MW 的发展中,可能会经历几个阶段:
- 混合散热:单相/2 相冷板 + 风冷;
- 混合散热:单相/2 相冷板 + 单相浸没液冷;
- 100%使用单相冷板;
- 100%使用 2 相冷板/浸没液冷。
在服务器这一层级,400V DC 直流输入,较高功耗的模组/卡(如 GPU)开始流行使用 48V 供电。
现有 220V 交流 PDU 输出给服务器 208V AC 即可达标;而 400V DC 架构,则是要求 380V DC 输出到服务器的 PSU 电源。
Meta:ORV3-HPR NEXT RACK AND POWER SOLUTION FOR AI/M SYSTEMS
Microsoft:AI Infrastructure Evolution - Disaggregated Power and Infrastructure Changes Fueling the Next Wave of AI Platforms
Data Center high voltage DC Distribution
Session 2: Cooling: Enabling xxx kW - 1 MW racks
AMD:500KW to 1MW DC Thermals
1MW 机架的散热,每千瓦液体流速需要提高,具体的 LPM 要达到 2000。
Google:Liquid cooling for AI/ML
Meta -- Cooling: Enabling xxx kW - 1 MW racks
Microsoft:Technology Pathfinding Opportunities(Cooling, Power, Sustainability)
扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)
END
作者:唐僧整理
原文:企业存储技术
推荐阅读
- HGX B200 液冷 AI 服务器中的 NVLink & PCIe Switch 应用
- Ryzen AI 300商用笔记本评测 & Zen5+Zen5c多核效率分析
- 使用 LlamaIndex 和 Ollama 在 AMD Radeon 显卡上构建 RAG 系统
欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。