液冷服务器之散热选择组合:冷板、后门换热和列间空调

前些天看到一篇不错的技术博客。由于我早年搞过一些服务器系统内的散热测试,但对机箱外——也就是数据中心整体的冷却方案只是一个旁观者。我趁机补习了少许知识,今天决定还是给大家写点分享。如有错误和不足之处欢迎专家朋友们指正。

我先将自己的理解和评论写在本文前面,然后我会把参考博客的原文链接和译文也copy在下面。读者可以选择自己的阅读顺序,直接先跳到后面看也没问题哈:)

image.png
根据客户需求来建议冷却方案

我来“汉化”上图中的名词解释

Rear Door Heat Exchangers:后门换热器,俗称机柜的水冷后门。如下图:

image.png

上图截自energystar(能源之星)的网站。早些年我写过互联网公司的整机架方案(如OCP),把服务器机箱内的风扇集中转移到机柜后门上。而后门换热器则相当于又加上了一大面冷水换热排,利用这个把流经服务器之后的热空气冷却下来。

DLC:这个标准名词不用过多解释了。直触式液冷,就是冷板方案。

注:前年我写过一篇《350W+ CPU、700W+ GPU功耗:冷板和浸没式液冷哪个更有前途?》,我想今天的市场数字验证了一些东西。

另外推荐《冷板液冷工程标准化及技术优化》白皮书解读

In-Row Cooler:列间空调,也有人称为“行间空调”,应该主要是用于模块化数据中心吧。

image.png

上图引用自Eaton公司的文档。In-Row Cooler夹在一列机柜的中间,它从“后端”吸入服务器排出的热风,冷却后再从其“前端”排出——成为可以重复被服务器吸入的冷风。

列间空调提高效率的一个要点,就是要做到冷热通道的隔离(最好是完全隔离吧)。因此,在我参考的这篇博客文章中,都是In-Row Cooler + Enclosure结合在一起使用的。

散热优化的原理,包括提高循环效率、优化(缩短)路径。冷板是拿水替代空气,使用循环效率更高的介质;而水冷后门列间空调则属于另一个方向——缩短热空气的路径来提高制冷效率,二者又各有特点。

Facility Water Temperature Up To:最高设施水温度。继续看上面的图表,后门换热器里面的水温要求较低(22℃),而列间空调的水温则可以提高到32℃,“更高的设施水温度允许冷却水的冷水机以较低的能源运行”。

Rack Density Up To:最高机架功率。如图:

  • 仅使用In-Row Cooler + Enclosure时,单机柜(风冷)最高功率密度支持到大约30kW;
  • 仅使用后门换热器,单机柜最高密度大约可达60kW,比传统风冷方案要强;
  • 结合DLC冷板与列间空调,机架密度可提高到90kW;
  • 结合DLC冷板与后门换热器,机架的功率密度相对最高,达到120kW。也就是CPU、高功耗GPU这些集中发热部件使用冷板液冷,服务器余下热量靠水冷后门来解决。

image.png
不同冷却方法使用的能源

需要注意的是,上图中的 “IT Energy包括服务器内部的所有内容,包括内部风扇。Cooling Energy代表从CDUs(冷却剂分配单元)或CRACs(计算机房空气处理器)开始的冷却项目,包括数据中心外的风冷冷水机”。

我刚看到这张图时也有点疑惑,这可以粗略作为一个PUE的参考吗?

比如橙色柱形,从传统风冷到DLC冷板液冷,服务器内风扇耗电的节省看上去不很明显?其参考数据是针对双CPU服务器来设计的;而一旦使用较高功率的GPU或者CPU(注:Intel、AMD下一代CPU TDP也能达到500W),风冷的效率将会降低,这时冷板节省的服务器内风扇耗电占比就会大多了。

扩展阅读:《Dell PowerEdge R760服务器:风冷vs. 液冷散热限制

至于蓝色柱形,服务器以外的冷却能耗,这部分不是我擅长的。不过趋势可以看出来,无论Cooling Energy还是整体能耗,都是DLC冷板> 后门换热器 > 后门换热器+冷板 > 列间空调 > 列间空调+冷板,这样越来越低的趋势。

当然在前面我也说了,有些超高功率密度的HPC/AI服务器用液冷比较多,就不见得都符合上面这个排名了。所以说仅供大家参考。

以上就是我的学习笔记,下面列出博客链接&译文(考虑篇幅英文原文就不粘了。由kimi翻译的,英文好的朋友也可以直接看原文)。

image.png

Diving Deep into the Liquid Server Cooling Choices

原文链接 https://www.dell.com/en-us/blog/diving-deep-into-the-liquid-server-cooling-choices/

深入探讨液态服务器冷却选择

通过选择、灵活性和效率应对服务器冷却挑战。

作者:Travis Vigil | 2024年5月3日

本文主题:数据中心 | PowerEdge | 可持续性

随着戴尔科技不断创造推动人类进步的更多技术,可能会有障碍减缓这些新解决方案的采用。在数据中心,没有比AI工作负载更重要的领域来展示这些障碍了。AI和其他要求高的工作负载要求使用最新的GPU和CPU以提供所需的应用程序性能。这意味着在部署规划期间经常出现热和电源问题。为了帮助解决这些问题,戴尔的服务器热工程团队多年来一直在提供以客户为中心的一系列创新——戴尔智能冷却。例如,Triton是2016年早期的液态冷却服务器产品。如果我们快进到2024年,我们正在提供服务器冷却解决方案,如Verne Global正在使用的Dell DLC3000 DLC机架,以及提供每个机架高达115千瓦的戴尔模块化数据中心。

当前冷却选择

之前的博客已经涵盖了最新CPU和GPU的冷却需求,以及PowerEdge产品组合支持的不同冷却选项。部署这些最新的高功率服务器可能意味着每个机架产生的热量超过了传统空气冷却所能处理的冷却量。此外,客户希望在数据中心的电力使用上更加可持续和高效。因此,让我们看看数据中心冷却方法和策略,以及今天可供客户使用以支持这些日益增长的冷却需求。

这里快速概述了构建数据中心冷却环境时使用的最常见技术的基础知识。

直接液体冷却(DLC)使用冷板直接接触内部服务器元件,如CPU和GPU;然后使用液体冷却冷板并将热量从这些处理器中传送走。

行内冷却解决方案旨在部署在数据中心通道内,与机架一起冷却并分发冷空气到精确位置。

后门热交换器(RDHx)通过安装在服务器机架后部的液体冷却热交换器捕获服务器热排气空气中的热量。

机壳指的是包含加热排气空气、冷却它并重新循环它的概念,所有这些都完全与数据中心的其他冷却空气隔离。

每种冷却技术支持不同的机架热密度和效率,为客户提供选择,以匹配他们的冷却解决方案要求。这些解决方案可以从一个机架部署到多个通道。行内冷却器,结合行或机架限制,捕获机架上100%的IT产生的热量。这意味着数据中心大厅所需的唯一空调是为了人类舒适。RDHx还在机架上捕获100%的IT产生的热量到设施水中,并同时调节空间中的空气。由于这种空调功能,提供给RDHx的设施水温度必须比与行内冷却器使用的水温度(高达32摄氏度)更凉爽(高达大约20摄氏度)。更高的设施水温度允许冷却水的冷水机以较低的能源运行,这是可取的,但这只是整个效率故事的一部分。

将这些100%热量捕获技术与DLC结合使用,通过减少冷却IT设备所需的风扇功率,进一步提高了效率。

image.png
图1. 客户要求与戴尔建议的冷却解决方案。

服务器冷却效率

这些不同的解决方案和方法在提供冷却时消耗不同量的电力。图2突出了使用不同冷却方法冷却典型的双CPU服务器机架时的年度能源使用情况。条形图显示了每种冷却方法的IT能量和冷却能量。所消耗的IT能量包括服务器内部的所有内容,包括内部风扇。冷却能量代表从CDUs(冷却剂分配单元)或CRACs(计算机房空气处理器)开始的冷却项目,包括数据中心外的风冷冷水机。这个模型是专门为位于美国南部的数据中心设计的。

image.png
图2. 按冷却方法使用的能量。

第一根条形图代表一个典型的数据中心,使用位于数据大厅周边的空气处理器向服务器吹风。接下来,向每个服务器的CPU添加DLC可以节省仅用周边空气处理器空气冷却所消耗总能量的约11%。用每个机架上的后门热交换器(RDHx)替换周边冷却可以每年节省16%,并且添加DLC可以在此基础上再节省2%。如上所述,在机架上部署IT设备并带有行内冷却器的机壳允许使用更温暖的水,这比周边空气处理器带来19%的能源节省。最后,将这种机壳与DLC结合使用可以节省传统冷却机架所消耗能量的23%。

戴尔技术解决方案的好处

市场上有几种替代冷却方法。例如,一些供应商选择对服务器的其他内部组件进行直接液体冷却,包括内存、网络接口、存储等,这意味着DLC解决方案与每个服务器内部几乎所有产生热量的组件接触。通常这些解决方案需要定制的铜冷板和服务器内部的额外管道,以使所有组件与液体接触。在戴尔,我们不认为成本高昂的复杂铜冷却是最好的方法。我们相信,通过将液体和空气冷却结合成混合服务器冷却解决方案,组织可以获得许多好处,包括:

  • 服务器配置的灵活性大大提高。客户可以决定服务器配置(内存/PCIe卡/存储等),而不受单一服务器冷板设计的限制。
  • 设计上有更少的软管和接头,可能发生泄漏。
  • 简单的现场服务程序,易于访问以更换服务器组件。
  • 广泛的服务器选择。
  • 戴尔的混合方法不太复杂,能够在冷却新型和不同的处理器和服务器平台时提供更大的灵活性。

使用戴尔内部模型进行的分析表明,在一个设计良好、管理良好的低水温解决方案中,混合空气+DLC冷却部署所使用的能量在冷却方面仅比一些其他供应商使用的“冷板一切方法”多3%到4%,并带来上述好处。

image.png

上图截自我去年写的《绿色x86服务器:冷板与浸没液冷进展、电源创新

利用下一代智能冷却

戴尔继续其冷却策略,开放和灵活地为客户提供选择,而不是一种通用方法。这些先进的数据中心冷却方法现在正从高性能计算集群转移到主流部署,以实现下一代高峰性能服务器支持AI和其他密集工作负载的交付。戴尔的智能冷却已经在帮助许多PowerEdge客户提高他们的整体服务器冷却、能源效率和可持续性。来戴尔科技世界PowerEdge博览会区域与冷却专家交谈,或向您的账户团队请求与数据中心冷却主题专家的会话。

1 基于戴尔热团队在2024年1月收集的数据使用的内部建模。

关于作者:Travis Vigil

Travis Vigil是负责戴尔基础设施解决方案集团(ISG)产品组合和产品管理的高级副总裁。他和他的团队负责戴尔的服务器、存储、数据保护、CI/HCI、网络和解决方案业务。他在技术公司,包括英特尔和戴尔拥有超过20年的产品管理、市场营销和商业运营经验。在戴尔之前的职位中,他担任负责存储和数据保护产品管理的高级副总裁,以及专注于戴尔服务器、存储和网络业务运营的高级副总裁。

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5599
内容数
252
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息