企业存储技术 · 2022年02月23日

下一代HPC:内存为中心的开放组合式硬件

接前文:《AMD EPYC Genoa ‘7004’:若DDR5换OMI,CXL.mem服务器内存池化
OMI串行内存 (续):当POWER10遇上OCP-HPC & OAM

image.png

今天的内容,来自我对NALLASWAY分享《HPC - The Next Generation Data (Memory) Centric HPC with Open Composable Hardware》的学习笔记。

Exascale HPC的计算和存储挑战

image.png

以上列出的几套HPC超级计算机都在美国,并且它们有共同的特点——Heterogeneous w/blurred Storage/Memory Boundaries(异构并且带有界限模糊的存储/内存组合),即除了传统DRAM系统内存、GPU内存(显存)之外,可能还有HBM高带宽内存、持久化内存

这些HPC的拥有者,来自三家著名实验室——ALCF(阿贡国家实验室)、NERSC(国家能源研究科学计算中心,位于劳伦斯伯克利国家实验室)和OLCF(Oak Ridge National Laboratory,橡树岭国家实验室)。其中OLCF的Summit由IBM建造,当前排在全球Top500算力榜第2位;NERSC的Perlmutter由HPE(也就是收购的Cray)建造,使用了AMD EPYC + NVIDIA A100。

我在前文中提到过,未来的2套Exascale(百亿亿次级)HPC系统IBM都出局了。OLCF的Frontier将基于AMD EPYC CPU + Radeon Instinct GPU,存储的文件系统为Lustre;ALCF的Aurora则采用下一代IntelXeon(Sapphire Rapids CPU + Xe Ponte Vecchio GPU),存储采用DAOS(分布式异步对象存储)。它们除了浮点算力将达到1 EFlops之外,整体功耗也比以前有较大提高,相比Summit的Peak Power 10 MW(兆瓦),Frontier和Aurora分别将达到29 MW和<=60 MW。
image.png
我们先从橡树岭的Summit来看看今天HPC的计算和存储挑战。从文件系统加载2.8PB数据到内存一次需要18分钟,通过计算机架向全部250PB文件系统推送一遍数据需要1.2天,这还是在GPFS文件系统存储总带宽达到2.5TB/s的情况下。因此,需要将计算、内存和存储更加“接近”(让内存更贴近计算)。

注:Summit集群一共还配备有7.4PB的持久化内存,用途只是为了Chenkpoint重启恢复。

OCP HPCM:高密度模块的功率和液冷需求
image.png
由OCP提出的HPCM(高性能计算模块)我在前面2篇中已经给大家介绍过,它有一个要求——处理器必须使用HBM或者拥有串行连接的内存,因为这个架构无法使用传统的DIMM内存模组。

扩展阅读:《CXL、GenZ、CCIX架构以及未来的PM、内存和SSD形态
数据中心NVMe SSD和EDSFF前瞻:来自Intel、HPE、Dell& SNIA等

HPCM设计主要的好处是:模块化、灵活和可组合的模块——并且是协议无关的(也就是异构)。

在HPCM今天支持的处理器列表里,我们看到有NVIDIA Ampere、Google TPU、IBM POWER10、Xilinx和Intel的FPGA、GraphcoreIPU,以及PCIe和以太网Switch交换机。带有一大堆插槽的方向是它的背面(主处理器在正面),内存可以通过OMI串行接口连接,EDSFF(E3.S)也可以扩展内存、SSD或者SCM等,此外还有OCP NIC 3.0网卡。

由于Sapphire Rapids将提供带有RAMBOCache(HBM)的版本,我理解如果Intel未来想支持HPCM应该不难?都说一流的公司做标准,EDSFF和CXL这两大Intel主导的标准,都已经用在HPCM中了。
image.png
高密度模块还有个好处——减少导线长度带来的功率损失(电阻)。如上图,从处理器的Die引出到达E3.S模块上的ASIC芯片,只有不到5英寸。这样有机会降低PHY通道信号强度5-10dB,发热量1-2pJ/bit。
image.png
高功率密度的HPCM模块,需要重新设计冷板式液冷架构。为了节约占地空间、提高PUE能源效率,液冷用于高性能计算集群早已不新鲜,比如我在几年前写过的国产超算神威太湖之光也是液冷散热的。上图可以看到HPCM用于处理器一面的巨大散热片,以及蓝色和红色的冷热水管/水路设计。
image.png
在之前的文章中我有一点可能搞错了——HPCM模块背面的高密度I/O模组,单纯风冷散热估计也不太容易搞定。从上面列出的水管走向布局就可以看出这个。
image.png
上图应该是molex的散热仿真系统(模拟在OCP OAI机箱内),一共排列了4x4=16个HPCM模块。当朝上的“背面”都插满E3.S和NIC 3.0模块,这个密度不是一般的存储服务器或者大内存系统可比吧。
image.png
这里提到的POC/Demo,就是开发一组小型HPCM模块可以/需要包含的部分:

-1个CPU——带有串行内存——Power10 HPCM(注:AMDEPYC4还没有正式发布)
-1个GPU——带有HBM板载内存——AMD MI200 HPCM
-1个FPGA——支持所有IO类型——Xilinx Versal VP1802 HPCM
-1个Switch——PCIe/CXL或者以太网——Microchip或Broadcom?
-1个AI处理器——带有HBM或者串行内存?

大家注意到共同特点了吧?前面我也提到过,在各种HPCM当中,除了用于数据交换的Switch模块之外,所有处理器都需要本地/近端内存。

Summit超算节点升级:POWER10+ Xilinx FPGA
image.png
如果我没理解错的话,橡树岭的Summit应该也会有节点上的升级。(欢迎大家指出文中错误,在下面留言)
image.png
Summit应该是2018年完工的,曾经有2年排在HPC Top500榜首吧。上图中绿色的连线代表NVIDIA V100 GPU的NVLINK——GPU之间互连很好理解,而从Power9 CPU连接GPU的NVLINK通道其实我以前也写过(这部分NVLINK也可以配置为OpenCAPI)。
image.png
上图是基于POWER10和FPGA的Summit节点,AI/ML大数据型配置——可达56TB内存@8TB/s带宽

在一个OAI机箱内,有2个IBM POWER 10单芯片CPU HPCM模块,和6个Xilinx VP1802 FPGA HPCM模块。CPU和FPGA之间主要通过OpenCAPI连接,另外也有PCIe Gen5;在FPGA之间有一种x4 56G Generic(绿色)和另一种32G Generic(紫红色)互连,加载一起算是做到了点对点网状连接吧。

内存部分,每颗POWER10的HPCM上可以安装4TB OMI内存;每颗Xilinx FPGA则可以配置8TB OMI内存。如果不差钱,这个异构系统的内存可以全部由POWER来管理调度。
image.png
我分享的这份资料中,也有POWER10的HPCM示意图,由于前文中列出过就不重复了,下面重点看Xilinx VP1802。

如上图,蓝色的连接代表FPGA的PCIe G5通道(硬IP),而黄色的则是可配置的软IP——可以是以太网(最高112G/txr)、OMI或者PCIe/CXL等。
image.png
具体到Summit节点中Xilinx HPCM的用法,FPGA的软IP I/O通道被配置成了32 x4=128 OMI Lanes——用来连接最大512GB的双OMI通道DDR5内存模组,也就是8TB Max Near Memory。
image.png
上图为512GB DDR4 双OMI E3.S内存模组的参考(DDR5还没量产吗?)。2个Microchip OMI Buffer芯片提供双x8或者x4通道,双面总共72个颗粒具备ECC支持。

百亿亿级超算Frontier:AMDEPYC4 + MI200 GPU + Xilinx FPGA
image.png

最后,我们再来看看橡树岭下一代的Frontier Exascale超算。AMD的基本架构图可能有些朋友见过了,结合下面的资料,我判断上图中刀片容纳的是2个单AMD EPYC CPU的服务器节点。
image.png
看下这张图,大家明白AMD为什么要收购Xilinx了吧:)

这里列出带有GPU和FPGA的Frontier节点,同样是针对AI/ML大数据的配置。“OCP Server”刀片机箱中是AMD EPYC Genoa CPU,与OAI机箱之间通过PCIe Gen5/CXL/xGMI直通/交换连接。

具体到OAI机箱内部,4颗AMD MI200GPU HPCM之间是AMD自己的xGMI(Infinity Fabric)互连,GPU与右边4个Xilinx FPGA HPCM之间是否有更多连接还不确定?FPGA在这里最大的作用可能是扩展内存——具体到AI/ML计算到底由FPGA还是GPU来做我也说不准?FPGA HPCM上配置的OMI内存倒是可以通过CXL共享给CPU一致性访问

思考题:AMD EPYC4为什么不放到OAI机箱的HPCM模块上?(我曾经写过该CPU支持OMI的可能)

答案:按Frontier节点的设计,AMD CPU本地内存使用相对廉价的传统DDR5而不是OMI,这样就无法支持HPCM模块(原因我在上文中反复提过了),不过好处应该是性价比相对POWER好一点
image.png
可能是由于AMD MI200 GPU公开的资料还有限,上面像是一张临时修改出来的图——从OAM模块迁移到HPCM。已经确定的4条I/O就是连接到CPU和另外3颗GPU的x16 Infinity Fabric(也可定义为PCIe)。

就写到这里吧,希望大家看了有点用:)

参考资料 https://pan.baidu.com/s/1StGWB5UqmKypcE2YOAqlOg?pwd=t4sg
提取码:t4sg

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏
推荐阅读
关注数
5552
内容数
235
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息