麦斯科技 · 2021年11月21日

(新闻)仍在等待Exascale:日本的Fugaku再次超越所有竞争对手

https://top500.org/news/still-waiting-exascale-japans-fugaku-outperforms-all-competition-once-again/

德国法兰克福;加州伯克利;田纳西州诺克斯维尔——第58届年度500强排行榜的前10名变化不大。名为Voyager-EUS2的Microsoft Azure系统是唯一一台撼动排行榜榜首的机器,排名第10。基于48核2.45GHz的AMD EPYC处理器,配合NVIDIA A100 GPU和80 GB内存,Voyager-EUS2还利用Mellanox HDR Infiniband进行数据传输。

虽然前10名中的系统位置没有其他变化,但NERSC的Perlmutter将其性能提高到70.9 Pflop/s。位于劳伦斯伯克利国家实验室的帕尔穆特,其不断提高的表现并不能使其摆脱之前的第五名。

Fugaku继续保持着它在2020年6月首次获得的排名第一的地位。其HPL基准分数为442 Pflop/s,比排名第二的Summit高出3倍。安装在日本神户理研计算科学中心(R-CCS),由Riken和富士通共同开发,基于富士通定制的ARM A64FX处理器。Fugaku还使用富士通的Tofu D互连在节点之间传输数据。

在机器学习和人工智能应用中经常使用的单精度或进一步降低的精度中,Fugaku的峰值性能高于1000 PFlop/s(1 Exaflop/s)。因此,Fugaku经常被介绍为第一台“Exascale”超级计算机。

虽然也有报道称中国的一些系统达到了Exaflop级别的性能,但这些系统都没有向500强提交HPL结果。

以下是前10名中的系统摘要:

  • Fugaku仍然是第一大体系。它有7630848个核心,这使它能够实现442 Pflop/s的HPL基准分数。这使它比排名第二的系统领先3倍。
  • Summit是IBM在美国田纳西州橡树岭国家实验室(ORNL)建造的一个系统,它仍然是美国最快的系统,在全球排名第二。它在HPL基准上的性能为148.8 Pflop/s,用于排名前500名。Summit有4356个节点,每个节点包含两个Power9 CPU,每个CPU有22个内核,六个NVIDIA Tesla V100 GPU,每个CPU有80个流式多处理器(S.M.)。这些节点通过Mellanox双轨EDR InfiniBand网络连接在一起。
  • 美国加利福尼亚州劳伦斯·利弗莫尔国家实验室的Sierra系统排名第三。其架构与#2系统峰会非常相似。它由4320个节点组成,带有两个Power9 CPU和四个NVIDIA特斯拉V100 GPU。塞拉利昂实现了94.6 Pflop/s。
  • Sunway 太湖之光是由中国国家并行计算机工程与技术研究中心(NRCPC)开发的系统,安装在位于中国江苏省无锡市的国家超级计算中心,以93 Pflop/s名列第四。
  • 去年6月,排名第五的Perlmutter被新列入前十名。它基于HPE Cray“Shasta”平台,是一个异构系统,具有基于AMD EPYC的节点和1536个NVIDIA A100加速节点。Perlmutter将其性能提高到70.9 Pflop/s
  • Selene目前排名第六,是一款安装在美国NVIDIA内部的NVIDIA DGX A100 SuperPOD。该系统基于AMD EPYC处理器,NVIDIA A100用于加速,Mellanox HDR InfiniBand作为网络。达到63.4pflop/s。
  • 天河-2A(MalkyWay-2A)是中国国防科技大学(NUDT)在中国广州国家超级计算机中心开发的一个系统,目前已被列为第7系统,具有61.4个PFLop/s。
  • 一个叫做“JUWELS Booster Module”的系统是第8号。Atos建造的BullSequana系统安装在德国的Forschungszentrum Juelich(FZJ)上。该系统使用AMD EPYC处理器和NVIDIA A100进行加速,并使用Mellanox HDR InfiniBand作为类似于Selene系统的网络。该系统是欧洲最强大的系统,具有44.1 Pflop/s。
  • 排名第9位的HPC5是一个PowerEdge系统,由Dell建造,由意大利公司Eni S.p.a.安装。由于使用NVIDIA Tesla V100作为加速器,使用Mellanox HDR InfiniBand作为网络,因此其性能达到35.5 Pflop/S。
  • Voyager-EUS2是安装在美国Microsoft的Microsoft Azure系统,是前10名中唯一的新系统。它达到了30.05 Pflop/s,排名第10位。该体系结构基于AMD EPYC处理器,具有48个内核和2.45GHz,与具有80 GB内存的NVIDIA A100 GPU协同工作,并利用Mellanox HDR Infiniband进行数据传输。

其他500强亮点

虽然前10名没有太多变化,但我们确实看到了前15名中的一些变化。微软新的Voyager EUS系统紧随其兄弟进入了第11位,而三星的SSC-21系统也进入了第12位。Polaris也是一种新系统,排在第13位,而新的CEA-HF排在第15位。

与上一个列表一样,AMD处理器也取得了很大的成功。拥有Xeon Platinum 8280处理器的Frontera被搭载AMD EPYC处理器的Voyager-EUS2撞到。更重要的是,上述所有排名前15位的新机器都有AMD处理器

毫不奇怪,来自中国和美国的系统占据了榜首。虽然中国从186台系统下降到173台,但美国从123台增加到150台。总的来说,这两个国家占据了500强超级计算机的近三分之二。

新版本的列表并没有显示出系统互连方面的多大变化。以太网仍占240台机器的主导地位,而Infiniband占180台。Ominpath interconnects在列表中有40个位置,有34个自定义互连,只有6个系统具有专有网络。

Green500结果

声称Green500排名第一的系统是来自日本首选网络的MN-3。依靠MN核心芯片和针对矩阵运算优化的加速器,这台机器能够实现令人难以置信的39.38千兆次/瓦的功率效率。这台机器在上一个列表中提供了29.7千兆次/瓦的性能,清楚地展示了一些令人印象深刻的改进。它还提高了自己在500强排行榜上的地位,从第337位上升到第302位。

韩国三星电子公司(Samsung Electronics)安装的新型SSC-21可扩展模块HPE阿波罗6500系统达到了令人印象深刻的33.98千兆次/瓦。他们通过提交HPL基准测试的功率优化运行来实现这一点。它在500强中排名第292位。

NVIDIA安装了一个新的液体冷却DGX A100原型系统,名为Tethys。通过功率优化的HPL运行,Tethys达到了31.5千兆次/瓦,并在Green500中获得了第三名。它在500强中排名第296位。

Wilkes-3系统提高了成绩,但仍被推到了绿色500的第四位。Wiks-3位于英国的剑桥大学,其功率效率为30.8千兆瓦/瓦。然而,它在500强排行榜上从第100位上升到第281位。

美国佛罗里达大学的HI-AI系统从2号点被推到5号点。这台机器保持稳定在29.52千兆次/瓦。该NVIDIA系统拥有13880个内核,并依赖AMD EPYC 7742处理器。尽管表现令人印象深刻,HiPerGator AI在500强中还是从第22位上升到了第31位

HPCG结果

TOP500名单中包含了高性能共轭梯度(HPCG)基准测试结果,它为评估超级计算机性能提供了一个替代指标,旨在补充HPL测量。

此处的HPCG结果与上一个列表非常相似。Fugaku以16.0hpcg-petaflops明显获胜,而Summit以2.93hpcg-petaflops保持第二位。劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory)的美国机器Perlmutter以1.91 HPCG PB的成绩名列第三。

HPL-AI结果

HPL-AI基准旨在通过使用利用现代硬件的新型混合精度算法求解线性方程组,强调基于机器学习和深度学习的HPC和人工智能(AI)工作负载的收敛性。

Fugaku的HPL-AI基准为2个Exaflops,在这方面处于领先地位。由于年复一年地拥有如此优秀的指标,再加上许多人认为是第一台“Exascale”超级计算机,Fugaku显然是一个令人兴奋的系统。

推荐阅读
关注数
5756
内容数
525
定期发布Arm相关软件信息,微信公众号 ArmSWDevs,欢迎关注~
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息