世界上最快的超级计算机有多快?
最近,国际超算大会公布了第 59 届 TOP500全球超算排行榜单,来自美国橡树岭国家实验室 (ORNL) 的Frontier系统以1.102 Exaflop/s的实测性能,成为世界上第一台打破百亿亿次计算瓶颈的超级计算机,也成为了世界上最快的超级计算机。值得一提的是,这款采用了64核心的第三代AMD霄龙处理器,而除了排名第一的Frontier系统之外,本届榜单中的前十套系统中有5套都使用了AMD平台。
这是AMD平台近年来赢得的最高殊荣。事实上从2017年推出的霄龙处理器开始,AMD在业界的认可度也随之提升,特别是2019年发布的第二代AMD霄龙处理器Rome也让整个行业对AMD刮目相看。时至今日,AMD霄龙处理器已经进化到了代号为Milan的第三代,也正是这款产品解决了HPC行业长久以来的“E级难题”,让我们真正迈向了百亿亿次的算力时代。从这个角度来说,Milan处理器具备了划时代的意义,也证明了算力应用上的领先性。
不仅如此,AMD也在积极打造自己的“朋友圈”,搭建自己的生态合作伙伴体系。时至今日,许多服务器大厂都推出了基于AMD平台特别是Milan处理器的服务器平台,这其中尤以戴尔与AMD的合作关系最为密切,两家有着深厚合作的历史。在戴尔推出的15G产品家族中,有6款服务器都基于AMD平台,也将算力服务能力提到了新的层级。
全新一代AMD霄龙处理器带来算力新提升
对于处理器来说,生产工艺是决定性能的重要因素之一。第三代AMD霄龙处理器采用的是目前业内主流的7nm制程,也是x86处理器平台的领先工艺。其实早在2019年发布第二代Rome处理器的时候,AMD就使用了7nm这一工艺,这次沿用到第三代平台也证明7nm技术已经非常成熟。正是得益于先进制程工艺,第三代霄龙处理器也可以提供高达64个计算核心,并且支持超线程,最高可达128个,是目前x86平台的最高水平。
在第二代霄龙处理器架构上,每个CCD(Core Chiplet Die)由两个CCX(CPU Complex)组成,每个CCX包括4个核心与各自独立的L1和L2缓存,以及共享的16MB L3缓存,实际上每个核心实际上能够直接访问的L3缓存为16MB。但在第三代霄龙处理器中,每个核心都可以直接访问所有的L3缓存,即32MB直接访问L3缓存,更大的缓存意味着更好的性能。
尤为值得一提的是3D Chiplets (3D V-Cache)技术的引入,通过3D Fabric先进封装实现了缓存容量的巨大提升,进而实现了应用加速。我们知道,随着半导体工艺节点越来越接近物理极限,每一代工艺带来的收益提升也在不断递减,这就势必需要从其他领域实现突破;而3D V-Cache技术就是在传统芯片的平面上实现了双层堆叠,使得每个CCD芯片上堆叠64MB SRAM作为额外的三级缓存,加上原本就有的最多64MB,合计达192MB,这就在处理器内部打造了“海量缓存池”。甚至根据官方资料显示,每插槽的缓存数量最大可以实现804MB,这让人惊掉下巴的数字无疑大大提升了处理效率。
从整个业界来看,提升缓存与内存能力是提升性能最直接、最有效的方法——相对于其他替代方式来说,AMD 3D V-Cache技术最大的特点就是在提升高密度互联的同时能够将通信延迟尽可能降到最低,从而在原有7nm工艺上让性能向前迈了一大步。这种大缓存改进也对应用产生了积极影响,在科学计算中表现得尤为明显,无论是有限元分析、结构分析、计算流体力学还是电子设计自动化模拟等应用中,超大缓存都可以带来更快的计算速度,也让运算变得更加高效。
全新设计定位高性能计算,戴尔6大产品重拳出击
世界冠军同款算力,戴尔服务器让HPC应用更高效
刚刚我们提到,戴尔在全新一代的15G系列服务器平台中提供了对于Milan处理器的支持,其中有不同形态的6款服务器产品,他们是面向常主流应用的1U规格R6515和R6525、2U规格的R7515和R7525,还有C系列高密度服务器的C6525和专为GPU应用优化的XE8545。
得益于Milan处理器的全新升级,新平台在性能表现、扩展能力、安全加密等方面都有了不同程度的提升,也能更好应对高性能计算对于算力密度、缓存与内存容量、GPU加速能力等多元化的需求。除了这些,15G系列服务器本身也融入了戴尔的“黑科技”。
散热能力是15G系列产品优化的第一个方面,官方称之为,Dell Multi Vector Cooling 2.0。这不仅仅是增加几个风扇或者调整风扇强度那么简单,而是需要服务器架构层面的全新设计。其实加强散热,降低耗电,提升能效比也是当下数据中心关注的核心问题,如今北京、上海、深圳等许多一线城市都要求新建数据中心的PUE降低到1.3以下,而服务器作为数据中心的能耗大户,自然也是首当其冲。
为了达到节能效果,工程师们对15G系列产品的散热风道采用了全新设计,进一步简化了服务器内的气流通路,可以将空气引导到机箱内需要的地方,比如发热量较高的处理器、内存、加速卡等位置,这样就实现了更好的散热效果。优化风道的好处还在于可以响应降低散热风扇的转速,从而进一步降低服务器的能耗和产生的噪音。
当然只有风冷散热是远远不够的,在越来越追求低碳节能的今天,许多服务器都采用了液冷设计,对于这一点戴尔也是当仁不让。其实早在几年前,戴尔就推出了整机柜的液冷解决方案,而更普及化的冷板式液冷如今已经能够被大众所接受。对于15G系列产品来说,戴尔采用LeakSense技术的被动CPU冷却,集中泵送架构管理液体流量,这样可以实现双路处理器的同时散热,更好的支撑数据中心绿色节能需求。
除了节能,供电效率也是服务器低碳应用的焦点,毕竟数据中心动辄就是成百上千台服务器放在一起,1%的电源转换效率提升都能带来巨大的能源节省。为了让每一度电都能发挥最大价值,戴尔15G系列服务器使用的电源效率最低为92%,并允许用户利用iDRAC为平台设置电流限制,并允许OME电源管理器管理组级(rPDU和机 架)的电流限制。从金牌到白金再到最高级别的钛金,戴尔提供给用户多种选择,也将电源转换效率提升到业界最高的96%。
作为一家有社会责任感的跨国巨头,戴尔不仅在低碳节能方面做出了贡献,包括节能环保领域,戴尔也是身体力行。其实对于服务器这类设备来说,内部会采用大量的塑料制品,比如各种部件的导风罩和人性化卡扣,而戴尔服务器内使用的黑色塑料部件中,就有高达30%都是来自再生树脂(回收塑料),这无疑也是为减少海洋和空气污染做出了贡献。同时戴尔也承诺,不再在服务器前端、硬盘托 架和后端手柄上使用油漆,这看似简单和微小,但考虑到戴尔世界排名领先的出货量,积少成多依然是不小的贡献。这也正应了古人的智慧——勿以善小而不为。
除了深耕产品、夯实技术,为用户提供更好的服务器平台之外,戴尔在推动高性能计算产业发展、携手合作伙伴共同进步方面也在持续努力。其实早在15G系列产品之前,戴尔服务器就已经广泛应用于高性能计算的诸多领域,还与中国科学院联合打造了“人工智能与先进计算联合实验室”、与中科院自动化所携手打造企业级深度学习应用与服务平台“诸葛深知”,助力中国科研产业的创新发展,为中国企业提供强大的算力支撑。
北京超级云计算中心曾经两次获得中国HPC TOP100冠军的殊荣,这背后同样得益于戴尔AMD服务器平台的强力支撑——戴尔为北京超级云计算中心提供了近3000台基于AMD架构的服务器。“我们选择戴尔的首要原因就是能够为我们提供非常丰富的产品线,产品具备的高可靠性,能够满足超算高强度、大负荷、长时间运营对于可靠性的要求。通过与戴尔这样具有成熟硬件供应链体系以及完整科技产品与技术的供应商合作,北京超级云计算中心得以将通用超算的算力普惠给更多的企业和科研机构”,在谈到戴尔平台的优势时,北京超级云计算有限责任公司首席技术官郭宇如是说。
从强悍性能平台到全新能效应用设计,基于第三代AMD霄龙处理器的戴尔15G服务器平台带给我们太多惊喜,也为高性能计算产业带来了更好的选择。伴随着行业应用的逐步展开和生态伙伴的大力支持,戴尔服务器在HPC应用中已经占据了举足轻重的地位,也帮助越来越多的中国企业加速数字化的脚步,真正践行了“在中国,为中国”的战略。