IT大嘴巴 · 2021年07月07日

没有靠谱存储,哪来高性能计算?

最近,第57届超算TOP500榜单发布,让高性能计算再次进入了大众视野。

但细心的网友们发现,整个TOP500榜单表格中并没有单独的存储性能介绍,这似乎并不符合大数据如今的“江湖地位”。要知道,即便超级计算机的计算能力再强,即便有上百个核心,但每个核心在执行一个线程的都是外部IO进行访问,而存储设备的性能则会直接影响到这个访问进程的运行效率,读写速度也直接影响到了进程速度。

image001.jpg

换句话说,如果存储性能太慢,所有的核心都会停下来等待读写进程的完成,只有完成了才能进行后续的应用。这也就意味着,高带宽存储可以为超算性能提供更快的运行速度;而带宽越低,超算的性能越难发挥,延迟越高,运行速度越慢。从这个角度来说,存储则是超算系统的关键组成部件。

image002.jpg

“很多人都忽略了这个问题”,周会群说。作为南京信易达计算技术有限公司的首席科学家,周会群从事高性能计算应用研究多年,曾任南京大学地球科学与工程学院教授、江苏省高性能计算学会会长等职务,1992年获国务院特殊津贴,是业内当之无愧的顶尖专家,从理论到应用都能谈得头头是道,说起存储技术更是如数家珍。也正因为如此,周会群非常重视软件系统对于存储设备的作用,而信易达本身就是希望通过软件解决方案为存储应用提供全新的支撑。

在周会群看来,高性能存储支撑的并行文件系统,本来就是超算集群的重要组成部分。伴随着大数据应用的普及,高性能计算存储的重要性也在不断提升。其实早在多年前,科学研究中的数据分析就扮演了重要的角色,许多数据处理或者模型反演事实上就是大数据应用的表现,而如今的大数据应用如果借助于超算平台也会有更快的运行速度和更好的处理效率。

不过他也同时表示,由于高性能对于算力需求的特殊性,许多应用都希望将算力发挥到最大,这样自然也对存储系统产生了巨大的压力。正如我们在最初描述存储重要性时谈到的,存储的速度越快,超算的运行速度就越快,因此如果想要达到最大的性能,除了发挥系统本身的算力之外,还需要一款高效、稳定、可靠的存储系统,尤其是海量存储系统。这时,周会群将眼光落在了希捷Exos AP 4U100平台上来。

image003.jpg

Exos AP 4U100是希捷推出的在单个系统中拥有最高的计算和存储密度的应用与存储融合平台,也是一款具备高可靠、高可用和强大IO吞吐能力的产品。就结构设计来说,它在4U高度的空间内,提供了最大96块3.5英寸硬盘和4 块 2.5英寸硬盘的支持,并采用了2个12G SAS IO控制器实现冗余,提高数据吞吐量。这也开创了当下4U空间内大数据系统设计的先河,在双路英特尔至强可扩展处理的支持下,无论是在TCO能耗还是超高密度上都属于业内领先的水平。

“我们的解决方案需要存储设备具备高性能、高可靠、高可用的特性,而希捷的产品无论是从硬盘、JBOD还是都符合我们的需求,与我们有很高的契合度”,周会群介绍说。也正因为如此,在存储领域复杂的产品形态和品牌竞争中,他选择了Exos AP 4U100这款产品部署信易达的高性能存储解决方案,也是看重了产品本身高带宽、高IOPS的特性所在。

“我们的解决方案不仅仅包括存储,也支持x86和鲲鹏等多元化架构,包括对于以太网、光纤、InfiniBand等规格网络接口的支持,形成了一个超算所需要的存储集群”。换句话说,Exos AP 4U100存储在这套解决方案中起到了核心作用,通过Exos AP 4U100可以实现对于计算、存储、互联等多种功能的支撑,也是组建超算集群必不可少的设备。

对于如此重要的设备,信易达同样也对系统性能进行了深度测试。测试采用双机互备直连的方式进行,软件FIO测试结果显示,磁盘的平均读取带宽为232MB/S,写入带宽为274MB/S;而在另一项网络相关测试中,配置40颗HDD的系统网络吞吐性能分别为5954MB/S和5977MB/S,考虑到采用的是InfiniBand FDR 56GB/s网络,这样的成绩已经非常不错。

如此也印证了周会群对于解决方案“高性能”的需求。当然如果对于那些对于带宽、延迟敏感的用户,信易达也可以提供基于闪存架构的解决方案,但是这与希捷的这款平台并不矛盾——“我们考虑多样性,也就是说不管我们自己设计者怎么想我们这个系统,但是首先很重要的是用户需要什么”。

“从用户出发”是信易达公司多年来服务的宗旨,也正因为如此它也获得了众多用户的信赖和支持。如今,信易达提供的解决方案已经广泛应用在教育、科研、政务、医疗等多个领域和场景中。

*在教育领域中,南京大学、南京信息工程大学、南京邮电大学等高校的院校级超算平台,已经将信易达的解决方案应用于并行文件存储。
在科研领域中,紫金山天文台采用信易达的HPC监控软件进行天体物理相关的研究,从而实现运维管理标准化。
在政务领域中,南京市检察院、郑州财政局等政企单位也应用了信易达高性能、高可控存储平台以支撑核心应用数据库。
除此之外,贵州公路系统也采用了相关的解决方案存储视频监控数据。*

这同时也证明了信易达的高可靠性与高安全性,毕竟无论是科研还是政务,对于数据安全都非常重视。而为了实现数据安全,信易达也在系统架构中实现了深层的数据加密系统,比如某些数据只能通过密码的方式进行调阅,对方可以查看但是不能拷贝数据,这样就兼顾了数据的利用与安全,也得到了用户的高度称赞。
image004.jpg

“用户最终最看重的是服务能力”,周会群表示,而这个服务能力一方面考察的是信易达在技术层面的积累、团队的凝聚力等因素,另一方面也得益于底层基础设施的配合。在希捷Exos AP 4U100平台的支持下,用户只要通过系统界面就能观测到设备的运行状况,并且能够在第一时间得到故障报警;而面向大数据的未来,希捷也提供了包括热辅助磁记录(HAMR)技术和双磁臂技术(MACH.2)等多种“黑科技”,努力打造新一代高性能、大容量硬盘和系统级解决方案,助力更多企业迎接数字化挑战。

后记:以往,当我们提到超算或者高性能计算概念的时候,许多人第一时间关注的就是“计算”本身。但是通过对于信易达公司、对于周会群本人的采访,我们更认识到存储在超算系统中的重要性。如果说计算是系统发展推动力的话,那么存储更多则是起到了“承载”的作用,一方面计算的结果需要储存起来,另一方面存储也负责将这些结果通过网络系统“传递”到其他的设备或集群中,实现数据的协同与备份,这样才能为高性能计算乃至AI计算提供更多保障。

得益于希捷Exos AP 4U100平台级解决方案,越来越多的科研、政务、医疗等客户感受到了数据的价值,也通过数据实现了业务驱动,屹立在数字化转型的潮头。

推荐阅读
关注数
1947
内容数
254
专注开放计算、大数据应用、人工智能、企业数字化转型、云计算等领域产业观察及产学研合作。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息