E企研究院 · 2020年10月14日

东方超算白洋:大缓存、多核心如何匹配计算材料学场景应用?

超算在现代科学研究中的地位愈加重要,从应用融合的角度来看,高性能数据分析和人工智能技术等新兴技术的发展为超级计算机研究方法带来了跨越式的革新。
1.jpeg

东方超算CEO白洋

如何让超级计算更加智能化,让超算应用更加便捷?这是北京东方超算科技有限公司(以下简称东方超算“ChinaHPC”)的使命,作为超算领域的新生代,东方超算成立于2013年,创始团队来自于北京市计算中心和中国科学院超级计算中心,是全球先进的超级计算机研发、制造和运营商,将大数据、人工智能和超级计算应用融合一体,面向政府、行业和学术领域提供先进的超级计算机和服务支持。

2.jpeg

在东方超算CEO白洋看来,传统模式为三类场景,独立建设、流程式、顺序式处理数据,而现在通用的超级算平台可以同时承载高性能数据分析框架和人工智能深度学习框架,可以连通数据孤岛,避免重复建设分散独立的业务系统,让应用实现弹性的、可扩展的大规模分布式并行计算。

3.jpeg

上图为超级计算机应用的横向融合框架,AI算法基于海量数据,底层需要大数据框架和文件系统的支持。AI框架使用MPI实现分布式计算、深度学习计算任务通过超级算平台的作业调度系统,如slurm、lsf进行统一的调度。

4.jpeg
东方超算CEO白洋将融合应用的超级计算平台,命名为超级大脑,框架定义为四层,底层由通用的高性能计算平台构建,系统层基于标准的Linux 系统,相对传统的物理节点供给,同时还引入了容器技术,来运行复杂的应用场景,在平台层,左侧为经过优化和迁移的大数据框架,右侧部分为传统的高性能计算应用,通过应用的融合,就可以支持高性能数据分析,高性能计算和人工智能复用一套基础设施。

5.jpeg

通过这样的超级大脑框架,超级计算将变得更加智能化,传统的高性能计算平台仅实现了建模、计算和分析,而现在则可以将大量的模型和数据进行训练,得到数据库和推理模型,当拿到用户新的模型后,通过分析和推理,可以直接给出经验数据,这将节省大量计算资源和等待时间,对基础研究创新产生巨大的作用。
7.jpeg

以典型的应用计算材料学为例,白洋介绍了 AMD EPYC 7532霄龙处理器在该领域的应用实践。计算材料学(Computational Materials Science),是材料科学与计算机科学的交叉学科,是关于材料组成、结构、性能、服役性能的计算机模拟与设计的学科,是材料科学研究里的“计算机实验”。它涉及材料、物理、计算机、数学、化学等多门学科。这里列举了一些主流的应用软件,如VASP,LAMMPS、NAMD、GROMACS、Materials Studio、Gaussian等,以应用广泛的Lammps为例,LAMMPS可以支持包括气态,液态或者固态相形态下、各种系综下、百万级的原子分子体系,并提供支持多种势函数,并且LAMMPS有良好的并行扩展性。分子动力学所涉及到的领域,LAMMPS代码也都涉及。

8.jpeg

AMD EPYC 7532霄龙处理器,具有大缓存、多核心的硬件参数特征,与lammps良好的并形扩展、计算过程内存占用较少的应用特征匹配。

在此测试环境中,使用的服务器为超微双路AMD平台,配置两颗AMD霄龙7532 处理器,整机一共64核心,512MB缓存,为了严格测试lammps的并行扩展性,东方超算将运行频率锁定在了基础频率2.4GHz,但在实际生产环境中,推荐设置为睿频模式,“获得”额外的应用加速;内存配置了16条32GB DDR4 3200MHz ECC REG内存,满配16个内存通道;硬盘配置两块1.6TB U.2 SSD。

测试的软件环境,操作系统采用CentOS Linux release7.7.1908 (Core) 3.10.0-1062.el7.x86_64,编译器采用icc version19.1.2.254 (gcc version 4.8.5 compatibility),并行环境采用Intel MPI2020.2版本,应用软件部署lammps最新发布的2020年3月3号版本,应用算例采用lammps安装路径bench目录下的in.lj原子流体模型。

9.jpeg

测试方法,分别执行32核心/64核心并行规模运算

1、观察运行过程缓存/内存使用情况

2、根据32和64核心并行规模和完成时间,得到计算并行效率

首先运行的是32核心,也就是单颗处理器下的LAMMPS性能,完成整个测试耗时约2分05秒。同时在测试过程中,每个测试线程使用了约8MB缓存,32核心线程共计使用约256MB缓存,约等于EPYC 7532的L3缓存容量。

通过Linux系统的“top”可以看到,CPU的占用率几乎为100%,但内存的实际占用率几乎为0,EPYC 7532的L3缓存了所有数据,缓存命中率100%,这使得整个测试几乎不需要外部的DDR4内存,让性能达到最佳状态。

在测试完32核心状态下的性能之后,接着测试64核心(两颗处理器)下的LAMMPS性能,整个测试耗时约1分07秒。每个测试线程占用约6MB缓存,共计使用了约400MB缓存,同样小于两颗EPYC 7532处理器的L3缓存之和512MB,也不需要额外的DDR4内存。

对比上一个测试结果可以看到,在LAMMPS测试中,处理器核心数量增加了一倍,测试所需的时间几乎降低了一半,这一方面证明LAMMPS具有很好的横向扩展能力,同时也进一步证明了AMD的EPYC 7532处理器具有很好的性能,随着使用核心数量的增加,其性能也能随之增加。

关于AMD EPYC 32核在具体的应用场景的巨大优势和独特价值先介绍到此,随着超算技术开始向产业渗透,东方超算将不断落地超算技术,通过创新方案满足客户大数据分析、科学计算以及人工智能等需求,服务更多客户。

推荐阅读
关注数
5021
内容数
335
E企实验室由E企研究院专职产品技术分析师针对数据中心、云计算、AI和5G等领域最新技术和应用研究、验证、试用、分析,数据中心级新产品新技术的市场教育,国内唯一同时研究互联网和传统企业IT基础设施的机构和部门
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息