E企研究院 · 2020年07月03日

多样计算塑造未来 鲲鹏HPC应用如何加速?

在科技领域,超算不仅是新技术的引领者,也是早期应用的引领者,刚结束不久的ISC 20的主题是 “塑造未来(SHAPING TOMORROW),在拓展科学认知的同时,帮助解决与每个人息息相关的社会、经济、民生等紧迫问题。

这就说明超算正从过去主要以科学计算为主,逐渐往新兴的大数据、人工智能以及深度学习等方向演进,AI+HPC融合加速。

随着人工智能、大数据融合发展,“高精尖”的超算开始逐渐商业化,在医学、能源勘探、天气预报、生命科学、基因分析、游戏视频制作、电力、教育、工程、政府决策、互联网服务等众多领域加速推进,也促使超算产业的软硬件协同和生态发展加快。

多元架构、多样性计算时代来临

一直以来,HPC是计算的明珠、产业的金字塔尖。

在今年的TOP500排名中,基于ARM架构的超级计算机 “富岳”系统荣登榜首,以Linpack实测性能415.5PFlop/s、理论峰值514PFlop/s 的成绩正式登顶,性能较排名第二位的Summit系统提升了近3倍,成为ARM芯片发展乃至市场化的一个重要的里程碑。
随着应用场景的多样性带来数据的多样性,没有一个单一的计算架构能够满足所有场景、所有数据类型的处理,应用变化使数据发生根本性变化,数据种类不同,处理和分析数据的算力不也不同,从异构计算到支撑AI高速发展的暴力计算、从泛在计算,到数据在流动中并行高效联动的端边云协同计算,要整合这几股力量、充分发挥计算价值,需要一个能够支持全场景计算的新架构。

可以看出,多种计算架构并存是未来计算的发展之路,提供多样性算力帮助客户适应更多应用和业务,在计算领域持续创新,致力于解决困扰算力大发展的痛点,华为在计算领域18年分三条主线持续投入:x86计算、AI计算、鲲鹏计算。

在鲲鹏计算领域,华为 2004年面向终端推出K3型号的处理器, 2009年将ARM引入无线网络的基站,2017年推出了ARM64的TaiShan 100服务器。

不久的将来,随着整体的联接数增加,海量的数据需要接收存储分析,需要高并发、高性能、高能效、高吞吐的算力,数据中心需要鲲鹏算力。

面向大数据、分布式存储、原生应用、高性能计算和数据库等应用领域,华为去年发布了TaiShan服务器的五大解决方案,为客户带来新一轮的算力加持,提供高性能的硬件加灵活的软件综合解决方案促进HPC的落地。
AI+HPC融合加速 AI计算驱动落地

在2020年TOP500新增的用于衡量超算系统的机器学习应用性能的HPL-AI排名上,富岳的峰值性能达到1.45EFlop/s,同样位列第一。投入使用后,在RIKEN选定的9大目标应用中,富岳系统的性能与其前任系统“京”相比,最高将提升100倍。

这也意味着,AI成为HPC应用的新领域,尤其本届ISC大会专设主题为“Covid 19 & HPC/AI”的讨论会,重点分享美、日、欧等国家和地区利用最新的HPC,AI技术对抗Covid 19的经验与成果,全球超算总动员共抗疫情。

在AI融合超算的趋势下,征战HPC多年的华为的竞争力凸显,以AI计算为例,Atlas 900集群的产品技术创新使得AI+超算的步伐加快。
Atlas 900集群不仅提供了有最强的算力,关键整合了HCCS、PCIE4.0和100G RoCE这三种高速接口,使得集群这一块系统级的能力得到巨大的提升。在系统级能力提升了以后,集群的算力可以达到256P到1024P,相当于50万台PC的算力。

同时,Atlas 900训练的集群也达到极致的能效,其中AI的集群PUE指数,能效指数低于1.1,去年E企研究院举行的“数字中国万里行”活动中,参观华为云计算松山湖数据中心时可以看到,华为云东莞松山湖数据中心一期工程使用了160个预制的模块,在13天时间之内就组装完成了一栋5层建筑,具有8MW IT容量,可容纳约1000个机架,每个机架可安装20台2U标准服务器,总计可达2万台服务器。

这样的前瞻设计基于华为全液冷的解决方案,可以大量节省机柜,降低能耗。比如在256P、FP16算力提供的时只需要16个机柜的Atlas,但功耗只有36千瓦,可以这样来比较:如果用现在传统的GPU模式可能需要208个机柜、1352千瓦的功耗。如果是用通用计算的x86去组这个算力,可能需要6195个机柜、消耗40268千瓦的功耗。

现在,Atlas 900驱动人工智能快速落地,比如计算机视觉、自然语言、自动驾驶、智慧城市、智慧医疗等各种基础研究和探索和应用。

举个简单的例子,在衡量AI计算能力的金标准ResNet-50模型训练中,Atlas 900用时59.8秒完成训练,比原来的世界纪录快了10秒。在人类探索宇宙给你时,Atlas 900用时10秒从一张有20万颗星星的星空图中找出某种特征的星体。在此之前,做同样的事情,天文学家大概要耗费169天的工作量。
全栈优化 鲲鹏使能 加速HPC应用

推动HPC应用,让HPC用的好,让所有的软件在HPC系统上跑起来,跑得效率高,这需要全方位的方案支撑。

如何加强在硬件、软件和基础架构方面的优化?华为持续在HPC软硬件领域创新迭代;在创新计算架构的同时,持续进行软件优化,再加上鲲鹏凯源生态的加持,华为构建完整的生态。

HPC 应用对计算速度有着极高的要求,这意味着这类集群在系统的处理器、内存带宽、运算方式、I/O、网络等方面也都要追寻性能方面的极致。

华为由各个领域的科学家、软件开发专家基于各自领域的算法,对求解方法进行创新,并采用不同的编程模型,让鲲鹏 HPC 更好地服务于各行各业,长期在以下三个领域坚持投入:

平台层:计算系统(x86、TaiShan)、下一代 NAS 存储系统、网络互联(低时延技术);

中间件:华为 MPI、工具链、集群管理、作业调度;

上层应用:气象 & 海洋、制造、计算化学、生命科学、油 & 气、AI 等领域。

以制造仿真、气象预测和基因测序等典型的高性能计算应用为例,它们无一例外均需要计算节点具有较大的内存带宽能力。基于鲲鹏处理器业界领先的8通道内存技术,TaiShan服务器能够提供高出业界33%的系统内存带宽,进而发挥TaiShan多核、高并发的算力优势。
与此同时,华为已经为TaiShan服务器构建了完备的鲲鹏HPC软件栈,涉及了底层工具软件和管理软件,包括受业内关注的 MPI 和调度器,华为TaiShan服务器支持常见的NFS、Lustre、BeeGFS文件系统,其计算节点上使用的存储客户端和X86节点的存储客户端是完全兼容的,可以无缝接入到现有HPC集群中,能够为用户带来调度管理、存储共享等层面的上佳体验,能够帮助客户快速部署高性能计算应用环境,统一进行鲲鹏HPC集群的高效管理,携手合作伙伴化解了商业、医疗、科学等领域最为艰巨的挑战。
对HPC客户而言,全栈解决方案是现在,而生态则是未来。
鲲鹏计算平台使能HPC领域后,这种能力便通过组织架构高效地转化出了成果,在行业伙伴、产业发展、开发者生态领域全面发力,目前,OpenHPC是完整的HPC开源软件堆栈在华为TaiShan服务器上已经过全面测试。
截屏2020-07-03 下午10.31.14.png

华为通过和众多HPC应用软件提供商和开源社区展开合作,可以携手客户和合作伙伴投资于代码迁移,优化和基准测试的技术资源,同时联合投资OpenLab,用于代码迁移优化和基准测试的技术资源,与客户和合作伙伴共建开源/内部应用程序迁移的联合实验室,让业界广泛使用的HPC商用及开源软件陆续成功地移植到了鲲鹏计算平台上,加快HPC民主化脚步。

推荐阅读
关注数
5032
内容数
335
E企实验室由E企研究院专职产品技术分析师针对数据中心、云计算、AI和5G等领域最新技术和应用研究、验证、试用、分析,数据中心级新产品新技术的市场教育,国内唯一同时研究互联网和传统企业IT基础设施的机构和部门
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息