多样计算塑造未来鲲鹏HPC应用如何加速？

在科技领域，超算不仅是新技术的引领者，也是早期应用的引领者，刚结束不久的ISC 20的主题是 “塑造未来（SHAPING TOMORROW），在拓展科学认知的同时，帮助解决与每个人息息相关的社会、经济、民生等紧迫问题。

这就说明超算正从过去主要以科学计算为主，逐渐往新兴的大数据、人工智能以及深度学习等方向演进，AI+HPC融合加速。

随着人工智能、大数据融合发展，“高精尖”的超算开始逐渐商业化，在医学、能源勘探、天气预报、生命科学、基因分析、游戏视频制作、电力、教育、工程、政府决策、互联网服务等众多领域加速推进，也促使超算产业的软硬件协同和生态发展加快。

多元架构、多样性计算时代来临

一直以来，HPC是计算的明珠、产业的金字塔尖。

在今年的TOP500排名中，基于ARM架构的超级计算机 “富岳”系统荣登榜首，以Linpack实测性能415.5PFlop/s、理论峰值514PFlop/s 的成绩正式登顶，性能较排名第二位的Summit系统提升了近3倍，成为ARM芯片发展乃至市场化的一个重要的里程碑。
随着应用场景的多样性带来数据的多样性，没有一个单一的计算架构能够满足所有场景、所有数据类型的处理，应用变化使数据发生根本性变化，数据种类不同，处理和分析数据的算力不也不同，从异构计算到支撑AI高速发展的暴力计算、从泛在计算，到数据在流动中并行高效联动的端边云协同计算，要整合这几股力量、充分发挥计算价值，需要一个能够支持全场景计算的新架构。

可以看出，多种计算架构并存是未来计算的发展之路，提供多样性算力帮助客户适应更多应用和业务，在计算领域持续创新，致力于解决困扰算力大发展的痛点，华为在计算领域18年分三条主线持续投入：x86计算、AI计算、鲲鹏计算。

在鲲鹏计算领域，华为 2004年面向终端推出K3型号的处理器， 2009年将ARM引入无线网络的基站，2017年推出了ARM64的TaiShan 100服务器。

不久的将来，随着整体的联接数增加，海量的数据需要接收存储分析，需要高并发、高性能、高能效、高吞吐的算力，数据中心需要鲲鹏算力。

面向大数据、分布式存储、原生应用、高性能计算和数据库等应用领域，华为去年发布了TaiShan服务器的五大解决方案，为客户带来新一轮的算力加持，提供高性能的硬件加灵活的软件综合解决方案促进HPC的落地。
AI+HPC融合加速 AI计算驱动落地

在2020年TOP500新增的用于衡量超算系统的机器学习应用性能的HPL-AI排名上，富岳的峰值性能达到1.45EFlop/s，同样位列第一。投入使用后，在RIKEN选定的9大目标应用中，富岳系统的性能与其前任系统“京”相比，最高将提升100倍。

这也意味着，AI成为HPC应用的新领域，尤其本届ISC大会专设主题为“Covid 19 & HPC/AI”的讨论会，重点分享美、日、欧等国家和地区利用最新的HPC，AI技术对抗Covid 19的经验与成果，全球超算总动员共抗疫情。

在AI融合超算的趋势下，征战HPC多年的华为的竞争力凸显，以AI计算为例，Atlas 900集群的产品技术创新使得AI＋超算的步伐加快。
Atlas 900集群不仅提供了有最强的算力，关键整合了HCCS、PCIE4.0和100G RoCE这三种高速接口，使得集群这一块系统级的能力得到巨大的提升。在系统级能力提升了以后，集群的算力可以达到256P到1024P，相当于50万台PC的算力。

同时，Atlas 900训练的集群也达到极致的能效，其中AI的集群PUE指数，能效指数低于1.1，去年E企研究院举行的“数字中国万里行”活动中，参观华为云计算松山湖数据中心时可以看到，华为云东莞松山湖数据中心一期工程使用了160个预制的模块，在13天时间之内就组装完成了一栋5层建筑，具有8MW IT容量，可容纳约1000个机架，每个机架可安装20台2U标准服务器，总计可达2万台服务器。

这样的前瞻设计基于华为全液冷的解决方案，可以大量节省机柜，降低能耗。比如在256P、FP16算力提供的时只需要16个机柜的Atlas，但功耗只有36千瓦，可以这样来比较：如果用现在传统的GPU模式可能需要208个机柜、1352千瓦的功耗。如果是用通用计算的x86去组这个算力，可能需要6195个机柜、消耗40268千瓦的功耗。

现在，Atlas 900驱动人工智能快速落地，比如计算机视觉、自然语言、自动驾驶、智慧城市、智慧医疗等各种基础研究和探索和应用。

举个简单的例子，在衡量AI计算能力的金标准ResNet-50模型训练中，Atlas 900用时59.8秒完成训练，比原来的世界纪录快了10秒。在人类探索宇宙给你时，Atlas 900用时10秒从一张有20万颗星星的星空图中找出某种特征的星体。在此之前，做同样的事情，天文学家大概要耗费169天的工作量。
全栈优化鲲鹏使能加速HPC应用

推动HPC应用，让HPC用的好，让所有的软件在HPC系统上跑起来，跑得效率高，这需要全方位的方案支撑。

如何加强在硬件、软件和基础架构方面的优化？华为持续在HPC软硬件领域创新迭代；在创新计算架构的同时，持续进行软件优化，再加上鲲鹏凯源生态的加持，华为构建完整的生态。

HPC 应用对计算速度有着极高的要求，这意味着这类集群在系统的处理器、内存带宽、运算方式、I/O、网络等方面也都要追寻性能方面的极致。

华为由各个领域的科学家、软件开发专家基于各自领域的算法，对求解方法进行创新，并采用不同的编程模型，让鲲鹏 HPC 更好地服务于各行各业，长期在以下三个领域坚持投入：

平台层：计算系统（x86、TaiShan）、下一代 NAS 存储系统、网络互联（低时延技术）；

中间件：华为 MPI、工具链、集群管理、作业调度；

上层应用：气象 & 海洋、制造、计算化学、生命科学、油 & 气、AI 等领域。

以制造仿真、气象预测和基因测序等典型的高性能计算应用为例，它们无一例外均需要计算节点具有较大的内存带宽能力。基于鲲鹏处理器业界领先的8通道内存技术，TaiShan服务器能够提供高出业界33%的系统内存带宽，进而发挥TaiShan多核、高并发的算力优势。
与此同时，华为已经为TaiShan服务器构建了完备的鲲鹏HPC软件栈，涉及了底层工具软件和管理软件，包括受业内关注的 MPI 和调度器，华为TaiShan服务器支持常见的NFS、Lustre、BeeGFS文件系统，其计算节点上使用的存储客户端和X86节点的存储客户端是完全兼容的，可以无缝接入到现有HPC集群中，能够为用户带来调度管理、存储共享等层面的上佳体验，能够帮助客户快速部署高性能计算应用环境，统一进行鲲鹏HPC集群的高效管理，携手合作伙伴化解了商业、医疗、科学等领域最为艰巨的挑战。
对HPC客户而言，全栈解决方案是现在，而生态则是未来。
鲲鹏计算平台使能HPC领域后，这种能力便通过组织架构高效地转化出了成果，在行业伙伴、产业发展、开发者生态领域全面发力，目前，OpenHPC是完整的HPC开源软件堆栈在华为TaiShan服务器上已经过全面测试。
截屏2020-07-03 下午10.31.14.png

华为通过和众多HPC应用软件提供商和开源社区展开合作，可以携手客户和合作伙伴投资于代码迁移，优化和基准测试的技术资源，同时联合投资OpenLab，用于代码迁移优化和基准测试的技术资源，与客户和合作伙伴共建开源/内部应用程序迁移的联合实验室，让业界广泛使用的HPC商用及开源软件陆续成功地移植到了鲲鹏计算平台上，加快HPC民主化脚步。

推荐阅读

目录

多样计算塑造未来 鲲鹏HPC应用如何加速？

推荐阅读

目录

多样计算塑造未来鲲鹏HPC应用如何加速？