众所周知,高性能计算(HPC)最早的应用领域是在科学计算,包括国防、航空、能源、电力、汽车、生物、气象、仿真等领域,因此HPC亦被称之为“国之重器”,它不仅代表着一个国家在科学计算方面的实力,更是一个国家在经济建设中打造核心竞争力的关键武器。
但与此同时,HPC经过一代又一代的不断进化和迭代,特别是随着人工智能应用的快速崛起,也使得HPC不仅在科学计算领域的贡献日益突出,同时更被广泛应用于基因测序、自动驾驶、动漫渲染、数字电影、数据挖掘、金融分析以及互联网服务等领域,可以说已经深入到国民经济的各行各业。
而越来越多的多元化应用需求,也让多样性计算成为HPC行业未来最为重要的发展趋势,目前人工智能与高性能计算正在深度融合,同时HPC Cloud也得以快速的发展,可以说这种多样性算力背后更需要融合各种技术的架构创新,由此才能更好地推动高性能计算持续快速的发展。
在此过程中,华为公司一直以来也致力于通过融合架构的创新,推动HPC迈入多样性计算时代。也正因此,在2021CCF全国高性能计算学术年会(CCF HPC China 2021)上,华为也凭借一系列的技术创新,荣获了本次年会颁发的“HPC融合架构创新奖”。
毫无疑问,荣获“HPC融合架构创新奖”背后,不仅是华为始终洞察整个HPC市场需求变化,在技术和创新上保持高强度自我迭代和进化的重要印证,更是其多年来在融合架构创新领域不断积淀之后一次全面释放,相信这会让HPC在更广范围、更深程度、更高水平上融合创新起到更多的助推作用,同时对HPC算力供给的基建化,以及中国数字经济的可持续发展都会贡献出更高的价值。
HPC迈入大计算+大数据时代在IDC发布的《2020全球计算力指数评估报告》中,就通过对中国、美国、日本、德国、英国等十国的计算力与经济现状研究,发现全球的数字化转型已进入倍增创新阶段——各个国家的数字经济占比将持续提升,而算力正是数字化技术持续发展的重要因素,同样也是数字经济时代的核心生产力。
确实如此,中国作为超算大国,过去几十年来的时间中高度重视超算产业的发展,因此中国的超算产业此前也形成了“大计算”的黄金年代,但随着数字经济的不断发展,今天数字化与智能化已成为当前行业转型的核心驱动,而这也让大数据以及人工智能成为当前炙手可热的热点技术,同时更推动了整个HPC产业进入到了大计算+大数据时代。
华为技术有限公司集群计算业务发展总监谢海波
对此,华为技术有限公司集群计算业务发展总监谢海波也表示:“大计算+大数据正让HPC产业进入多样性算力时代,而系统从单一算力到多样性算力,从单机部署到融合集群部署,从传统应用到融合智能应用,都给软件开发者和企业带来了更加复杂的挑战。”
一是,处理器多样性发展,多元应用驱动算力多样化。今天,算力的多样化正成为HPC领域的发展趋势,尤其是随着AI在各行业领域的不断深化,AI应用的场景不断丰富,而不同的应用场景往往意味着需要不同的计算场景,这样就导致此前一直使用的通用CPU没有办法满足各种多元计算场景的要求,而这也就催生了计算芯片种类的越来越多,包括GPU、MIC、FPGA、xPU等各种芯片的应运而生,无疑也进一步增加了计算的复杂化。
二是,异构多态复合归一,资源集约推动架构融合化。面对多元化的应用需求,选择异构处理器、异构体系结构组成的异构系统也成为HPC自然而然的选择。但也要看到,从传统架构向异构系统的升级过程中,同样也需要通过推动架构的融合化,即构建一个统一的异构融合体系结构,由此才能更好的降低TCO,提升投资回报比。
三是,面向以数据为中心,传统HPC正加速向HPDA(High Performance Data Analytics,高性能数据分析)演化。随着数据量的不断爆炸,目前整个产业也正从计算密集型HPC向数据密集型HPDA演进,其特征包括三个方面:数据量正从PB级跃升为EB级;负载类型正从单一负载向混合负载变化;应用类型更经历了从简单到复杂的演变,而这同样给整个HPC提出了更多的要求。
四是,计算与网络深度融合,驱动网络走向全以太化。随着算力需求的不断增长,从P级向E级不断演进,计算集群规模不断扩大,对网络性能要求越来越高,因此计算和网络深度融合成为新的需求。同时,架构、计算和存储的变革也正驱动数据中心网络从原来的多协议模式向全以太化演进。IT架构从集中式走向分布式,大规模节点互联已成为以太网的天下;计算单元无论是CPU还是GPU都在去PCIE总线,突破总线的速率瓶颈,直接出以太口来提供更高算力;从存储介质上看,机械硬盘向全闪存升级,性能提升百倍,传统FC带宽较低,不满足全闪存高吞吐的需求,于是带宽高达400GE的以太网成为新一代存储网络的事实标准。
由此可见,HPC应用的多元化、算力的多样化、架构的融合化,网络的以太化、以及HPC正加速走向数据密集型HPDA,在促进整个HPC产业发展的同时,也给HPC带来了前所未有挑战,这就需要从架构创新等更高的维度对HPC进行优化乃至重构,才能最大化的化解HPC产业面临的种种挑战。
融合架构创新背后的新价值也正是洞察到这种变化和趋势,华为持续对包括计算、存储、网络在内的系统进行综合考量,并以融合架构创新的方式,为用户构建全栈化、场景化的HPC融合计算平台,同时通过简化算力资源的部署及管理,帮助用户打通业务流程,从而加速产品开发和科研进度,具体而言:
首先,在计算领域,华为为多样性计算硬件及集群打造了完整软件栈——北冥多样性计算融合架构,可以帮助开发者解决在多样性算力的开发中的效率、成本、难度等一系列问题。
据了解,北冥架构通过毕昇C++编程语言、毕昇编译器、北冥融合加速库,为多样性计算系统提供通用、高效、高性能的开发能力,助力开发者更好地应对开发生态碎片化、开发成本高、系统整体性能无法充分发挥的挑战。数据显示,毕昇编译器通过编译算法优化以及与处理器架构的深度协同,加强了预取优化、自动向量化、循环优化和多面体优化等能力,同一套源码在鲲鹏上进行基准性能测试,毕昇编译器相比GCC性能提升了25%以上;同时,毕昇编译器也实现了多样算力融合优化技术,在SPEC ACCEL基准测试中其性能就提升了30%以上。而北冥融合加速库还为多算力提供统一的API接口,由此构建了业界独有的多算力算子层,通过多算力协同、异构区域分解技术将计算过程拆解到最适合的算力上,再采用混合并行及算法等价变换等优化方法,实现加速库性能的进一步提升。
在此基础上,华为通过多瑙统一调度器、元戎分布式并行开发框架、昇思科学计算套件,帮助开发者实现分布式应用的极简开发、融合应用的高效部署以及多样性计算系统的全栈效能最优,特别是昇思科学计算套件,通过多尺度混合计算和高阶混合微分两大关键创新,华为还将昇思原有的AI计算引擎升级为AI与科学计算的统一引擎,实现融合应用的统一加速;此外,北冥架构的MindStudio统一工具链,为开发者提供统一集成开发环境,实现开发全流程连贯无断点。可见,华为为多样性计算打造的北冥架构,真正帮助了开发者简化多样性计算环境下的开发和部署,实现与单机相同的应用开发和部署体验,充分释放算力性能,获得远超单一算力的应用性能。
其次,在存储领域,华为发布了首个面向HPDA的数据平台:OceanStor Pacific系列,这是为打破HPC产业传统壁垒而生的下一代HPDA存储系统,能够更好的加速传统HPC向HPDA的演进。
可以看到,华为OceanStor Pacific存储通过大小IO自适应数据流、融合非结构化数据索引、超高密硬件和弹性EC算法等技术架构的突破,打破高性能数据分析的性能墙、协议墙和容量墙。尤其是无损协议互通新架构,文件、大数据、对象协议基于统一的非结构化数据底座,无主次关系,共享一份元数据和数据,无需网关插件、无语义损失、无性能损失。一套存储支撑高性能计算、大数据分析、AI计算的混合负载,大幅提升数据分析效率。
最后,在网络领域,华为创新推出了超融合数据中心网络CloudFabric 3.0解决方案,该方案不仅实现了性能提升,同时在架构升级的基础上也实现了全网智能运维,为HPC平台提供了重要的算力“底座”支撑。
华为通过“智能无损、网算一体”等技术创新,攻克了40年以太网丢包难题,并基于全无损以太架构实现以太对传统IB、FC专有网络技术的替代和超越,打破通用计算、存储和高性能计算三套网络架构的限制,最大化实现数据的无障碍流动,有效提升算力能效比。同时,基于更加开放标准的以太技术,有助关键技术自主创新,降低业务连续性风险。
值得一提的是,在Tolly权威测评中,基于华为超融合数据中心网络的方案,对比FC网络存储IOPS最高可提升93%,时延最高降低49%。对比IB网络,性能最高可提升17%,时延最高降低95%。可以说华为超融合数据中心网络方案以新以太释放新算力,极大的推动了HPC端到端性能的全面提升。
从这个角度来说,华为在2021CCF全国高性能计算学术年会中获得“HPC融合架构创新奖”可谓“实至名归”,而背后不仅是华为在计算、存储、网络领域持续推动融合创新的体现,更是其长期在HPC技术领域不断沉淀之后一次全方位能力的释放,这也为HPC迈入多样性计算时代带来了更多的新价值。
一方面,从技术创新看,华为的融合架构创新,无疑会化解应用的多元化、算力的多样化、架构的融合化给整个HPC产业带来的挑战,这对构建计算产业发展新格局,完成多元算力的融合,实现算力供给的基建化将奠定关键的基石;另一方面,从产业驱动看,未来基于华为的融合架构创新,也将为打造性能更佳、成本更优、效率更高的HPC基础设施“底座”提供重要支撑,这也会把整个HPC行业带上一个全新的发展阶段,在HPC驱动经济社会全面高质量发展中发挥出更多的作用和价值。
共筑共享多样性计算新生态目前,以超算中心、AI计算中心为代表的城市多样性算力中心,已成为构建数字经济基础设施的新底座,同样从国家网格到“东数西算”的算力网络,更成为协同各地经济发展的新通路。
在谢海波看来:“未来的算力中心不仅需要按照多样性计算的方式进行建设,也必将走向算力网络,而在此过程中,华为也坚持以根深促叶茂,共同推动围绕根技术的多样性计算的生态发展。”
在此背景下,华为也正积极将算力网络打造成新型基础设施,并通过算力网络汇聚“大算力+大数据”,由此“使能大模型,孵化新应用”,通过AI算力、数据、模型及应用协同共享,更好地加速数字经济发展。
例如,今年5月,鹏城实验室就发布了业界首个全开源2000亿参数中文预训练语言模型“鹏程.盘古”,这是国产全栈式AI基础设施支持2000亿级超大规模语言模型训练的首次尝试,探索并验证了国产E级智算平台在软硬件协同优化、大规模分布式并行训练等核心关键技术的可行性。
而“鹏程.盘古”大模型正是由鹏城实验室联合华为诺亚方舟实验室、MindSpore团队以及北京大学组建的技术联合攻关团队。在项目中,技术联合攻关团队提出了随机顺序自回归训练的模型ALM,提升了算法小样本学习能力;而MindSpore的多维度混合自动并行从工程上大幅提升了在大规模集群上自动训练的效率。
不仅如此,在刚刚过去的华为全联接大会上,华为也继续发布两个新的科研成果:面向生物信息研究的鹏程.神农,以及全球首个图文音三模态大模型紫东.太初,而这两个大模型同样也华为与鹏城和武汉人工智能计算中心联合孵化的。
展望未来,随着人工智能算力网络发布,各地人工智能计算中心陆续上线,未来一定会有更多面向不同领域的大模型推出,造福产业,而华为也将坚持开源开放的理念,并持续通过技术生态赋能商业生态,加速各行业智能化升级和产业汇聚。
总的来说,科学计算的深入应用,深度学习驱动的人工智能,都正在重新定义HPC的创新和应用边界,但也带来了更多的挑战。而在此过程中,华为通过融合架构的全面创新,推动了HPC迈入多样性计算时代,这背后不仅是整个HPC产业未来演进的大势所趋,也是华为在HPC领域坚持不断的技术创新和自我突破的真实写照,相信华为这种前所未有的前瞻力、创新力和产品力,将加速算力中心走向算力网络的新进程,在引领整个HPC产业未来发展新方向的同时,更为赋能千行百业的数字化转型奠定坚实基础。