日前,中国高性能计算领域规模最大、最权威的CCF全国高性能计算学术年会,在青岛·红岛国际会议展览中心正式拉开帷幕,而我作为媒体,也是第12次参会,感触颇深。
从2012年至今,我见证了CCF全国高性能计算学术年会十余年的发展,也见证了中国高性能计算的逐步成长。作为高性能计算领域全球最具影响力的三大超算盛会之一,CCF全国高性能计算学术年会今年的规模也非常大,迄今为止一共已经有2500多场演讲分享、350多个分论坛,吸引了400多家企业参与和200多家媒体报道,可谓是疫情之后行业规模最大的一次会议。
8月23日,是大会展区的开展时间。现场,中国计算机学会、青岛市人民政府、中国计算机学会高性能计算委员会、青岛海洋科技中心等政府与单位的相关负责人共同出席了开展仪式,也标志着大会拉开帷幕。
与以往历届大会不同的是,本次大会的展区更侧重于中国科技力量的展示,现场我们看到了包括国实集团、联想、华为、并行科技、国家超级计算济南中心、北京超级云计算中心等多家单位和企业的展台,其中展示的产品也涉及高性能计算IT基础设施与软件服务应用等全面覆盖,说明中国科技企业已经在这一领域具备了自主创新的能力。
走进展区,首先看到的就是国实科技集团的展台。作为本次大会承办方之一的青岛国实集团,是全国领先的高性能计算服务提供商。自成立以来,在青岛市委市政府的关心支持下,在青岛海洋科技中心的带领下,围绕服务国家海洋战略,积极推进科技成果转化和产业化,着力推动海洋信息与大数据、海洋智能装备、海洋新能源、海上运维保障、海洋生物医药等领域的产业发展。近年来,国实集团坚持围绕匹配青岛市城市发展战略,坚持在服务城市发展大局中主动谋划、主动作为,坚持在我市重点产业、现代产业、新兴产业、重大科技成果转化等领域持续发力,充分发挥高性能计算的核心优势,不断履行国资国企社会责任,先后在青岛市建成全国首个海洋大数据交易平台和全国首个“陆海统筹”城市信息模型平台,为青岛打造现代产业先行城市贡献出新业绩和新力量。
未来,国实集团将与各级各单位共同打好青岛算力这张名片,把青岛市打造成为新的“算力名城”。同时,还将写好高性能计算产业化这篇文章,助力青岛市引入更多算力上下游产业,做大做强高性能计算产业的蛋糕,为青岛打造现代产业先行城市再建新功。
接下来引人驻足的就是对面的联想展台,而联想也是高性能计算领域的一名“老兵”,曾经联想的深腾系列超级计算机也代表了中国最高的水平。而这一次,联想展示的产品也包括了联想高性能计算总体解决方案、温水水冷解决方案、人工智能解决方案及AI新品、仿真一体机等等。
如今,液冷已经成为了一个非常重要的建设绿色算力的关键技术。在高性能计算领域,由于对性能和计算密度的偏好和追求,液冷技术很早就被应用在一些顶级的超算中心。例如联想2012年就在德国的莱布尼茨超算中心,建设了首套用温水散热的大型超算系统。采用的液冷计算节点也更符合高密度,高算力,低扩展的HPC应用场景。但时至今日。计算机液冷需求已经发生了非常大的变化。
也正是在这样的背景下,联想建立了海神液冷技术体系,为多元的计算场景进行全面的绿色赋能。基于不同的产品,海神液冷技术分为了两大类。一类是液冷辅助技术——这类技术的特点是采用风液混合的方式来提高局部的散热效率。它的优点是简单易行,不需要进行数据中心暖通系统的改造,适合于一些希望采用高算力芯片,但又不具备机房改造条件的用户。由于绝大多数热量仍然需要风扇和环境空调来降温散热,因此不会带来太大的能耗降低。
第二类是直接液冷技术,这个技术是通过液冷冷板系统的热交换,来带走主要功耗部件乃至全部功耗的部件的热量,可以使用远高于环境温度的液体来冷却功耗器件,因为可以大幅度的降低由风扇和环境空调带来的能耗。实践证明,利用直接液冷技术,可以将PUE降至1.2以下的水平,也是下一代绿色数据中心最重要的节能手段。
在华为展台,我们同样见识到了高性能计算应用的“黑科技”。华为此次带来了五大解决方案,分别是鲲鹏高性能计算、高性能技术分析存储、高运力数据中心网络、数据中心基础设施和拓扑亲和计算等5大板块,其中每个板块都有详尽的产品介绍与案例演示。
以大家都非常关注的鲲鹏高性能计算为例。2022年,华为正式发布鲲鹏高性能解决方案,该方案基于鲲鹏全栈打造,涵盖硬件使能、基础软件、应用优化等能力,鲲鹏可通过硬件开放和软件开源,提供高性能、高算力的整机产品和完整的高性能计算基础软件栈。硬件上包括鲲鹏服务器和鲲鹏数据中心全液冷整机柜、OceanStor Pacific存储以及华为智能无损以太网,其中,高性能计算系统中,计算平台对于系统性能影响最大,同时也是系统中电力消耗最大的硬件,好的算力平台在充分释放集群硬件性能的同时,也要兼顾较好的系统能效比。
同时,通过开源开放来打造并完善HPC软件栈,包含openEuler操作系统、毕昇编译器、鲲鹏数学库及Hyper MPI通信库等基础软件,和面向管理员的集群管理多瑙套件。在基础软件层面,得益于对全栈软件持续自主创新,我们实现了基础软件和鲲鹏CPU的深度优化适配,通过数控分离架构、多指令集协同编译优化以及对高网络通信和内存共享机制的优化,实现了软硬件之间的更好协同。在集群管理方面,多瑙套件支持百万核集群的高效调度和多集群管理,满足了用户对于海量任务管理和多个集群调度的需求。
目前,经过多年的持续努力,鲲鹏HPC生态当前已经取得了显著进展,已完成了多款主流软件的迁移与适配,逐步构建起了完整的应用生态,可满足80%核心算力需求,已全面进入气象、生科、制造等关键行业场景。
再比如高运力数据中心网络。作为华为的看家本领,高运力数据中心网络所起到的并不仅仅是传统的互联,更多则是应对海量数据时代的数据传输与效率提升。据现场人员介绍,华为经过多年的研发和实践,已经从传统以太升级为超融合以太,来承载数据中心网络的不同业务,包括通用计算、存储、HPC和AI;近年来,华为超融合以太网络已经在国内外多个高性能计算平台项目中落地应用,演进到超融合以太一种协议承载,100%释放算力的同时,也实现了全场景的应用加速。
如今,华为推出的400GE数据中心网络,基于技术创新的差异化优势获得客户青睐,在金融、政府、能源、教育等行业广泛应用。面向未来,华为致力于与业界共同探索,持续深化数据中心网络领域研究创新,牵引网络自动化/智能化升级和代际演进,加速企业数字化云化转型,为客户和产业创造更大价值。
介绍完了硬件层面,我们再来看看软件与服务,这就不能不提到本次大会的协办方,也是行业中以服务出色著称的并行科技。而在本次大会上,并行主打的就是智算云,并提出了“超算架构大模型算力网络先行者”的理念。
如今,并行科技秉承“助力科技强国,让计算更简单”的企业使命,积极布局国家“算力网络”建设,已经汇集了超过30个超算中心,总体算力超过1000P,GPU卡超过200000卡,服务超过10000家单位的20万用户,并行科技开发了算力服务平台和算力调度平台,可以将用户的算法,数据调度到合适的算力上进行计算,真正实现了“东数西算”,为全国的高校,科研,政府单位,企事业单位提供超算和智算算力服务。
同样提供算力服务的还有超算中心,比如本次展会上登场的国家超级计算济南中心和北京超级云计算中心。相比前者“国家队”的地位,后者的北京超级云计算中心更侧重于商业化,也在国内超算TOP100排行中连续三年蝉通用CPU算力第一名的位置。这样的成绩也得益于北京超算率先在国内开展超算创新服务模式,并积极推动“算力市场化”改革。如今北京超级云计算中心已经形成“智算云”、“超算云”、“行业云”和“设计仿真云”四大公共算力服务体系。
目前北京超算已经服务国内超20万用户,包括1000家企业,并为智源研究院、智谱AI等国内顶尖的人工智能研究单位开展业务合作,致力于成为超算架构大模型算力领跑者。未来,北京超算将持续为大模型企业、科研用户提供丰富、高性价比的算力资源,依托稳定的算力服务平台,7X24小时高质量服务保障,助力人工智能产业创新,助力数字经济建设。
最后就轮到“国家队”出马了,也就是国家超级计算济南中心。许多人可能知道曾排名国产超算第一的神威蓝光超级计算机,其实这台超算的诞生地就在济南,也标志着我国大型关键信息基础设施核心技术实现“自主可控”的目标。
截至目前,国家超级计算济南中心已持续服务涵盖气象、海洋、信息安全、智慧医疗、大数据、新材料、电磁仿真等多个领域在内的科研院所、政府机构、高新技术企业等用户2000余家,为各领域科技创新带来重大机遇。同时,国家超级计算济南中心正加快形成山东“大超算”格局,逐步成为新旧动能转换战略的重要抓手和推进综合性国家科学中心建设的战略支点。
时至今日,CCF全国高性能计算学术年会已经举办了第19届,也展示了当下中国自主可控的科技实力。通过上面的介绍我们可以发现,无论是IT基础设施平台,还是基于云端的超算、计算服务,甚至包括商业化的超算中心和超算“国家队”,都已经有了长足的发展,也经过了市场的考验,提供了成熟的解决方案。面向未来,这些中国力量可以推动数字中国的快速发展,推动数字化应用的不断迭代,也推动中国的数字经济做大做强。