“我们的目标是帮助老师进行科研和教学,推广超算知识”。在不久前举行的数字中国万里行走进中国农业大学暨高校智能算力平台建设高端研讨会上,北京大学计算中心系统管理室主任樊春老师围绕北京大学高性能计算平台服务进行了详细分享。
北京大学计算中心系统管理室主任 樊春
北京大学,一直是许多人心目中的中国顶尖学府,但鲜为人知的是,其实在推动算力发展方面,北京大学也一直走在行业前列,甚至中国最早那台一百万次超级计算机背后就有北大的身影。如今随着IT技术的发展,特别是近些年数字化、智能化的应用方面,北京大学也一直走在行业的前列,比如当下热门的液冷技术就是北京大学在教育领域首开先河。
2016年,采用联想温水水冷解决方案的北大“未名一号”集群就是国内首个使用温水水冷系统的大规模超算集群,而不久之前北京大学发布的“未名二号”集群同样也是国内首个采用RoCE技术连接的大规模高性能计算和AI融合集群。北京大学在超算技术乃至于先进技术应用方面勇于探索。那么这背后的动力是什么呢?对此,樊春老师也在演讲中给出了答案。
举棋不定
高校算力应用亟待解决的三大问题
随着算力需求的不断增加,尤其是在云计算、大数据、人工智能等应用需求的驱动下,不少高校都开始下大力气自建算力中心、超算中心、数据中心,以满足自身在科研应用等领域的需求。但即便如此,能够实现良好管理与妥善应用的高校还是凤毛麟角,除了部分类似于清华大学、北京大学、上海交通大学、中国科技大学、南京大学等双一流高校之外,更多高校还处于“摸着石头过河”的阶段,而算力中心面临的问题也无外乎以下几个方面:
首先是运营管理难。由于缺乏统一标准的管理模式,各算力中心需要各自制定管理政策;超算集群部署需要各类软硬件配置,缺乏开箱即用的管理平台,导致部署困难;运维服务人员短缺,需要自动化工具提高运营效率。
其次是用户使用难。算力终端用户多元化,部分用户难以适应基于命令行的传统超算集群使用模式,更习惯图形化、鼠标化的操作;可视化交互式应用配置复杂,用户使用门槛高。
最后是算力融合难。各个算力中心计算资源独立,无法互联;同一高校内部不同院系之间的“小超算”集群众多,管理和使用模式均不同,难以融合;算力资源闲忙有别,造成算力浪费,难以实现统一调度和有效利用。
总体说来,对于高校算力建设来说,如何实现平台化的统一管理、如何让算力资源实现有效调动和不同层级用户的合理分配,如何进行日常的运维管理与可持续发展,成为摆在许多高校面前的难题。加之当下整个社会对于能源的利用率与绿色低碳等需求,让不少高校在算力应用的过程中变得举棋不定、左右为难,亟需开创出一条既符合科研创新又保持绿色低碳的新融合之路。
SCOW:
国内首个开源的算力中心门户和管理平台
正如我们上面提到的,一套超算系统能否价值最大化,如何管理是一门大学问。其实早在上一代“未名一号”发布之初,北京大学就已经制定了详细的应用规划,并逐步演进出了包括“未名一号”、“未名教学一号”和“未名生科一号”等多套集群投入运行,在数学、深度学习、大气海洋环境、新能源新材料、天文地球物理、生物医药健康等领域提供高性能科学与工程计算服务。
如今,“未名一号”相关平台已经具备5套集群,包括732个节点和31732个核心,3.65PFLOPS的计算峰值和14PB的存储容量,负责北京大学大部分日常的教学应用与科研工作。2018年到如今,该平台支持了500多个项目,30多亿的项目经费,支撑高水平论文有1600多篇,其中Nature正刊17篇,JACS顶刊35篇和Nature系列的文章100多篇,可谓是硕果累累。
那么问题来了,如此庞大的集群规模、如此复杂的科研创新与应用场景、如此众多的用户管理,为什么北京大学就能够有条不紊、张弛有度呢?在被问到这个问题的时候,樊春老师会心一笑,随后详细介绍了北京大学目前的“独门秘籍”——SCOW管理平台与鹤思调度系统,并分享了北京大学在数据中心人才培养方面的实践。
上述我们提到高校算力难题,北京大学也同样遇到过。但是作为行业先行者,北京大学结合自身应用场景和科研特点,联合北京大学长沙计算与数字经济研究院开发了SCOW(Super Computing On Web),通过简化集群软件部署流程、统一平台管理模式、降低用户使用门槛,实现算力中心资源易管理、易使用的目标,提高算力资源使用效率,满足算力中心的管理和维护需求。
不同于商业软件的复杂与繁琐,SCOW强调一体化部署、开箱即用。它提供了图形化界面,使用方便。在SCOW门户平台,超算用户无需了解和配置SSH、VNC、命令行等技术,直接在浏览器上就可以使用超算集群,极大降低了用户使用门槛,即使是Linux小白用户也能顺利提交作业。在后端界面,设计了能支撑复杂管理的模型。
当所有节点部署之后,SCOW还提供了连接层,也是算力网络的融合和交易平台。如果某个算力中心的算力资源很丰富,但是用户资源不足,那可以通过平台对外销售算力。如果自身的算力需求比较旺盛,可以通过平台购买算力资源。
在SCOW平台开发的过程,有诸多技术的创新和突破,如:基于透明代理的全流程审计,主要是把网络安全中的审计引入到系统,加强操作的安全;面向CI/CD的自动化安全检测机器人,这也是从源代码级别的自动化安全;高画质低延迟的远程桌面;实现基于文件元属性和网络自适应的跨集群智能文件传输等。
一枝独秀不是春,百花齐放春满园。在不断迭代与验证了SCOW平台的优势之后,北京大学决定将SCOW项目开源,以便于更多的高校能够体验到统一部署与管理平台的优势。时至今日,全国已经有30多个的机构部署、测试或者在使用SCOW平台。开源下载量在不到半年的时间内已经超过10000次。
樊春老师表示:相对于目前不少高校使用的外国平台,北京大学开发SCOW并不是为了盈利,也不是为了出名,而是希望通过这一平台让更多中国高校用上自己的管理平台,也同样是证明中国软件并不比国外的差。正所谓“不蒸馒头争口气”,在自主创新与民族发展层面,北京大学也同样在贡献自己的力量,并希望将这个模式推广到全国乃至于全世界,更好的支撑国家的东数西算、“双碳”战略,也推动中国高校算力的快速、持续、稳定发展。
附SCOW平台的试用网址如下:
https://hpc.pku.edu.cn/demo/scow
鹤思HPC智能调度系统
为算力“注入灵魂”
益企研究院曾经总结过算力网络市场“五绝”,除五绝外,算力市场中还有如“武当”一般的门派——北京大学。SCOW平台用于算力管理,可以看成是一个人的表面,内部还是要有一个精神,也就是算力的调度。为此北京大学开发了CraneSched(鹤思)智能调度系统,服务于算力中心和算力网络的调度,也是为算力应用“注入灵魂”,实现超算、智算和云计算等多种算力资源跨域调度,打通算力孤岛。
鹤思系统也开源同样采用了开源架构,大量的测试表明,其支持集群规模,每小时调度任务数,同时运行任务数等关键技术指标国际领先。该调度系统还同时打通了超算中心和智算中心,还有云计算中心的调度,可以进行跨数据中心的调度。
与上面的SCOW平台类似,鹤思的试用网址如下:
https://hpc.pku.edu.cn/demo/c...
基于SCOW和CraneSched,北京大学还研发了算力网络融合与交易平台XSCOW,通过连接算力资源供需两端的交易模式,解决算力网络市场中使用、接入、交易三个关键问题,赋能算力网络统一大市场建设,激活算力网络市场生态,满足国家新型基础设施建设需求。
结语
时至今日,绿色算力的发展是当代社会面临的挑战与机遇并存的问题。据国家发改委相关报告显示,我国数据中心用电量已占全社会用电的2%。看似是一个较小的比例,但增长速度令人关注,相对于国家碳中和与碳达峰的目标而言是一个巨大的挑战。因此,发改委在《中国绿色算力发展研究报告(2023年)》中提出了高效、低碳、智能和集约的理念。
作为中国高校的领头羊,北京大学在推动科技创新与绿色发展领域责无旁贷。通过建设算力中心,积极培养人才,开发和应用了SCOW、鹤思这样的管理创新,北京大学促进了算力网络的进一步发展,充分发挥算力资源的价值。绿色算力的发展,为国家的东数西算、“双碳”战略提供了高质量的支撑,为业界提供宝贵的经验和启示,无愧于其行业定位与历史使命。