7月30—8月1日,2024年算力平台与应用新技术论坛正在成为一场高校算力平台技术和应用的思想盛宴。现场专家们从多样场景应用、算力、存储、算力网络平台搭建,再到数据中心构建,分享了宝贵的经验和启示。100多位来自高校、科研院所、企业的算力领域专家学者共同探讨,并参观了华南理工大学国际校区,体验广泛承载科研平台和智慧校园、为国家科研项目和超10万师生提供密集的数据计算资源。
聚焦多样应用场景 算力平台协同创新
随着人工智能、大数据等技术的快速发展,高校面临着提升算力资源利用效率和服务能力的挑战。如何实现平台化的统一管理、如何让算力资源实现有效调动和不同层级用户的合理分配,如何进行日常的运维管理与可持续发展,成为摆在许多高校面前的难题。加之当下整个社会对于能源的利用率与绿色低碳等需求,让不少高校在算力应用的过程中变得举棋不定、左右为难,亟需开创出一条既符合科研创新又保持绿色低碳的新融合之路。
2016年,采用温水水冷解决方案的北大“未名一号”集群就是国内首个使用温水水冷系统的大规模超算集群,而不久之前北京大学发布的“未名二号”集群同样也是国内首个采用RoCE技术连接的大规模高性能计算和AI融合集群。北京大学计算中心系统管理室主任、北京大学计算与数字经济研究院算力网络研究中心主任、正高级工程师樊春分享高校算力、算力网络与算力平台的建设与协同发展。通过分析算力平台的架构、算力网络的连接性以及两者之间的协同作用,提出了优化高校算力资源配置的策略和建议,以促进科研创新、教学改革和社会服务的全面提升,为构建智能校园提供坚实基础。同时,基于北京大学的创新实践,在构建算力网络的道路上迈出了坚实的一步,充分发挥算力资源的价值。
北京大学 樊春
数学推理长期以来被视为检验大模型能力的试金石,应用大模型应对数学挑战成为新颖做法。多模态大型语言模型 (MM-LLM) 在各种视觉问答中表现出了卓越的推理能力,然而,大模型在回答和解决数学推理问题时遇到了诸多挑战。这些挑战是由于数学需要严谨的推理并执行精确的计算。暨南大学广东智慧教育研究院副院长、博士生导师官全龙教授现场分享基于多模态大模型的数学推理问题研究。
如何增强大模型的能力助力解决数学推理问题,官教授团队设计了RaE(Reason-and-Execute)提示方法,这是为提高MM-LLM推理能力而设计的提示方法。具体来说,首先设计了基于数学领域知识的推理过程,采用逆向思维的方法,得出了解决数学问题所需的具体推理步骤。其次,基于以上的分析推理过程,官教授团队又设计了程序代码块执行的提示模板,生成执行代码块的内容,大模型就可以求解出数学问题的答案。而基于华南理工大学超算中心的计算资源,暨南大学评估了9个模型在6个数学数据集的回答准确性,从领域知识、几何形状、对问题文本和语言的理解等方面开展较为全面的对比实验,验证了RaE方法的有效性,相关的源代码和提示工程文件已发布到 GitHub。
暨南大学 官全龙
随着计算需求的扩大和计算投入的增加,伴随着研究模式的发展,科研团队提出更多的算力使用需求,西湖大学围绕特定科研需求建立多个专用集群。西湖大学高性能计算中心主任李南博士,回顾西湖大学高性能计算中心建设历程和服务模式,西湖大学高性能计算中心从集群到多种算力服务拓展方式,为校内各类科研提供广泛科研支撑。
西湖大学 李南
AI的发展非常迅速,高校高性能计算需求越来越大,高性能计算与其他的信息化服务等不同场景对应的基础设施建设思路迥然不同。南京大学e-Science中心隶属于人工微结构科学与技术协同创新中心,是2014年获教育部、财政部认定的国家级协同创新中心。
南京大学高级工程师姚舸现场分享e-Science中心的发展历程,e-Science校内用户超九万,在总结回顾第一代和第二代架构后,为满足当前的需求并适当展望未来,中心近几年正在逐步建设第三代架构中,在提供面向科研的科学和智能计算的基础上,不断扩展服务能力。已建设了包括云盘、协同表格、开源镜像、代码托管、LaTeX在内的十余种数字化服务,实现了科研、教学、管理的全场景覆盖。
南京大学 姚舸
在高校业务中,运用云计算、智算、超算场景从最开始的自成体系,逐步呈现交叉融合,算力资源建设与管理也因此呈现出一些新问题,中南大学信息与网络中心高性能计算中心主任邹有现场分享了中南大学云智算一体化的探索与思考,从中南大学计算资源现状,基于超算、智算、通算业务场景,探索相关解决方案,将现阶段的工作与后期规划与同行分享和讨论。
中南大学 邹有
自研SCOW、鹤思、远程桌面与小蒜智能助手
推动算力管理运营创新
益企研究院发起的数字中国万里行考察中发现,中国高校在数字化教学、智慧校园等方面的探索与实践早已卓有成效。在高性能算力平台的演进进程中,多元算力、算网融合、大模型技术、液冷技术等绿色算力解决方案正在高校加速落地。以北京大学为例,北京大学计算中心与北京大学长沙计算与数字经济研究院通过创新实践解决了算力网络市场中使用、接入和交易三个关键问题,其算力中心门户和管理平台SCOW(Super Computing On Web)。促进了算力网络的进一步发展,充分发挥了算力资源的价值,为国家的“东数西算”“双碳”战略提供了高质量支撑,为业界提供了宝贵的经验和启示。
现在,北京大学计算中心与北京大学长沙计算与数字经济研究院已经将SCOW项目开源,便于更多的高校能够体验到统一部署与管理的优势。北京大学计算中心高级工程师,计算中心系统管理室副主任,北京大学长沙计算与数字经济研究院算力网络研究中心副主任李若淼分享了如何使用SCOW构建算力聚合平台,运维团队只需要一个浏览器就能完成算力中心的算力资源使用、管理全流程,实现算力中心资源易管理、易使用的目标。尤其在AI调度系统上,SCOW拥有良好的兼容性,与主流系统都做了对接,方便管理员搭建系统,做到开箱即用。目前全国已有50多个机构部署、测试或在使用SCOW。开源下载量在不到半年的时间内已经超过10000次。在现场,华南理工大学作为使用者介绍了使用中的管理、部署经验。
北京大学 李若淼
鹤思是北京大学计算中心与北京大学长沙计算与数字经济研究院联合研发的开源算力资源调度系统,北京大学计算中心工程师,北京大学长沙计算与数字经济研究院特聘副研究员马银萍介绍,鹤思支持异构国产CPU和AI芯片,可调度10万节点以上的超大规模集群,并通过高效的调度算法,提升算力资源的利用效率,减少作业等待时间,优化用户使用体验。而小蒜是一款智能校园助手,可以在高性能计算和校园生活等各种场景中为师生提供准确且高效的问答服务,极大提升校内师生的学习和工作便捷性与效率。
北京大学 马银萍
在电子设计自动化、计算机辅助工程、计算流体力学等领域快速发展的今天,拥有高性能的远程桌面解决方案是提升效率和灵活性的关键。由北京大学开发的远程桌面软件为这些专业人士提供了一个高效的工作环境。北京大学计算中心工程师、北京大学长沙计算与数字经济研究院特聘副研究员付振新分享了高性能计算平台中的远程桌面与安全,他表示算力平台的安全也是另一个关注要点,北京大学针对算力平台的安全设计了二次认证、透明堡垒机等多种安全提升方案。
北京大学 付振新
参观国内最大校级数据中心
体验全栈液冷、算网融合创新实践
作为广东省著名的双一流高校,华南理工大学也是整个华南地区一流的理工类大学。与会专家参观了华南理工大学广州国际校区数据中心,作为全新校区,这也是全国唯一的所有学院、专业都是新工科、交叉学科的校区。数据中心建筑面积12,800平方米,设计660个机柜,总可用功率1万kW以上,是国内高校建筑面积最大的单体数据中心,按A+B级设计。
华南理工大学国际校区数据中心采用存算一栈式液冷解决方案,即选择计算液冷和存储液冷的全栈式方案,解决了长久以来困扰学校的数据中心高能耗、难散热等难题,实现能效和性能的双重目标,算力建设达到双精度7.3P和AI计算94P,并将存储容量扩展了近25PB。据测算,在使用液冷解决方案之后,华南理工大学数据中心整体能耗降低了30%。按照服务器、存储等IT基础设施5年的生命周期计算,整体TCO有所节省的同时也为后续的升级和迭代提供了良好的基础条件。
通过集约化建设方式构建高效、绿色算力基础设施为全校提供高端计算+AI的科学计算公共服务平台,采用易于部署、便捷的SCOW算力门户平台,华南理工大学科学计算公共服务平台支撑学校新材料、计算化学、生物医学、人工智能、芯片设计、汽车设计、建筑设计、海洋科学等科学研究和创新。
结 语
从历史悠久的超算,到以大模型为代表的AI应用,2024年算力平台与应用新技术论坛着眼应用和多样计算,围绕算力演进,存储平台、算力网络、智慧科研、绿色算力等相关技术、产业、人才培养等话题深度探讨,通过不同高校的创新实践分享、互动交流、现场考察的方式,多维度给行业内带来不同启发和思考,不断推动科技创新与绿色算力发展。
这也与益企研究院一直秉持的“全栈数据中心”理念高度吻合,纵贯IT平台架构与数据中心基础设施,把芯片、计算、存储、网络等技术直至数据中心基础设施作为一个整体看待。从业务发展与多样应用场景需求变换着眼算力平台变革,上层业务需求的变化会通过芯片、计算和存储等IT设备传导到基础设施层面,即数据中心作为基础设施也会相应地产生自上而下的变化。
基于全栈理念,益企研究院未来将继续通过数字中国万里行走进高校系列,关注高校算力平台的演进进程中,多元算力、算网融合、大模型技术、液冷技术等绿色算力解决方案的落地,推动中国的数字教育发展。欢迎关注!