IT大嘴巴 · 2023年12月07日 · 天津市河西区

为全国做表率,华南理工首家部署存算一栈式液冷解决方案

“一次性投入建设经费搞液冷,能不能在后面的运维成本中省回来这个钱?”对于华南理工大学副首席信息官兼网信办主任陆以勤来说,这曾是在建设科学计算平台时面临的问题。

华南理工大学,华南地区的著名高等学府,国家985和双一流建设A类高校,也承担了不少国家级的科研项目。目前,华南理工大学建有29个国家级科研平台、231个部省级科研平台,数量位居广东高校首位。该校数据中心广泛承载着科研平台和智慧校园等业务,为国家科研项目和在校超10万名师生提供密集的数据计算资源。

image.png

面对如此巨大的应用需求,如何为师生提供充足的算力保障,如何满足众多的科研需求?为此,华南理工大学一开始就确定了自建数据中心的方针,在位于广东番禺的广州国际校区建设起了占地面积13000多平方米,可容纳600多个机柜的专业数据中心。但即便如此,电力的使用依然让陆以勤教授团队犯难——在国家节能减排大背景的推动下,在双碳战略落地的关键阶段,华南理工大学要为同行业做出表率,而数据中心的PUE也要尽可能降低。

以往提到数据中心,我们总是将服务器作为第一指标,但近些年随着大数据特别是人工智能应用的提升,AIGC的不断发展让大家意识到,数据存力同样是继算力之后的关键指标,也成为影响数据中心效率的核心因素之一。据著名分析机构 IDC发布的《液冷数据中心白皮书》指出——存储器作为耗能大户,在数据中心IT系统能耗占比将超过35%,仅次于服务器能耗。而液冷凭借低耗能、高空间利用、高可维护性的特性,成为数据中心新一代制冷方式。

经多方考虑之后,华南理工大学决定使用液冷方案,能采用液冷方案的系统尽可能采用液冷,如液冷计算、液冷存储、液冷网络等,并且在深化设计时采用存算一栈式解决方案,这就意味着包括存储、服务器均液冷化,由此也开创了全国高校存算一栈式应用的先河,基本实现了全栈式液冷数据中心的部署。“液冷是个绿色、性价比比较高的新型技术,也是未来的发展趋势。我们通过考量觉得方案中的开发方技术领先,我们本身也有技术力量能克服困难,所以就采用了新技术。当然我们用这种新技术也经过论证,到底会不会漏水,但我们的考证觉得还是新技术比较成熟,也打消了这方面的顾虑,所以使用了存算一栈式解决方案”。

这其实也说出了液冷用户在选购时的最大顾虑。一方面,低碳节能的大趋势让液冷进入市场的脚步加快,但是另一方面“漏液”问题也成为了用户最纠结的核心。其实从6个月的实际运营结果来看,如今液冷应用技术漏液发生的概率极低,而且不同品牌方对此也有详细的应对预案。以中科曙光为例,其液冷研发的历史最早可以追溯到2011年,也是业界最早进行液冷商业应用的公司。凭借着十余年的液冷研发经验,曙光早就有效解决了液冷应用过程中可能出现的问题,并提供了完善的服务能力。

“用户会担心漏液方面的问题。其实对于液冷存储来说,我们在漏液检测这方面也有很多的监控方式。我们的节点里布置了很多漏液点的设置,如果发现漏液或者门阀堵塞、断液、温度升高等情况都会自动报警,之后在后台系统层面可以实现智能化运维,尽量降低运维难度,也不给老师们添麻烦”。在谈到液冷安全问题的时候,中科曙光存储产品事业部总监石静解释说。

在解决了用户对于液冷使用顾虑之后,接下来就是如何因地制宜的部署存算一栈式液冷解决方案。正如陆以勤在采访中提到的,华南理工大学国际校区是一个新校区,也是全国唯一一个所有的学院、所有的专业都是新工科、交叉学科的校区。这也就意味着该校区对于系统算力、数据存储效率等有着更高的要求。这样一来,如何在使用液冷解决方案的同时最大限度发挥系统优势、提升应用体验,就成为摆在管理者们面前的共同问题。

节能成为了液冷解决方案带来的第一个直接效果。虽然在许多人看来,液冷设备的一次性投入成本较高,但随之也打来了远超过风冷系统的能耗降低,这些降低的能耗直接转化成了用电数字,让节能成为了液冷应用的关键词。“我们算过一笔账,能耗能降低30%”,在谈到这个问题的时候,华南理工大学信息网络工程研究中心数据与计算中心主任黄建波表示。这也解释了文章开始校领导提出的问题,如果以数据中心设备5年生命周期来计算,由此节省的用电数字远大于前期投入数字,性价比更高。

出色的体验成为了液冷带来的第二个优势。如果说节能、省电是基础设施层面优势的话,那么出色的应用体验、流畅的操作管理也大大提升了师生们的体验感。随着性能的提升、服务的稳定,越来越多的师生选择本校系统,运维也变得游刃有余。
这也正符合华南理工大学自建数据中心的初衷。其实云计算发展到今天,不少商业机构都推出了自己的云服务平台,也有不少高校选择使用商业云平台。但是在实际应用中陆以勤教授发现,如果使用校外平台,就要将科研的数据放在校外、算力调用校外资源,同时在算法优化、后期运维等方面都形成了挑战。因此,液冷数据中心的建成不仅解决了上述难题,更多是为科研数据安全提供了保障,这已经不是简单的经济账问题。
正如陆以勤教授在采访中谈到的,华南理工大学广州国际校区是一个新校区,而新校区不仅仅意味着新的交叉学科设置,同时也需要全新的数据中心解决方案。得益于曙光存储提供的液冷解决方案,得益于全栈式液冷数据中心建设,如今这里已经可以实现单位面积下计算与存储密度的最大化,这不仅为学校科研提供了强大的算力和存力,同时也为未来的升级与迭代预留了空间,提供了更多可能。
石静表示,目前华南理工大学国际校区的数据中心直接实现可存储容量扩展至近25PB,为华南理工大学的科研数据存储提供了坚定支撑。不仅如此,液冷数据中心的相关运维服务也由曙光存储负责,包括系统层面的维护与硬件层面的保养等多个维度——“这在科教行业里面绝对属于非常非常大的容量点,也能够满足很多的科研任务,及云平台未来几年的规划。对于曙光存储在科研教育行业甚至在整个液冷存储的应用推广层面,都是非常具有示范意义的”。

时至今日,曙光存算一栈式液冷存储解决方案已经连续数月在华南理工大学稳定运行,服务于该校众多科研项目与日常教学应用。一方面,存算一栈式液冷存储解决方案的出现降低了数据中心PUE,可以低至1.2,满足国家对于低碳节能的要求;另一方面出色的性能表现也为师生应用提供了新体验,提升了科研效率,优化了运维管理。

正如石静所说,华南理工大学的存算一栈式液冷应用开创了行业先河,也为其他高校乃至更多行业应用提供了样板和经验。未来,曙光存储也将服务于更多的AI、运营商、科教等高耗能行业,助力千行百业的可持续发展。

推荐阅读
关注数
1943
内容数
252
专注开放计算、大数据应用、人工智能、企业数字化转型、云计算等领域产业观察及产学研合作。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息