在数字经济时代,企业的未来越来越依赖于数据分析和应用所产生的价值,而如何最大化算力、挖掘数据价值的压力则落在了数据中心一侧。一直以来,我们习惯了服务器、存储、网络设备的划分,习惯了对设备本身、机柜节点进行管理,而随着算力需求尤其是大模型应用的增加,需要管理者最大限度的实现资源池化,从系统性、整体性的层面来考虑。
日前,在北京举行的第五届OCP China Day 2023(开放计算中国技术峰会)上,浪潮信息正式推出融合架构3.0原型系统。相比传统服务器,融合架构3.0原型系统具有系统级多元异构融合、机柜级解耦和池化以及资源异步升级等优势,有效缓解当前数据中心“内存墙”、“I/O墙”、“功耗墙”等瓶颈挑战。现场,融合架构3.0原型系统引起了不少参会者的驻足围观,更让人惊叹其独特的设计理念。
池化,并不只是局限于“资源池”
一直以来,我们对于计算机的观念都是基于单机、机柜、集群、数据中心等物理层面,即便是在云计算大行其道,虚拟化让资源池概念成为可能之后,也并非所有的池化都是可行的,比如共享内存就一直是行业中的难题,直到近些年CXL的流行才让这个问题有了新的道路可走。但即便如此,整个产业还是从传统的集中式向着分布式,进而资源池化的方向迈进,而最终我们要实现的就是整个数据中心的资源池化。
但这条路显然不好走,即便是对于中国服务器第一的浪潮信息来说,也一直是布满了荆棘。从2015年的第一代SR整机柜到如今,8年时间诞生了无数的IT技术,也让产业经历了多轮迭代。但即便如此,浪潮信息一直坚持融合架构的池化理念,从融合架构1.0时代非IT资源的集中化和模块化、到2.0阶段非计算部分的存储、网络池化,再到如今的硬件解耦池化与异步迭代,浪潮信息终于走出了一条属于自己的创新之路,也是业界唯一提供全面基础设施池化的厂商。
许多人可能好奇——为什么浪潮信息坚持走融合架构的道路,为什么要坚持资源池化呢?要回答这个问题,恐怕不能只聚焦于“池化”本身,因为对于融合架构系统来说,在池化之前需要先“解耦”,就是从系统设计角度将资源变为解耦形态,而在池化之后还需要考虑如何利用,即如何实现资源的“重构”。由此看来,从解耦到池化再到重构,这三者的关系是一脉相承密不可分的,只有经过这三大步骤,才能真正让资源池发挥价值,无论是算力还是存储亦或是互联都能达到效能最大化,才是真正意义上的融合架构系统。
CXL技术,让内存资源池化突破“最后一公里”
既然池化的优势这么多,那为什么没有其他厂商推动池化呢?难点在于技术高度。虽然浪潮信息很早就实现了非IT资源的池化和存储网络的部分池化,但是面对关键的算力设备,比如CPU、GPU和内存,池化难度非常大。经过不断地探索和技术创新,如今浪潮信息借助CXL技术实现了内存池化,这就解决了传统融合架构中内存资源不足的问题;而针对多元算力也打造了异构加速资源池,更实现了跨节点、多主机共享,资源按需分配和弹性应用,最大化释放异构计算算力。
“融合架构从2.0到3.0的升级过程中,实际上面临着非常多系统层面的挑战,其中最核心的就是要做到内存资源池的池化与算力资源池的池化”,当会后采访中谈到资源池化问题的时候,浪潮信息服务器产品线总经理赵帅感慨地说。他同时表示,如何实现远程内存的调用,实现低延时的快速响应,如何实现缓存一致性,这都是内存池化面临的挑战。
为此浪潮信息将CXL技术引入融合架构当中。CXL全称是Compute Express Link,意为计算快速链接,是一种全新的互联技术标准。以往的资源池化难以实现内存层面的同步,尤其是远程调用内存数据的时候容易出现内存一致性的问题。但借助于CXL技术,则可以实现CPU与GPU、FPGA或其他加速器之间高速高效的互联,从而满足当下低延迟、高效率的异构计算需求,保证了CPU内存空间和连接设备内存之间的一致性,从而解决了各设备间的存储割裂的问题,能够大大降低内存的分割导致的浪费和性能下降。
其实浪潮信息很早就开启了对于CLX技术的研究,并已有成熟的产品面市。早在2022年的IPF生态伙伴大会上,浪潮信息就推出了国内首款支持CXL高速总线的智能加速器F26A,可以实现80%的延迟降低与2倍的内存容量扩展。而这一次,浪潮信息在将CXL技术引入融合架构3.0当中,更能够从整机柜层面实现内存资源池化,进一步提升利用率,优化性能。
“我们现在融合架构基于许多开放总线技术,包括PCIE、CXL等等,共同构建一个大内存系统、构建一个高速高性能的互联网络……将来对于大模型千亿级的甚至万亿级的用户模型训练都会有帮助”,在谈到内存池化优势的时候,浪潮信息技术研发部副总经理吴安兴奋地说。
融合架构3.0,对传统架构实现“降维打击”
伴随着内存资源池化的完成,浪潮信息也实现了包括计算、内存、存储与互联等多种IT设备的资源池化,进而达到了整机柜资源池化的目的。这也是浪潮信息”以系统为中心“理念的最直接体现。这样也在应用层面对传统的冯诺依曼架构进行了升级,从单一设备扩展到了整机柜,甚至未来也有可能覆盖整个数据中心。
”现在是机柜级,用数据交换网络把所有机柜互联起来;未来可能每一个节点都会有IPU(基础设施处理单元),我们构建一个基于数据处理的、完整的交换网络,通过共享形成一个真正硬件级的完全的池化,构建成一个数据中心”,在谈到未来数据中心远景目标的时候,赵帅表示。这种发展甚至对未来数据中心产业发展都会带来深刻的变革,影视作品中无处不在的算力与互联,将不再是异想天开。
不过即便是做到了低延迟、高性能的资源池化,依然需要强大的管理能力才行,尤其是在系统层面的全面管理能力。相比于单一设备或单一资源池的管理,如何对融合架构3.0的资源整体调配也是难题,因为池化资源规模庞大且具有复杂的拓扑结构。
为此,融合架构3.0原型系统开发软件定义管理系统,实现拓扑切换、端口动态管理、多主机资源共享与资源动态分区等高级功能;开发资源管理软件,实现设备利用率监控、设备分配情况配置与管理、I/O吞吐量监控和链路健康诊断,保障主机系统硬件资源的动态部署与高效管理。
这也是“重构”的价值所在。刚刚提到,作为融合架构系统建设的关键环节,“重构”的意义就在于对资源池实现有效的管理——“面向不同业务负载池,你需要什么样的资源我就重构什么样的资源,你需要什么样的服务器逻辑单元,我就给你构建什么样的逻辑单元。管理池化,管理引擎,未来是可以基于业务自适应,可以根据你的策略,根据你的业务负载,来动态构建成不同的、你需要的资源系统”,吴安介绍说。
这也打破传统设备的升级局限。以往,我们无论是使用服务器、存储还是网络,都需要随着平台的升级而升级,比如热门的PCIE 5.0、DDR5内存技术等等,都需要依托平台升级来实现;而相应的,当平台升级之后,原有的设备就无法使用了,即便DDR4在性价比上更具优势,但是新平台也无法提供支持。
融合架构3.0的出现就解决了这个问题。通过资源池化,用户在可以同步升级的同时,更有了异步迭代的选择,这样用户就可以选择更适合自身业务、更具性价比的解决方案,从而通过解耦与池化的优势,让业务价值最大化。对此吴安认为:“融合架构提供的是两种选择,可以按照业界最先进的技术发展水平同步迭代,也可以按照业务水平异步迭代,比传统的解耦架构对客户的价值更高”。
应该说,融合架构3.0的出现,颠覆了传统的IT基础设施概念,打破了设备之间的物理隔阂,相对于现有的数据中心设备实现了“降维打击”,真正实现了池化管理,用户可以根据自身应用场景实现资源的自由调度,自由裁判项目中使用算力、存储资源的多寡,再也不用为资源不足或闲置浪费而烦恼。据统计,融合架构3.0原型系统在性能与能效方面表现大大优于传统解决方案,官方数据显示其扩展性可提高2-4倍,系统延时降低90%,PUE低于1.1,更符合当下低碳环保的行业需求。
伴随着数字化应用的普及,未来融合架构3.0也将应用于千行百业。正如赵帅所说:“我们希望更多的行业客户能够看到技术的发展,能够看到技术的进步,能够快速的响应并知道互联网在用什么、先进的企业在用什么,让他们对这些先进的技术感兴趣,进而促进我们领先的架构从一个行业走向千行百业,实现整个行业的更快发展”。