IT大嘴巴 · 2023年11月21日 · 陕西

进化与梦想,用解耦新架构开启算力新世界

如今我们处于数字化的时代,我们用的手机、电脑,出行的自动驾驶、智慧交通,工作的视频会议、办公协同……似乎算力已经在我们身边无处不在。但就像歌中唱到的那样:“算盘、秤锤和计算机会不会相同”,这些看似毫不相关的东西,其实代表了算力进化的过程。
正如蒸汽机车取代马车,电力机车取代蒸汽机车一样,算力发展也经历了漫长的演进过程。从最早的结绳记事到算盘的出现,再到电子计算机乃至于未来的量子计算机,算力发生了翻天覆地的变化,重塑了我们获取信息和认知世界的方式。而算力架构也在不断的演进中,正如历史的车轮滚滚向前。
所以我们今天要讲述的,是一个有关进化、创新与梦想的故事。
(一)进化
1911年,英格兰诺福克郡出土了一枚旧石器时代的手斧,形制属于阿舍利手斧。

阿舍利文化是旧石器时代早期文化中后一个阶段,流行于距今大约170多万年至20万年前后。虽然从现在的角度看来,这种称为“手斧”的原始石器,与我们今天使用的斧头,在形态上有着天壤之别,但在当时它却是主要的生产工具,并与薄刃斧、手镐和大型石刀等器物组合在一起使用,也是最具特色的一种工具。
或许你已经意识到:在170万年前到20万年前的漫长岁月里,这种散布全球、随处可见的阿舍利手斧竟然没有任何质的变化。也就是说,在150万年的时间里,全球各地的原始人都没有对这种手斧进行任何创新,而这样的原因只有一个——他们没有创新的动力。
当然他们也没有必要进行创新,因为阿舍利手斧被公认为人类历史上第一种标准化加工的重型工具,代表了古人类进化到直立人时期石器加工制作的最高技术境界。是的,你没有听错,漫长的历史发展中,在人类不断地迁徙、流动的过程中,通过打制的方式生产石器,猎取野兽或是在自然界采集能够食用的植物果实是最主要的生存方式,而阿舍利手斧的价值就是让这种生存方式成为可能。总之一句话,作为最重要的工具、旧石器时代的典型代表,阿舍利手斧不需要创新,也无法创新。
但时代的发展不能止步不前。随着历史车轮与生命齿轮的滚滚转动,从旧石器到新石器,从奴隶制到封建制,从蒸汽革命到电子革命,在当下的2023年,我们已经进入了数字化的时代,而我们使用的工具也是五花八门——但最根本的,为数字时代提供核心算力的工具,当代的阿舍利手斧,是服务器。
(二)创新
如果你问一个运维人员具体工作是什么,他很可能回复你三个字——搬箱子。
这并不是他在有意自嘲。事实上从上世纪90年代到今天,随着互联网应用的发展,越来越多的人涌入了IT产业,从服务器的生产制造到中间集成商、分销商再到最终的数据中心IT基础设施运维人员,“搬箱子”都是他们工作的最直接体现;甚至从劳动强度来说,另一种名为“IT民工”的称呼也毫不过分。而这些被搬来搬去的箱子,就是服务器。

但随着产业发展,特别是在云计算、大数据、物联网、人工智能等应用逐步兴起之后,服务器这个名字所表达的并不仅仅是冷冰冰的物理设备,而是其中蕴含的巨大算力能量,这股能量也成为了互联网乃至整个经济社会的数字化转型算力支撑。在这个时代,算力就成为了与水电一样的、社会生活必不可少的资源,而身为算力基础设施的服务器也不满足于“箱子”本身,随之迎来了形态上的多元变化。
“资源池化”是完成形态转换的第一步,这是最关键的一步。大概在8年前,我第一次听到了浪潮信息服务器相关负责人谈到资源池化的构想。在这份构想中,“未来”的服务器池化将分为多个步骤,从网络资源、存储资源再到计算资源,最终实现基于同一套平台的不同资源池管理。当然在那时候,这份构想仅存在于想象当中,彼时整个行业还为“公有云有没有商业发展”的概念而针锋相对,一套入门级存储的售价依然要在20万元人民币左右,25G网络也刚刚兴起。在那时候看来,“池化”创新似乎是痴人说梦,空中楼阁。
创新决定了你是领导者还是跟随者——史蒂夫 乔布斯
就像当时很少有人相信浪潮信息会成为中国服务器市场第一一样,同样没人相信资源池化会改变整个行业。所以当浪潮信息拿出第一代SR整机柜的时候,给整个市场带来的除了震撼之外,还有更多的质疑。事实上,当年的整机柜企业也不仅仅只有浪潮信息一家,许多我们熟悉的大品牌都有类似的产品,但是费时费力超大成本投入的研发与互联网客户苛刻与不断迭代的要求,让更多人浅尝辄止。
“选择做更简单、更容易的事”,这是人性,也谈不上对错。但经验同样告诉我们,只有坚持做对的、做创新的事,才能有所成就。每天的工作都是新的挑战,业务也在不断迭代,升级,而不是简单的机械重复,只有这样才是创造性的工作,才可能带来新的贡献、新的惊喜。现在看来,第一代SR整机柜源于对高密度、一体化交付、集中管理的需求,更多实现了资源管理层面而非硬件架构层面的管控,但从发展的角度来看它依然具备巨大的创新价值,也为未来的整机柜发展提供了可行性的验证。
也是从第一代SR整机柜开始,浪潮信息尝试将服务器、存储和网络硬件集成提供共享的计算基础设施。在硬件上实现散热、电源、管理等非IT资源的集中化和模块化,并利用软件虚拟化技术实现计算、存储等IT资源的池化和集中管理。这样一来,用户至少实现有效的统一资源管理,虽然计算、存储等资源的池化还没有实现,但至少看起来井然有序,一目了然,也是浪潮信息强调的“服务器即计算机”(Server as a Computer)阶段。
当然无论是用户还是浪潮信息本身,这样的资源池化程度都是不足的,因此在不久之后也就有了第二次迭代,这个阶段浪潮信息也尝试将网络和一部分存储资源池化,通过机柜内的高速互联实现统一资源调配。也是在这一时期,业界也开始了对整机柜解决方案的探索,无论是国际上流行的OCP标准还是国内ODCC组织标准,都强化了“解耦”的概念,这其中的关键问题就是要对存储、网络等设备实现资源池化。

为此,浪潮信息也进行了积极的尝试。比如按照业界通行的天蝎3.0标准,浪潮信息实现了资源解耦,一方面通过SAS Switch实现存储资源的池化和灵活分配,另一方面也借助PCIE Switch实现协处理加速资源的池化和灵活分配。这样一来,不仅解决了计算与存储的利用率均衡问题,还带来了计算和存储的冗余优点。这种结构为不同存储密度、不同存储热度的应用场景提供了灵活的选择方案。
到这里,浪潮信息已经成为了行业的佼佼者,毕竟从一个“搬箱子”的服务器厂商走到现在,付出了太多同业者难以付出的努力和艰辛。但也正因为如此,浪潮信息并没有自满,而是继续坚持“资源池化”的道路,并打算以系统重构开启属于自己的算力新世界——这也才有了融合架构3.0的出现。
(三)梦想
当我们进入“后摩尔定律时代”,持续提升计算性能、全面支持多种新型应用场景都对现有算力提出了更高、更新的要求,包括满足“数据在哪里,计算就在哪里”的分布式算力,匹配多样化数据计算要求的多样性算力,以及更强更快的算力和具备分布式协同处理的能力等。因此,当下整个行业对于算力的要求主要体现在一个“新”字,这一方面表现出了异构、安全、开放和高性能等特点,让用户能够以更低的成本拥有更强大的算力,另一方面也需要进行解耦和重塑,当多元算力真正发挥价值,实现算力更高、能耗更低、更加智能。

为此,在今年 8月10日举办的开放计算中国技术峰会(OCP China Day 2023)上,浪潮信息重磅发布融合架构3.0原型系统,以开创性的系统架构设计实现了计算资源、存储资源、内存资源、异构加速资源等核心IT资源彻底解耦与池化,支持池化资源异步升级、支持细粒度多主机共享高并发存储、亚微秒级远端内存共享访问等特性,可通过软件定义实现“一套系统,N类应用”。
所谓“原型系统”,就是承载了浪潮信息对于未来算力架构预期的一个系统,也是未来系统实现的雏形和底座。在这个系统中我们看到包括了众多当下热门的技术,而其中新核心的就是内存与算力资源池的池化,而只有如此才能让算力真正从传统意义上的“箱子”中解放出来,才能真正实现解耦与创新应用。

这其中一个重要的技术就是CXL,它的全称是Compute Express Link,是一种先进的内存互联技术,可以解决远程调用内存数据时候的内存一致性问题。借助于CXL技术,用户可以实现CPU与GPU、FPGA或其他加速器之间高速高效的互联,从而满足当下低延迟、高效率的异构计算需求,保证了CPU内存空间和连接设备内存之间的一致性,从而解决了各设备间的存储割裂的问题,能够大大降低内存的分割导致的浪费和性能下降。
这也是浪潮信息”以系统为中心“理念的最直接体现。通过将计算、内存、网络、存储等资源的池化,融合架构3.0实现了对于整机柜层面的解耦,也让用户完全摆脱了传统对于单一设备、单一资源池的管理。得益于池化资源的拓扑架构优势,用户可以对庞大又复杂的算力、存力与互联资源池进行精细化的管理,而浪潮信息同样提供了基于OpenBMC的InBry固件平台,具备自动化故障侦测与告警、智能化故障定位与恢复等功能,保障性能的同时兼顾了智能化与可靠性,更符合未来数据中心管理的需求。
颠覆性的应用从此开始,也让“搬箱子”成为了过往。融合架构3.0的出现改变了物理形态对于算力的束缚,从零配件层面来说,无论是CPU、GPU、FPGA等等芯片都具备了相同的可管理能力,都是最终算力的提供方;从IT基础设施层面来说,服务器、存储、网络也不再是冷冰冰的一台台设备、一个个箱子,而是资源池化中的一组组“能量”;从整体运维层面来说,管理人员面对的是一体化的数据中心资源网络,调整的是动态分配的资源规模和智能化的管控体系,而不是某一个集群、某一列机柜的开关机……
换句话说,融合架构3.0对现有的数据中心设备实现了“降维打击”,真正实现了池化管理,用户可以根据自身应用场景实现资源的自由调度,自由裁判项目中使用算力、存储资源的多寡,再也不用为资源不足或闲置浪费而烦恼。浪潮信息也表示,在使用融合架构3.0之后,数据中心的扩展性能可以提升2-4倍,系统延时降低90%,PUE低于1.1,更符合当下低碳环保的行业需求。
从原型架构到商业应用,这期间还有一段路要走。而我们所希望的,就是浪潮信息能够再接再厉,缩短这条路的距离,早日实现资源池化的商业应用,也让更多用户用上这一颠覆性的“黑科技”。
(四)未来
当前,新一轮科技革命和产业变革正在向纵深演进,算力基础设施的重要性不断提升,各国持续加大投入。我国算力基础设施发展成效显著,但与推动数字经济与实体经济深度融合、实现经济社会高质量发展的目标任务相比,与应对国际市场激烈竞争的要求相比,仍有一定差距。
为进一步凝聚产业共识、强化政策引导,全面推动我国算力基础设施高质量发展,日前工业和信息化部等6部门联合印发《算力基础设施高质量发展行动计划》,明确了“多元供给,优化布局;需求牵引,强化赋能;创新驱动,汇聚合力;绿色低碳,安全可靠”的基本原则,制定了到2025年的主要发展目标,提出了完善算力综合供给体系、提升算力高效运载能力、强化存力高效灵活保障、深化算力赋能行业应用、促进绿色低碳算力发展、加强安全保障能力建设等六方面重点任务,着力推动算力基础设施高质量发展。

无论是算力提升还是绿色低碳,无论是普通算力还是智能算力,无论是先进存储还是光传输网络,这些应用无疑都代表了数字化的未来,也标志着这短短10年整个算力产业迎来的巨大变革。面向未来,融合架构3.0将成为算力发展的高速引擎,也推动整个产业、整个数字经济迈向算力新世界。

推荐阅读
关注数
1932
内容数
249
专注开放计算、大数据应用、人工智能、企业数字化转型、云计算等领域产业观察及产学研合作。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息