随着数字化的发展,数据中心承载的压力越来越大,在提供先进算力和高效数据存储的同时,数据中心也要以开放、融合的姿态面向所有应用,更作为数字化的支撑底座赋能千行百业。
与此同时,产业对于数据中心的需求也从“能用”变得“好用”,尤其是在国家双碳战略的指引下,打造绿色、高效的数据中心成为了行业共识,也对数据中心未来的发展提出了新的要求和挑战。那么问题来了——既然数字化已经无处不在,那么数据中心的数字化应该怎样发展?绿色数据中心该如何实现?数据中心又该扮演怎样的角色?这些问题,在日前举办的OCP China Day 2022开放计算中国技术峰会上,都已经有了初步的答案。
今年是开放计算中国技术峰会举办的第四年,也是持续发展的一年。本届峰会以“开放·向未来:绿色、融合、赋能”为主题,汇聚来自OCP Foundation、浪潮信息、Intel、Meta、三星、西部数据、燧原科技、中国移动、字节跳动、NVIDIA、微软、阿里云、百度、腾讯云、清华大学等30多家知名公司、高校与研究机构的专家学者,聚焦数据中心基础设施创新、可持续发展以及产业生态等话题。与去年不同的是,今年的绿色技术、全球协作和生态赋能成为了重点,峰会也设置了多场分论坛进行讨论。而在峰会的“第二演播厅”中,众多与会嘉宾也针对这些问题畅谈了自己的观点。
多元算力并进,行业应用呼唤协作共赢
异构计算的话题由来已久,记得10年前也就是2012年我去美国参加一年一度的SC大会,当时TOP500世界排名第一的泰坦计算机就使用的是异构系统,也开启了异构应用的新时代。如今,除了大家很熟悉的CPU+GPU等异构模式之外,包括FPGA、ASIC等多种算力的出现也让整个产业呈现出了多元化应用的特性,尤其是AI应用已经遍及我们生产和生活的方方面面。那么对于开放计算来说,未来的数据中心异构形态会迎来哪些改变?未来我们又能够如何掌控和驾驭更多算力呢?
对此,燧原科技首席软件架构师李翔从AI产业应用角度阐述了自己的看法。他认为,AI芯片跟传统的芯片对比,提供了更多端到端全方位的解决方案。这其中除了模型的训练推理这个环节,其实也包括了大量的泛AI的典型计算,包括编解码、预处理等等,这都对算力应用提出了新的要求。而对于燧原科技来说,正在真正推动客户侧业务落地的时候,就需要引入更多的异构应用、联合更多的合作伙伴,共同推动产业的发展。
阿里云异构计算产品高级架构师俞宜洋则是从AI应用标准化的方面进行了发言。我们知道,标准化对于任何应用都是至关重要的,而阿里云现在做的就是希望打造一个“统一的异构生态”,这其中一方面“要把底层的模型推理AI相关的做成统一的标准化的API”,同时在上层业务上也需要做一些抽象,从而统一做成一套标准,再实现与多家解决方案供应商的对接。同时,如果想达到真正的业务落地,也不仅仅需要在功能上下功夫,还要在性能上也要达到要求,所以优化的空间、优化的工作量也是相当大。
浪潮信息一直与OCP保持着非常紧密的合作关系,因此在推动开放标准的建设与应用软件的优化方面,浪潮信息一直在努力。据浪潮信息高级系统架构师杨洋介绍,如今在应用迁移与架构适配上,浪潮信息也进行了不少的工作。“第一个是模组标准化的工作,第二个是我们在做OAM基板的时候,也发现实际上不同厂商他们针对内部互联的拓扑有非常大的差异。所以浪潮信息也提出了能够同时支持全互联和混合立方的拓扑,这样对上层应用的迁移也提供了一些便利。最后针对AI集群的拓展,浪潮信息在新一代产品里也已经实现了模块化的设计,这样就可以支持更多的厂商,让终端客户、芯片厂商,以最小的代价,来获取低成本的AI集群的拓展方案”。
从硬件架构到软件优化,异构计算依然是当下最热门也是最主流的应用,尤其是伴随着AI的发展,我们对于异构计算的要求也越来越高,对于多元化算力的适配性也越来越强。这就需要来自多方面的努力,同时也需要整个产业生态的统一与协作,只有这样才能真正实现标准化,让更多的公司有机会参与到数据中心基础设施创新的各个环节,通过全球化协作激发更多创新点。
云网协同,数字化时代需要怎样的网络平台?
我们常说云网协同,网络也是云时代的关键部分,甚至通信领域还有以网络为核心的思想。但是不管怎么说,在云时代网络还是关键,而且一款高效、稳定的网络也是任何业务实现的根本。在这次峰会的第二演播厅,来自互联网、基础设施、硬件测试等领域的众多专家也汇聚一堂,共同探讨网络对于开放计算的加速价值。
首先是技术上的演进。据阿里云网络研发事业部高级专家朱芳波介绍,近些年来随着云基础设施的崛起,云厂商为了实现更好的算力和存储性能,在大规模追求成本效应的同时也在追求极致的网络性能。因此,整个行业也就呈现出了两种趋势:一方面是过往追求的软硬件的解耦以及自定义,这也使得整个行业变得更加的开放与协同。另一方面则是注重用户体验、贴合用户的场景定义,比如各类XPU的崛起。从这个角度来说,技术的发展让整个基础设施领域发生了变革,也让行业生态变得更加开放,变得更加具有创造性。
这种变革同时也推动了生态的发展。随着开放网络的进一步推进,原本的网络巨头优势也在快速流逝,开放的网络从芯片端、模组端、交换机平台、云厂商等多个层面实现了“解耦”,因此也有越来越多的厂商进入这个行业。“很多的创新、很多新产品、很多的选择,但是也带来新的挑战。对于云厂商而言,面对这么多的选择,如何知道哪一个厂商的性能是真的能够做到标称的性能,以及它们之间的互联互通怎么样、兼容性怎么样、如何提高测试覆盖和效率等,这些都是作为开放网络用户会关心的问题”,在谈到生态多样性的时候,是德科技NSS事业部大中华区总经理修向鹏如是说。
“将来国内互联互开放网络该怎么走,从我们安费诺的角度,我认为就是高速、高密、高可靠性,无论业务怎么发展、怎么解耦,其实需要的是一个很强大、很可靠的物理层面,实现互联互通。我们也在做一些高速互联的解决方案,比如IEEE、OIF、MSA等等下一代的互联的解决方案。所有一切的都是为了承载业务,让互联互通的业务做强做大”,安费诺技术支持经理杨昌金表示。
刚才谈到了XPU,而这其中与网络相关的就是DPU的应用,对此英伟达网络事业部以太网产品总监王栋也表达了自己的观点。在他看来,未来的加速计算和基础设施会形成几十亿美元的巨大市场。而如何去满足基础设施对效率、对速度、对开放网络的要求,这不仅需要有更高速的交换芯片、更高速的系统,还要有更好的拓扑组织、网络组织,更好的流控以及上层应用等等。英伟达也希望在开放的平台上,提供更好的所有层面的技术支持。
说到底,开放网络的应用依然需要多方面的协同,正如浪潮网络交换机产品研发部负责人陈翔所说:“关于开放网络的发展趋势,几年前开放网络是星星之火,现在在大规模数据中心里已呈现出燎原之势,未来预计开放网络将在大规模数据中心里占据统治地位,在运营商网络甚至园区网络级别,开放网络本身的边界也会不断的蔓延”。或许伴随着应用的深入,开放网络也将进一步造福数据中心,进而造福每一个使用者。
绿色节能:液冷、供电、管理,多管齐下缺一不可
数据中心节能是一个常谈常新的话题,尤其是在今年双碳战略的推动下,液冷大潮来势汹汹,峰会展台上你也可以看到来自多家解决方案提供商的液冷设备。这其中,英特尔展示了面向边缘应用的全浸没式液冷解决方案;浪潮信息展示了多款液冷产品,包括可移动式液冷解决方案、NF5260FM6液冷节点、NF5280M6液冷、NF5498LA5液冷节点等,在公司"All in 液冷"战略的指引下,浪潮信息已实现通用服务器、高密度服务器、整机柜服务器、AI服务器等四大系列全线支持冷板式液冷;与此同时包括史陶比尔在内的液冷连接件等供应商也表达了对于液冷技术的信心和支持。
“浪潮信息很早就在布局服务器层面的液冷解决方案,与风冷不同的是,液冷整个体系都是完全不同的。所以从去年开始,我们已经建成了亚洲最大的液冷数据中心研发生产基地,构筑了研发、测试、生产、交付的全链条液冷智造能力,年产量可超10万台。基地可以支持从冷板到节点再到整机柜的各项整体性能与功能测试,包括水力测试、换热测试、生产老化测试,还有各个部件的保压、排压等各种测试”,在谈到在液冷解决方案的布局时,浪潮信息数据中心液冷产品经理李金波介绍说。
此外,浪潮信息还在努力推动液冷核心部件的标准化,这也正符合OCP组织的标准化需求。按照规划,未来包括CPU在内的核心零部件、监控系统都将实现标准化,进而通过标准化实现产业化、批量化,这也将有效的降低液冷应用的技术门槛和成本门槛,就如李金波所说:“我们希望能够实现买着不贵、用着更便宜”。
许多人可能好奇液冷的成本问题,尤其是对于采购数量比较大的互联网用户来说,这是一笔不小的开支。但其实从整个生命周期来看,如果按照服务器的5年生命力来计算,整体的TCO其实并不高,甚至相对风冷来说更具优势。“刚开始一次性的投资占30%左右。但是更多的在数据中心全生命周期其他的成本,包括能源的开销、计划内的计划外的运维,其实这部分的成本加起来占据了将近50%以上,更像是藏在水下的冰山。由此可以看到,其实液冷有天然的优势,因为水的比热容高,它的温度变化范围不大,核心关键的部件比如CPU、GPU会保持工作在稳定可靠的温度下,稳定性、可靠性得到提升,可以减少很多的运维、维修的成本。所以从长远看,算总账的话,可能更优一些。”在谈到液冷优势的时候,燧原科技产品系统部总监陈松涛表示。
在冷板式液冷之外,液冷散热还有另一种主要方式浸没式液冷,本次峰会上英特尔也展示了相关的解决方案。据英特尔云和企业事业部首席工程师赵国栋介绍,英特尔其实不仅仅看到了液冷在节能减排上带来的优势,更注重对于能源的二次利用问题。比如在今年5月,英特尔就宣布将投资逾7亿美元,建设一个占地面积约20万平方英尺的领先大型研发实验室,旨在聚焦创新的数据中心技术,并解决加热、冷却和用水等领域的问题。此外,英特尔还推出了业界首个开放知识产权的浸没式液冷解决方案和参考设计。“未来得益于遥测数据,我们知道在什么位置、怎样将节点的温度控制在最佳能效比,知道怎样控制液冷的输入口温度实现效能最大化,同时也知道如何利用液冷的热能进行回收,比如区域供热等”。
史陶比尔在液冷应用中也扮演着重要角色——连接件,我们看到的许多液冷头就是出自它之手。虽然这类配件看起来不起眼,但它的品质往往关系到整个系统能否正常运行,可谓是重中之重。正如史陶比尔液冷产品中国区业务总监连理军所说:“史陶比的产品是液冷当中非常小的一部分,但是也是关键的一部分,我们的产品所在的地方是最容易产生风险点的”。其实在数据中心领域,史陶比尔已经有近10年的批量交付经验,其业务也覆盖了中国、日本、欧美多地,技术上非常可靠。而这一次参加峰会,也是史陶比尔希望能够为推动液冷标准化尽一份力,通过产品技术的不断迭代和创新,加速液冷产业的发展,实现绿色低碳。
其实类似史陶比尔这样的“幕后英雄”还有不少,比如供电领域的长工微电子和村田,大家都在致力于推动从能源功能角度的节能低碳应用。比如对于长工微电子来说,数据中心的供电一直是个大问题,不少电能输入都要经过层层转换,这其中就造成了效能的损失。而长工微电子的解决方案则是从电源架构的优化入手,无论是在服务器的输入端还是到CPU的供电端,“对于OCP新的48V供电系统,主板48V先转12V中间总线是业界的主流,长工微现在更多的精力花在新型架构上,比如48V转5V中间总线电压。通过架构的改变,有效的提升整板的效率曲线,从而提升整个服务器的功率密度”,长工微电子北中国区高级销售经理王卿介绍说。
而针对节能应用,村田就在布局钛金级标准的电源,通过提升电源利用率,让数据中心获得更为稳定、更清洁的能源支持,让电源的转换率达到94%-96%的高标准,最大化利用电能。同时,村田也具备特色的BBU电源备份技术,能够在遇到突发状况的时候保障数据中心的应急应用。村田电源产品市场部经理曹宇表示:“村田的BBU电池备份单元可以在5分钟之内做到核心数据的保存。在企业的机房配有发电机的情况下,5分钟足以让发电机启动,这样可以达到平稳AC输入的切换,最终保证数据的安全”。
而提到供电能力,中国电信同样是首屈一指,中国电信研究院绿色低碳技术研发部技术总监赖世能就介绍了自身的成功经验,中国电信在供电安全、供电效率以及绿色低碳方面实现了显著的改善。中国电信发明的240V HVDC在业界引起了巨大的反响,特别是在这个基础上进一步发展起来的一路市电直供加一路HVDC,和10千伏直供HVDC两个新型供电方案,产生了非常可观的节能效益,并已走出国门,形成了国际标准。中国电信将持续发展基于HVDC的绿色安全锂电储能系统,把储能用到数据中心里去,保证锂电池不起火的安全水平。这样未来就能让光伏、风电等新能源和储能,都能够在数据中心得到大规模的应用,也可以加快我们绿色低碳的进程。
从液冷到供电,绿色数据中心的应用涉及到方方面面,这其中管理依然是不可或缺的环节,因为只有发挥人的最大能动性,才能让技术应用事半功倍。对此,作为业界领先的存储解决方案提供商希捷也是责无旁贷。一方面,通过双磁臂、ADR(自动磁盘重生)等先进技术的应用,希捷推出的海量硬盘也实现了绿色节能,每TB数据的碳排放减少了80%到90%。而另一方面,希捷也计划到2030年,从工厂制造层面、研发层面实现百分之百使用可再生资源。“可再生资源相对于现有能源来讲,对于碳排放会更友好,但是我们还是坚定到2040年真正实现碳中和”,希捷中国区产品线管理总监刘嘉表示。
回到最初的问题,开放计算为数据中心带来了什么?相信大家看完之后已经有了自己的答案。在过去的10年发展中,开放计算带来了更多的标准化、更广泛的生态协同和更统一的行业标准,也使得组织内的每一个成员都能够依照开源规范来交付基础设施,从而推动更多创新技术快速走向实际应用。时至今日,开放计算已经从最早的互联网渗透到电信、金融、游戏、医疗、汽车制造等多个行业中。而未来,围绕开放计算所展开的全球协作与共同创新,将推动更多数据中心的领先技术普适化,解决碳排放、循环经济等世界性问题。
开放计算将无处不在。