云中子〖计算杂谈〗 · 2023年08月21日 · 北京市

开放网络,助力AIGC快速发展

正当人们还在讨论未来算力会朝哪个方向发展之时,2023年AI大模型就以迅雷之势掀起了新一轮热潮,为AI在自然语言处理、图像识别、语音识别等领域的落地按下了加速键。

一时间,适用于AI大模型的多元化算力成为了企业级用户关注的焦点。

一年一度的OCP峰会(OCP China Day 2023)在这一背景下如期而至,峰会由全球最大的开放计算社区OCP主办、浪潮信息承办,主题为“Open Momentum:智能化、可拓展、可持续”,聚焦于数据中心基础设施创新与可持续发展,并着重突出对AI大模型所需的多元化算力提供支持。峰会上集中展示了包括CXL高速交换、开放网络、54V直流供电、钛金电源、液冷等热门数据中心技术,在它们的推动下为开放数据中心赋予了更多新应用场景。

数据中心网络,从封闭走向开放

在互联网业务的推动下,越来越多的超大规模数据中心拔地而起,服务器规模也从十万台级别快速增长至百万台。与此同时,数据中心网络伴随着带宽的增长,整体成本快速提升。企业级用户亟需一种开放的网络从封闭走向开放解耦,在降低成本的同时实现超大规模部署。

谈到开放网络,相信很多朋友都会“误以为”它是一项很新的技术,其实在互联网和云计算领域,它早已成为了标配。2016年开源网络操作系统SONiC(Software for Open Networking in the Cloud)正式发布。也正如开放计算那样,SONiC被誉为网络领域的Linux,在众多IT厂商们的共同推动下,已经成为了主流开放网络操作系统,并运行在各种白盒交换机、路由器和其他网络设备上,依此构建起了完全开放化的软硬件网络平台。

SONiC支持开放标准的网络协议和接口,如BGP、OSPF、VXLAN等,使其具备广泛的兼容性。为网络运营商、云服务提供商和企业创造了更大的自由度和灵活性,有效保护了用户的软件研发投入成本。

目前,微软已经部署了超过4万台搭载SONiC的开放网络交换机,阿里、腾讯、Linkedln、eBuy、AT&T等企业已经全面构建了基于SONiC的网络,而通信、零售和教育等行业也在同步跟进中。据Gartner报告显示,到2025年,40%拥有大型数据中心的企业会部署SONiC。

据了解,相较于传统网络,开放网络标准化硬件和开源软件,新业务上线时间缩短50%,通过构建统一网络设备管控平台,使得整体运营效率成倍提升,同时还提高了互联网所需网络设备的规模效应,在设备快速迭代的同时,有效降低了设备和部署成本,可将总体拥有成本降低近1/3。

开放网络已成为AIGC的绝配

正如前文所述,2023年的AI大模型迎来了爆发期,AIGC爆火的同时也将数据中心网络发展推到了一个新顶峰。

在大模型训练过程中,超过70%的数据在分布式计算设备之间不停地流转,这些数据需要时刻保持同步才可进行下一步工作。大模型对网络带宽要求很高,且更容易出现拥塞。所以,这里重点考验的是带宽、静态及动态延迟还有算法的优化等等。

浪潮信息网络研发部总经理 李鹏翀

“从用户实际应用来看,AIGC推出后,接入400G网络已经成为GPU的标配,用以快速同步数据。通过开放网络能够帮助客户实现快速构建超大吞吐、超大带宽、超低时延的无损网络能力,满足AIGC对数据交互与共享及分布式协同的严苛需求。目前浪潮信息已经帮助很多合作伙伴实现了用开放网络来去构建他们的AIGC训练网络。”

谈到开放网络的实际应用,浪潮信息网络研发部总经理李鹏翀这样介绍道。

而在如此复杂需求下,传统封闭网络设备的更新速度以年为单位,显然不能适应AIGC的网络需求。开放网络基于软硬解耦及更高效的算法优化,实现无阻塞零丢包转发,链路利用率最大化,大幅缩短业务FCT,提升算力效率20%~30%。并可构建起统一运维管控、动态弹性拓展的网络服务,能够针对不同训练模型自适应调整网络参数,使得网络更加智能。这也是当前AIGC场景选择开放网络的重要原因。

浪潮信息,构建生态化开放网络

在OCP China Day 2023大会现场,展示了多套来自浪潮信息的开放网络设备、软件及解决方案。这些成熟的开放网络解决方案、软硬件产品也早已遍布各大互联网、云服务商及大型数据中心之中。

在当下最热的AIGC大模型训练场景中,超大基础模型需要算力算法、数据存储和网络传输等多方面的关键技术作为支撑,当前GPU服务器算力和存储技术已经得到了突破性的发展,而更大带宽和更低时延的网络解决方案成为亟待解决的瓶颈。

浪潮信息基于400G盒式交换机和DPU打造高性能无损以太方案,交换机网络可支持基于Packet的转发模式,在DPU上实现基于收端的主动拉流通知和报文乱序调整的机制。通过此类创新模式,解决了传统RoCE网络的ECMP路由分担的链路负载不均衡的缺陷,从网络层面避免了拥塞的产生,提升整体网络性能。在提供400G高带宽的基础上大大降低转发时延,充分满足了AIGC大模型训练加速的需求。

目前开放网络正从互联网数据中心向通信、企业用户领域推进,浪潮信息基于SONiC自研的UXOS,在开源基础上实现了优化与创新。为了更适应普通数据中心用户,UXOS在配置管理上更加简单易用,流量算法均衡分配上也做了可视化。可靠性方面,UXOS故障收敛时间从秒级降低到30毫秒,更加稳定可靠。

此外,浪潮信息提供1G到400G的全系列开放网络产品,涵盖DCI路由器、高密ToR交换机、Spine-Leaf交换机、管理网交换机等主要网络设备,也通过液冷散热技术、高速信号设计、单芯片架构等更优的硬件设计,以及智能化的OpenBMC管理固件平台,满足了用户对数据中心绿色、高效、智能管理的需求。

开放网络,在挑战中前行

浪潮信息网络研发部副总经理 陈翔

世界上没有绝对完美的技术,开放网络也是如此。那么,当前开放网络还有哪些挑战亟待解决呢?

浪潮信息网络研发部副总经理陈翔表示,开放网络发展速度非常快,我们可以将其看作是功能强大的瑞士军刀,不同的刀头有不一样的功能,用户需要了解通过怎样的组合才能满足自己的需求。因此从应用角度而言,开放网络还是有一定的技术门槛。

除了前文所提到的互联网和云服务商之外,通信客户也在积极拥抱开放网络。它们对价格非常敏感,同时业务创新的迭代速度非常快,并拥有强大的技术实力,所以开放网络逐渐获得客户青睐。

开放网络另外一个挑战就是磨合期。有些企业应用场景比较复杂,例如园区网络,所涉及到的设备众多,还需要SONiC与旧有系统做兼容适配,这样就对企业的技术能力提出了更高要求,所以磨合期会更长一些。

不过值得欣慰的是,随着开放网络落地项目的不断增加,IT厂商与SONiC开源社区也有了越来越多的成熟方案可为传统行业提供技术解读与参考,极大降低了开放网络的应用门槛。

目前在数据中心市场,传统网络依然占据主要份额,相比之下开放网络还有较大增长空间。在用户日益复杂的需求推动下,传统网络的各方面劣势早已凸显。所以未来5年内,开放网络在数据中心市场将迅速增长。

谈到未来发展,陈翔显得信心十足。他表示:开放网络的成功,得益于“做减法”,简化了很多不需要的功能,从而降低了产品复杂度。同时又通过开源社区的力量,可以在短时间内做出一个能够与商业交换机相媲美的系统,且很具备开放性。

从封闭到开放,IT软硬件的发展越来越迅速。业界正在将开放计算的成功模式复制到网络领域,在AI大模型需求的推动下,其优势正在被越来越多的行业所认可。未来,开放网络可期。

推荐阅读
关注数
853
内容数
99
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息