算力作为 AI 的核心驱动力,正经历着前所未有的深刻变革。11月20日,由CDCC主办的“2024届数据中心标准大会”在北京国家会议中心盛大开幕。
超聚变数字技术有限公司算力基础设施领域CTO 丁煜
在主旨论坛 “AI 之光,照耀未来”的现场,超聚变数字技术有限公司算力基础设施领域 CTO 丁煜分享了在绿色算力层面,超聚变多算力兼容开放架构的探索与实践。
融合与突破
新一代智算架构呈现新特质
眼下,单芯片的功率突破1200W。从单卡到多卡再到集群,传统的以通用处理器为核心的计算架构体系,正在向高密、异构、集群计算为核心的智算系统架构演进。
而随着AI算力需求的急剧增长,单靠芯片性能提升已经无法满足用户的算力需求。网络成为新一代计算架构的核心焦点,交换网络的能力一定程度上决定了智算总体性能,算力单元架构需要围绕网络性能的发挥进行定义。因此,新一代计算架构必须具备算网融合特征,发挥出最大算力性能。速率、时延、算力密度叠加,新一代计算架构要围绕高密度和短距来布局。同时,结合算力供给呈现出多元化的复杂局面,新一代架构还需要具备多样化算力兼容特征。
在这样的背景下,超聚变为代表的算力供给设备方积极应对挑战,对产品进行了大量创新改进,不断改进计算架构,推出了开放、多元算力兼容的液冷整机柜形态。
在基础设施侧,也需要做相应调整和适配。随着客户业务多元和全栈TCO的强诉求,算力多元化也给行业带来了巨大挑战,不同公司的产品在设备形态、散热方式、供电要求等方面存在差异。如何让这些不同的解决方案在基础设施中和谐共存、协同工作,成为摆在从业者面前的一道难题。因此,基础设施产业内的企业需不断地驱动技术提升和创新实现多算力兼容,实现硬件单元的架构统一、数据中心接口能力的统一、运维的统一,构建统一的智算底座满足最终用户的AI算力需求。
重构与升级
整机柜呈现新价值
超聚变液冷整机柜的创新来源于突破和融合。在业界首先打破服务器、整机柜边界和数据中心基础设施的部分边界,通过L1、L2融合设计,降低数据中心建设的复杂度和成本。
目前超聚变面对计算的不同场景,分别有面向通用算力的FusionPoD和面向智算的FusionPoD for AI液冷整机柜平台。
超聚变FusionPoD液冷整机柜一经推出就受到市场的普遍关注。一是高密度特质,设备承载密度非常高,可以一柜顶八柜(一个机柜是普通高功率机柜的8倍)。二是高能效,从最初的风液整合逐步向无风全液冷演进,持续降低PUE。三是智能化,水电网三总线盲插设计,简化部署让运维更简单。
基于这些创新设计,超聚变液冷整机柜商用部署验证达到70000+节点。在技术上持续演进中,超聚变在整机柜核心技术上持续迭代,在保持原有整机柜特性基础上进行了“一个重构”和“两个核心”升级。
一个重构:多样化算力的即插即用。面对算力快速迭代、多元算力的发展,FusionPoD for AI的加速器设计为统一接口的3U独立算力单元,可单独维护、单独产品设计,免升级,可适配兼容多样化算力芯片,实现东西方算力的即插即用。在软件上,BMC和BIOS可实现现场直接适配满足,实现最快适配和最小的投入。
两个核心升级:一方面指柔性冷板技术的突破实现IT功耗的降低。目前,FusionPoD for AI零风扇散热,实现节点级全液冷,PUE低于1.1的同时IT设备功耗降低5%-10%。另一方面,全液冷整机柜架构下,液冷背门可以升级为分布式CDU,整机柜集群统一管理和换热边界的打破,实现至简下的普适性液冷应用,避免液冷二次侧部署。
当然还有1500kW高功率芯片的散热、有112G铜缆的柜内高速互连加持,在网络连接方面,产品设计兼顾了客户的多样化需求,既支持 IB、以太网等常见网络连接方式的盲插,也为有特殊需求的客户提供传统走线方式,确保了产品的灵活性和兼容性,解决算力和组网多元化问题。
开放与兼容
液冷AI开放联盟构建新生态
面向未来,超聚变在高密算力、高速互连、全液冷技术等方向上不断创新探索。在技术布局上,公司内部设立的 XLab ,着眼基础技术的投资和研究,为未来产品进行技术备。
超聚变不仅专注于自身技术研发,还积极投身于行业合作,携手各方共同推动绿色智算技术的发展。今年在中国算力大会上,超聚变联合芯片厂商、整机系统厂商和数据中心厂商等合作伙伴,共同成立了液冷 AI 开放联盟,通过制定液冷开放架构、多算力兼容标准,提高不同厂商设备之间的兼容性,整合资源、协同创新,交付一套开放、包容、先进的解决方案。
未来,超聚变将继续秉持开放合作的态度,与行业伙伴携手共进,共同迎接新的机遇和挑战。同时,液冷AI开放联盟持续欢迎生态合作伙伴,为客户提供更优质算力的基础上,能促进整个产业生态系统的繁荣。