E企研究院 · 2023年06月19日 · 山西

“算力经济 算网融合” 构建全栈数据中心

2023年6月14日-16日,第四届中国数据中心绿色能源大会在上海落下帷幕。由CDCC、中国智能计算产业联盟、益企研究院共同主办的 “算力经济 算网融合”专场获得与会者广泛关注。
image002.jpg

首份算网融合的算力研究报告发布

益企研究院正式发布《算力经济时代·2023新型算力中心调研报告》。秉承“全栈数据中心”理念,益企研究院自2018年发起“数字中国万里行”,实地考察了位于全国一体化算力网络国家枢纽节点的数十个云数据中心、超算中心和智算中心,结合多年来对CPU、GPU等算力技术发展的持续追踪,先后推出了《2018中国超大规模云数据中心考察报告》、《2021中国云数据中心考察报告》。

《算力经济时代·2023新型算力中心调研报告》内容涵盖算力经济时代的基础设施、多元算力、算存互连、算力互连、绿色低碳和可持续发展等话题,助力产业内伙伴增进对算网融合的理解。

大模型 大算力

全国政协委员、中科院计算所研究员、中国智能计算产业联盟理事长张云泉博士分析了当前算力经济时代算力发展趋势分析与展望。在从事超级计算30余年的过程中,张云泉博士对计算技术的发展和应用有深刻的理解与洞察,于2018年提出“算力经济”这一概念,他认为目前算力发展呈现几大趋势:一是算力服务业异军突起,也意味着中国正式进入算力经济时代;二是超算与AI融合创新,多模态的应用促进智算中心发展,多类算力基础设施并存;三是GPT大模型崛起,AGI时代来临,催生模型作为服务MAAS商业模式。四是算网融合是新的趋势并带来新的算力市场变局。

image004.jpg
全国政协委员、中科院计算所研究员 张云泉

2022年,数字中国万里行曾参观的商汤上海临港人工智能计算中心(AIDC)。商汤科技大装置事业群超算中心总经理林海在本次会议分享了大模型时代AIDC的发展。为SenseCore商汤 AI大装置的算力基座,AIDC一期基于2.7万块GPU的并行计算系统可支持最多20个千亿参数量超大模型同时训练。面对下一代基础架构的发展,商汤科技不断突破现有网络服务器和IDC在各自架构上的瓶颈,通过液冷方案来降低PUE提升机房装机量,通过共建生态产业共融实现更高效的算力应用。

image006.jpg
商汤科技大装置事业群超算中心总经理 林海

中国电子云基础架构总监刘振军认为,高安全的数字基础设施主要包含四大核心要素:可信可控、原生安全、统合算力、数智融通。中国电子云拥有全栈自研产品及自主技术,全栈分布式云原生架构、灵活部署与规模优势,功能全面和性能提升兼容并蓄、云数融合,成为中国信创云的“创新者+实践者”。中国电子云致力于构建一云多心、全栈信创的分布式平台。在这个平台内可以把国产CPU和国产软件定义存储,以及相应的网络设备结合起来。在此基础上,进一步将国产GPGPU、DPU等异构混合算力架构纳入,作为异构算力融合的升级。

image008.jpg
中国电子云基础架构总监 刘振军

华为技术有限公司数据中心专家赵波针对散热、电力容量,以及基础设施的建设周期分享了智能计算对数据中心基础设施的需求和挑战。华为认为未来数据中心机房以液冷为主,多样化的散热方式并存。随着机柜功率密度的提升,配电空间的占比逐步上升,甚至超过IT设备的空间,对电力模块的高密化提出了要求。为了加快数据中心的建设周期,模块化、预制化成为必须,同时,将钢结构主体引入数据中心不但可以加快建设周期,还可以增加有效空间。

image010.jpg
华为技术有限公司数据中心专家赵波

算网融合 高速互联

以往AI有很多不同的模型分支,如基于计算视觉的、基于自然语言处理的。随着以GPT为代表的多模态大模型出现后,模型逐渐走向统一。英伟达网络亚太区高级总监宋庆春指出:未来提供训练服务的平台,会变成非常单纯、但有巨大算力的平台。这个算力平台与传统的云和数据中心的目标完全不同,它追求的就是很单纯的几个甚至只有一个模型,但要让这个模型的性能发挥到淋漓尽致。构建这样强大的计算平台,需要最强的GPU,也需要最强的网络平台。英伟达为计算节点的高速互联提供了包括NVLink、InfiniBand、高速以太网等全面的解决方案,包括多种卸载网络负荷、提升传输效率、降低延迟的技术。

image012.jpg
英伟达网络亚太区高级总监 宋庆春

信息化、互联网是新工业革命的动力,其中光通讯是其中最重要的基石之一。康宁光通信大中华区应用工程和市场发展总监房毅指出,当前广泛议论的人工智能、深度学习进一步推动了网络的发展,设备连接需求普遍达到100G~400G,所以康宁发现光纤实际上面临着更大的发展机会。除了优异的性能、巨大的容量,康宁还重点介绍了全生命周期过程当中整个光纤系统对于环境的友好,以及康宁如何在生产中充分利用绿色能源、降低碳足迹,为人类的可持续发展贡献更大的价值。

image014.jpg
康宁光通信大中华区应用工程和市场发展总监 房毅

业务场景的不断创新推动数据中心算力、网络等架构的持续演进。联想集团新算力服务总顾问侯金刚认为数据中心的网络架构面临智算和超算迅猛增长的挑战,开始进入到第三代。第一代网络架构模型是一种层次型网络架构模型,即接入-汇聚-核心三层网络架构模型,即BSS。第二代网络架构是CLOS,即扁平的网络架构,更好的支持计算和存储分离。第三代网络架构IDC需要增加更多的GPU、TPU等,对超低时延提出了更高要求,如通过PCIe、CXL等技术对内部网络进行重构。

image016.jpg
联想集团新算力服务总顾问 侯金刚

对于CXL为代表的高速总线技术,Molex资深系统架构师王利雄以《算存网融合,数据中心基于CLX3.0基础设施演进》为主题进行了介绍。CXL可以让处理器、加速器之间高效协同、共享内存,并实现资源池化。在CXL3.0阶段,处理、存储资源可以发展为网状连接,设备间实现更优效率的沟通。

image018.jpg
Molex资深系统架构师 王利雄

绿色低碳与可持续发展

数据中心是数字经济发展的底座,如何多快好省的打造数字新基建?传统的数据中心有很多很多痛点,周期长、标准化程度低、综合成本比较高,还有现场施工交叉作业、环境污染等问题。德衡数据执行副总裁李滨江介绍了预制化数据中心有几大优势:设计模块化、工程产品化、部署快速化、交付极简化。预制模块化数据中心解决方案融合了装配式建筑和智能模块化数据中心技术等相关基础设施,每一个模块都集成了诸如机柜、供配电、机房专用空调、综合布线、智能管理等必备的子系统。传统模式完成数据中心的基建需要18个月,预制化数据中心可以将工期缩短为6个月。

image020.jpg
德衡数据执行副总裁 李滨江

去年年的“寒气论”获得了许多共鸣。从2022年开始,许多科技公司,也包括数据中心行业进入到了滞胀期。虽然今年ChatGPT带来了新的投资热点,但寒气并未散去,阿里云基础设施数据中心研究员曲海峰在《算力时代下数据中心产业的发展和挑战》的演讲中带来了冷静的思考:一是产能过剩、供需失衡,部分数据中心上架率并不理想;二是资源错配和投资低效,过半数据中心难以承载AIGC、大模型等新型算力的需要;三是中美的竞争,算力产业发展受到政治因素的制约。面对这些困难,曲海峰借用总书记的谈话勉励观众,“大兴调查研究之风”,及“要坚持底线思维和极限思维,准备经受风高浪急甚至惊涛骇浪的重大考验”。

image022.jpg
阿里云基础设施数据中心研究员 曲海峰

阿里云在全球拥有20家区域,有200多个机房楼,100多万台服务器,庞大的规模也意味着更大的社会责任。阿里云基础设施能耗平台负责人朱昊介绍了智能化平台助力低碳数据中心建设的实践经验。譬如,智能平台消除了碳盘查中的大量人工操作,并将电量等运营数据、上下游企业的数据接入,可将盘查效率提升50%。清晰的碳排放账单除了可以支持ESG报告,还可以提供给云用户,引导用户向低碳数据中心迁移。利用智能平台,阿里云可以从五个点对数据中心进行能效优化:数据采集和预处理、计算核心指标、(工况)算法推荐、下发优化能力、建立安全机制。
image024.jpg

阿里云基础设施能耗平台负责人 朱昊

回顾“东数西算”发展,把握多元算力趋势

在主题论坛尾声,CDCC专家技术组委员、益企研究院创始人张广彬以2018年发起并延续至今的“数字中国万里行”为引,回顾了数据中心技术的发展。张广彬指出,从2015年阿里云在张北建设中心至今,随着字节跳动、华为,以及运营商的陆续投入,“东数西算”已经部分实现,更确切说在华北地区实现了。东数西算、东数西渲、东数西训、东数西存等应用体现了多元算力的需求,譬如数据中心CPU将普遍进行大、小核的区分,GPU与CPU、内存之间的互联带宽愈发重要等。《算力经济时代·2023新型算力中心调研报告》从计算架构、散热效率、能源结构等角度对当前算力发展的趋势做出了生动的介绍。

image026.jpg
益企研究院创始人、首席分析师 张广彬

推荐阅读
关注数
5070
文章数
453
对数据中心、云计算、5G、AIoT 等科技领域的最新技术和应用的信息交流、新产品新技术的引导、技术创新与品牌打造,降低用户对新技术的接受成本
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息