高盛研究公司(GSR)的数据报告指出,新兴的生成式人工智能工具,将推动全球的国民生产总值(GDP)增长7%,带来约近7万亿美元的GDP增长,并在未来使生产力提高1.5%。这样的价值空间,将推动大模型等相关AI产品市场规模达到1500亿美元,比目前全球软件产业规模还有高出22%。
价值巨大,能力广泛,且能通过“智能涌现”现象带来更多额外想象力的AI大模型,很有可能成为新一轮工业革命的触发点。在今天,每个行业、每家企业都在畅想智能世界的到来,以及自身在其中扮演的角色。
但智能世界就像一座大厦,人们畅想的大厦现代化的设计,优美的环境,最终的入驻体验等。但在真正建造这座大厦之前,首先需要给大厦画好蓝图,建好骨架,夯实地基,否则再美好的智能化畅想都只是空中楼阁。
符合大模型发展需求的基础设施架构应该如何建设?智能时代的蓝图应该如何描绘?
这些问题,在前不久的华为全联接大会2023能够找到答案。
9月21日,华为全联接大会2023期间,华为董事、ICT产品与解决方案总裁杨超斌发表了“拥抱AI时代,构筑智能世界数字基础大设施”的主题演讲。其中提出大模型进入百模千态的AI新时代,打造和应用好AI,关键是要构筑智能世界数字基础大设施。
杨超斌表示:“三力四总线方案为行业智能化升级赋能,AI集群的大算力、大存力、大运力加速AI大模型打造,多场景AI算力和行业智能总线实现智能无处不在。”
简而言之,三力四总线方案就是大模型发展所需的大设施,就是一张智能世界的蓝图。
只有基于大设施的稳固推进,坚定建设,大模型的价值才能最终被充分激活,也只有在合理的蓝图规划与ICT基础设施建设支持下,智能时代才能真正到来。
一张蓝图画AI:智能世界的基础设施需求
从2012年,深度学习作为有效AI路径被证实开始,这种大规模数据+暴力计算模式所带来的存、算、网基础设施需求就被广泛重视。到2018年预训练大模型机制开始兴起,基础设施对于AI发展的重要性更是史无前例。时间来到今天,大模型花开遍地,仅仅在中国就呈现出百模千态的发展盛况。这时我们更应该看到AI发展进程中基础设施蓝图的重要性。
推进大模型产业发展就像设计一座建筑,不能随心所欲,这里盖一堵墙,那里开一扇窗,而是必须优先进行统筹设计,合理规划大模型基础设施的全面完善和协同发展。否则大模型技术与产业很容易出现木桶效应,因为某项基础设施的缺失而导致整体进度的放缓与失效。
具体来看,目前大模型发展对基础设施需求主要分为三方面:
第一个关键词是“大”。AI模型的参数变大,对于计算、存储、网络资源需求也急剧扩大。大模型需要构筑具备大算力、大存力、大运力的“AI集群大设施”,这一点已经是当务之急。
第二个关键词是“全”。AI大模型就像其他数字化应用一样,对ICT基座的需求是全方位的。存、算、网三大领域缺一不可,不能偏废。
第三个关键词是“实”。AI技术要通过深度融合千行万业来获得价值。而AI最终的推理部署场景,很多发生在工厂、企业园区、小微企业当中。这些场景的联接能力,决定了AI大模型落地向实的最后一公里。
从大、全、实三个方向出发,AI大设施必须能够克服一系列严苛挑战。好在华为已经基于三力四总线,画出了一张架构完善、能力坚实的AI大设施蓝图。
立支柱:以三力支撑大模型时代
设计一座建筑,首先要考虑其纵向的受力能力,也就是我们所说的“支柱”。支柱不稳,地动山摇。因此柱子的质量是决定一座建筑能建多高,建多牢的关键。
就像上文所说,大模型的支柱并非只有一根,而是需要存、算、网三大领域协同发力,以三根支柱建设其大模型,大设施的超稳定结构。为此,华为发布了“大算力、大存力、大运力”解决方案。以三立,打造领先的AI大模型训练集群,支撑起顶天立地的大模型时代。
在算力方面,华为通过架构和系统创新,构筑面向多场景的大算力平台,突破AI大模型训练的算力瓶颈。例如,同在华为全联接大会期间,面向万亿参数的大模型训练需求,华为推出了全新架构的昇腾AI计算集群——Atlas 900 SuperCluster。其可支持超万亿参数的大模型训练,并且采用了全新的华为星河AI智算交换机CloudEngine XH16800,借助高密800GE端口能力,两层交换网络即可实现2250节点的超大规模无收敛集群组网。
同时,Atlas 900 SuperCluster集群使用了创新的超节点架构,极大提升了大模型的训练能力。综合华为在计算、网络、存储、能源等领域的综合优势,依托从器件级、节点级、集群级和业务级全面提升系统可靠性,华为能够实现将大模型训练稳定性从天级提升到月级,满足大模型最为核心的算力稳定性需求。
在存力方面,华为发布了AI知识库存储OceanStor A800。其可以通过创新架构来构建高性能的数据存储能力,全面提升大模型训练效率和推理响应时间。
在运力方面,华为发布了业界首款高运力DCN星河AI智算交换机,和业界容量最大的超宽全光智能DCI方案,从而能够以大规模,大容量的网络运力,最大化释放AI算力。 华为星河AI网络解决方案,拥有10万卡级组网和超95%负载率的超高吞吐,并且具备网络故障预测和秒级定界修复的长稳可靠,可以为智算中心等场景带来适配大模型训练需求的网络运力保障。
大算力、大存力、大运力这三根支柱,可以支撑起AI模型支持扩大、所需数据量指数级提升的未来发展。真正做到为未来画蓝图,为未来的大模型建设今天的大设施。同时,华为还改变了传统的服务器堆叠模式,以系统架构创新打造AI集群,实现算力、运力、存力的一体化设计,突破大算力瓶颈。
三力为柱,让大模型参天入云,智能化发展上不设限。
架横梁:以四总线联接智能化落地
大模型技术既要顶天,也要立地。这就是指大模型技术需要落地应用,在最终的行业场景中释放自身价值。
在大模型落地的过程中,却会发现很多应用场景并不能很好实现大模型的推理部署,这就需要联接千行万业的智能总线。
如果说算力、存力、运力是大模型的支柱,那么我们可以将智能总线理解为大模型这座房屋所需要的横梁。横梁将立柱的支撑力结合在一起,组成整个屋宇所需要的立体结构。
面向大模型的落地挑战,华为推出了“智能联接总线”方案,并且已经将其应用到了广域、园区、工业、微企四类典型行业场景。
在广域网络领域,电力、交通、城市等广域场景中有大量行业AI应用。比如电网差动保护、铁路视频分析、全息交通路口等,他们都需要大带宽、低时延、安全隔离的网络。华为推出轻量化、免设计的智能“SE-OTN”产品,从而实现广域智能总线的端到端超宽无损联接快速部署,保障海量场景实现智能化落地。
在园区场景,各式各样的AI能力正在共同定义未来园区。接下来,我们将看到大量AI应用完善园区管理、辅助园区办公、实现新一代人机交互等。这些未来景象的前提,是具备高带宽、全覆盖和智能化的园区网络。为此,华为带来了智能万兆园区解决方案,为行业的园区客户提供高品质的园区网络体验。
在工业场景,工业智能化被誉为是AI应用中的明珠。AI质检、AI巡检、智能AGV、智能工业分析等应用,将极大提升工业生产力,推动工业体系升级。而AI能力的应用,也给工业场景带来了大带宽、确定性低时延、超高可靠的网络需求。华为通过智能TSN交换机与工业光网、Wi-Fi 7等新技术协同,打造了泛在超宽工业智能总线,从而实现数据上得来,智能下得去。
在小微企业场景,未来中小企业通过AI技术提升效率,强化生产力将成为潮流。但小微企业没有独立的网络维护团队,更需要一站式服务与极简运维体验。为此,华为推出一站式微企智能套装,帮助小微企业提升网络接入体验,并实现云端AI应用落地,推动企业的智能化办公和生产。
配合三力四总线的建设,华为还推出了一系列AI相关计算产品。包括Atlas系列集群、训练和推理服务器、训练推理一体机、AI加速模块等,从而满足云、边、端各个场景的AI模型训练与部署需求。
在AI大设施的建设目标下,华为坚持“硬件开放,软件开源,使能伙伴,发展人才”的计算战略,已与30多家硬件伙伴、1300多家软件伙伴,联合推出了2600多个AI场景方案,并已打造50多个大模型,在多个行业场景实现落地。
智能世界,蓝图为先。三力四总线的筑造和落地,相当于为大模型时代画出了清晰的基础设施建设蓝图,为智能世界造就了坚实的发展底座。