毫无疑问,今天以云计算为标志的“普惠”算力已经得到了非常广泛的普及,如今的云计算更像是一个底座,无论是大数据、IoT、区块链、AI,所有的新兴技术都能够融入云的底座,并基于云服务的形态提供任何一种技术服务,而在应用端则是“万物皆云”,无论是智慧城市、智慧医疗、智慧教育、智慧交通,所有服务于社会民生和企业的能力都能够通过云来传递,这也推动了整个社会对算力基础设施更大的需求。
也正因此,国家高度重视算力产业的发展,为加速推进算力布局,国家近期也发布了多项与算力有关的国家政策,特别是“东数西算”工程的启动,作为一个覆盖全国主要经济区域、横跨东西部资源和应用的算力网络枢纽,“东数西算”不仅会带来数据、算力跨域流动,同时也成为了实现产业跃升、平衡区域发展的重要基础基础设施,可以说加快推进算力网络建设,已成为全行业乃至全社会的共识。
但也要看到,目前算力网络的发展仍面临资源分布不均、算力利用效率较低、算力缺乏有效调度等挑战,而化解这些挑战,对推动算力网络的建设,赋能企业和产业打造新服务、新模式和新业态,无疑具有重要的战略意义。
在此背景下,在日前举办的2022中国算力大会上,新华三集团网络产品线规划与解决方案部总经理汲哲指出:“建立各方认可的统一算力评估标准平衡成本、效率和体验,构建分层分域管理的算网架构,实现客户体验和社会总体效益的平衡,是未来高效调度管理算力的关键所在。”
作为算力网络发展的积极参与者和赋能者,新华三对算力评估体系和算力调度方法的全新思考与探索,对算力网络未来的建设和演进之路,乃至推动算网融合在更广范围、更深程度、更高水平上融合创新无疑会起到更多的助推作用,而这背后也体现了新华三在“东数西算”工程和算力网络建设中,不仅是具有前瞻性的,更是具有全局观的,其价值可谓“不止于现在,更关乎未来”。
算力网络建设的四重挑战
可以看到,尽管我国算力基础设施不断发展完善,但是算力水平依然很难满足数据量猛增带来的巨大算力需求。此外,AI大模型的开发需要强大的算力支撑,AI技术为企业生产提供切实可用的价值更需要算力支撑。因此无论是数据中心还是人工智能计算中心,均无法满足全社会对算力的需求,因此通过算力网络实现网络互连、资源共享、协同调度将是大势所趋。
对此,汲哲表示,算力网络建设并不是“一蹴而就”的,特别是目前算力网络仍然处在一个早期的阶段,这也导致了其在未来的建设过程中会面临着四个方面的挑战。
一是,从共享角度看,国家实施“东数西算”工程,构建全国算力网络体系,本质上就是希望提高跨区域的算力调度水平,因此就算算力网络的规模再小,其依然还是跨区域的,这就会涉及到一个如何解决“共享性”的问题。换句话说,未来唯有把长三角、粤港澳大湾区、京津冀、成渝经济圈等区域的算力网络实现互联互通,由此构建出一个能够共享的、全国性的泛在算力网络,将是算力网络建设中的核心目标。
二是,从均衡角度看,由于历史原因,我国数据中心的分布是存在一定程度的“失衡”现象的,具体表现在目前一线城市由于受到能耗指标、土地、电力等资源的限制,整体的算力需求处于“供不应求”的状态,但同时中西部的算力供给却处于“供大于求”的状态,而从全国的均衡性考虑,这就需要国家层面去统一调配,但必须承认的是,这种跨区域的算力调度水平本身就存在很大的难点。
三是,从安全角度看,无论是“东数西算”还是还是算力网络建设,其核心其实也是为了解决“数据”的跨区域的存储和流通问题,但在此过程中,算力网络也将产生更多的资产暴露面和更高的连接频次,遭受攻击的概率也将大幅增加。如果将算力网络比作木桶,那安全就是其底座,没有底座就无法蓄水。因此,筑牢算力网络的网络安全体系同样也“刻不容缓”。
四是,从低碳角度看,随着全球和中国推进“双碳”战略,如何降低数据中心能耗水平也正变得越来越急迫。以中国市场为例,预计2023年数据中心能耗将达到2600亿千瓦时,到2030年数据中心用电量将突破4000亿千瓦时,占全社会用电量的比重将升至3.7%。更为关键的是,目前数据中心的整体PUE值依然偏高,平均的PUE值为2.46,远远达不到国家规定的PUE值1.4以下的指标,因此进一步降低数据中心能耗水平也就变得至关重要。
由此可见,在未来算力网络的建设中,如何实现“共享、均衡、安全和低碳”,如何更好地平衡成本、效率和体验、如何高效地调度、连通横跨上千公里的算力基础设施,构建触手可及的泛在算力网络,不仅是趋势所在,更是迫在眉睫。
构建算力评估体系是前提
我们知道,在算力网络的建设中,算网融合无疑也是大势所趋,因此算网融合不仅需要利用网络实现多种算力的多层次互联,同时还需要实现算力资源的感知、调度,并根据用户需求灵活供给。但与此同时,由于整个算网融合的产业规模庞大且链条复杂交错,加之算力网络的建设刚刚起步,缺少标准体系的顶层设计,因此未来如何打破算力信息互通和实现智能化调度,以及尽快构建出算力网络评价标准也就变得十分的重要。
在汲哲看来,未来算力网络要为百行百业的用户提供算网一体化的体验,那么大致上会经历以下的流程:即当用户向算力网络运营方购买算力服务时,如一次视频渲染服务,用户就需要先在运营商提供算力网络商城中,选择满足用户要求的服务或者APP,之后算网大脑会根据SaaS厂商提供的资源需求计算出这次业务需要的云计算资源,并且在云计算资源池中找到符合要求的节点,之后会开通应用运行环境,并安装SaaS厂商提供的镜像,完成之后,算网大脑还会计算到这个节点的最优路径,并下发到云专网中,并为客户业务提供端到端的应用加速、安全加固等功能。而在这一过程中,算网大脑就需要一个统一的算力评估体系,使不同参与方能够协同工作。
“未来算力网络提供的是一个泛在的算力,既包括传统的算力,也包括网络的能力,而算力最难的部分在于如何实现度量,背后的原因是由于算力网络运营方可能会基于不同的处理器或者虚拟化软件来对算力实现管理,这就可能到会导致对外提供的算力不一样,因此没有统一的算力度量衡,就没办法进行交易。”汲哲说。
为此,新华三基于前期与算力网络运营方合作中的一些具体实践以及深度的思考总结,提出了算力评估体系中应该重点关注的三大方向。
首先,是需要分阶段构建算力评估标准体系。算力评估体系应分阶段推进:第一阶段基于用户算力需求,综合考虑算力因子、网络因子以及成本因素,得出综合评估结果;第二阶段,算力评估需引入软件服务,建立统一的服务镜像仓库和服务目录,为客户提供算力服务。
其次,算力评估既需关注功能,也要考虑服务的统一。例如,在关注基本功能实现的同时,也需考虑安全、容灾备份等服务指标,建立统一的标准;更为关键的是,算力评估中的重点应聚焦应用化、场景化,基于业务场景确定不同评估模型,满足场景适配要求;同时,还要将整网均衡情况、总体社会效益目标纳入算法,实现整网资源利用的最大化。
最后,统一标准后方能聚合生态合力。建立起统一的算力评估标准体系,才能强化产业链各方整体协同,形成算力网络强大的生态合力,为百行百业提供易用易获得,屏蔽厂商和地域差异的泛在算力服务。
客观地说,算网融合的终点,是希望算力能够像日常使用中的“水和电”那样,让全行业和全社会都能更加便捷地获取,但算力并不像水和电那样是“有型”的,作为一个“无形”的数字化能力,算力网络的建设无疑需要通过统一的算力评估体系,按照统一的路线实现融合创新,这样才能够进一步加快推进算网融合,为中国数字经济的高质量发展奠定基础。
而新华三前瞻性地提出的统一算力评估体系,可以说对推动算力网络的建设有着十分重要的价值:一方面,通过建立统一的算力网络评估标准体系,能够使得算力网络的所有参与者和运营者达成共识,为算力网络的建设提供了宝贵的参考依据;另一方面,新华三提出的算力评估标准体系既是分层次,也是多维度的。如充分考虑到用户对于功能和服务的关注,也考虑到了算力评估体系的应用化、场景化、生态化的需求,是真正站在客户需求视角的评估体系,这种方式既兼顾了统一性,也实现了“因地制宜”,相信能够让评估标准和结果更符合算力网络建设的需求。
分层分域管理算网是关键
事实上,算力网络建设中的难点还不于此,在统一算力评估标准体系之外,算力网络中跨域管理,以及智能调度问题同样也十分的重要。汲哲认为:“东数西算作为中国前所未有的算网融合工程,东西横跨上千公里,且将接入全国各地的算力节点,这也对背后的管理框架提出了全新的挑战。”
“首当其冲就是各地建设周期不同步,如此大的工程,不可能一夜之间完成,因此算网架构必须考虑可逐步迭代、分级分区域演进;同时,如此庞大的算网融合,对算力调度的计算和维护也是天量的,必须将计算和管理工作分层分解;此外,不同地区的云专网由不同厂商的设备组成,厂商之间接口不兼容,对算网统一调度的需求,必然需要投入大量工作完成不同厂商之间的对接测试,需要兼顾不同厂商的设备能力,提供一种对设备要求较低的互通方案等等。”他说。
基于此,新华三也设计了分层算网大脑架构,通过系统分解、局部优化等方式,实现具备算力统筹和智能调度能力的算力网络,具体来看:
第一,专网构建跨区域分布式算网大脑。分层算网大脑架构通过在省内部署区域中心算网大脑,实现区域的集中控制、本地优先。同时,在集团总部部署总部中心算网大脑,分布式控制调配全网算力资源,降低综合算力成本。各省与总部中心的算网大脑通过专用网络实现算力协同,共同构成覆盖全国的超级分布式算网大脑。
第二,算力资源和算力管理要“双管齐下”。全国范围集中管控算力资源带来巨大的计算量和消息通信,使得算力资源的集中评估至关重要,从算力资源和管理方面着手才是解决之道;在算力资源上,跨省资源建议只选择“东数西算”枢纽资源,社会泛在算力资源仅在省内调度,确保跨省调度效益最大化;在管理方面,将路径计算分成用户所在省、全国骨干网、云资源所在省三段,算力评估时各自计算路径,使计算分布式,提高效率、优化管理流程。
第三,复用现有网络协议为算网建设“降本增速”。不同厂商的网络设备之间实现互通才能更好支持算力网络需求。因此,新华三提出,应尽可能复用现有的通用网络协议,降低对路由器软件的依赖和路由器本身性能要求,最小化地减少对路由器的改造,充分利旧,以便于在降低运维成本同时,加快算力网络落地进度。
据介绍,目前新华三也正以分布式算网大脑为核心,秉承“融合创新”的技术战略,为运营商和政企客户提供泛在的算网一体化服务。所谓“融合”指的是算网智用一体化,从而让算力和智能实现无处不在;而“创新”指的是算力度量、分级分布式算网大脑架构等技术创新,既适用于本地化区域中心控制运维,也支持“东数西算”的宏观调度。
展望未来,汲哲最后也表示,相信算力网络今后经过三个阶段的建设,一定会成为推动中国数字经济高质量发展的“新引擎”。其中,在起步阶段,核心理念是“协同”,尽管目前算和网依然是两个独立的个体,各自编排调度,但算网开始向布局协同、运营协同发展,通过协同算网服务入口,实现资源互调,满足用户一站开通需求;在发展阶段,核心理念是“融合”,未来算与网逐步融合发展,但还是两个身体,负责管理编排的“大脑”开始融合统一,实现在算网资源层面的统一管理、编排和调度;在跨越阶段,核心理念是“一体”,到时候算网的边界将会被彻底打破,形成算网一体化基础设施,为用户提供融合多技术要素的一体化服务。而在此过程中,新华三愿意与运营商、云服务商、设备厂商一起,通过开放合作、联合创新,携手共同推进“东数西算”战略的加速落地。
全文总结,随着“东数西算”工程大规模的建设,未来算力网络将会成为成为中国数字经济高质量发展的“底座”与支撑,而新华三提出的统一算力评估标准体系,以及分层分域管理算网的新理念和新方法,无疑将会在今后算力网络的建设中贡献出更高的价值,真正让算力网络为百行百业的数智化转型升级提供新动能,并驱动和引领中国数字经济走向更为广阔的新未来。