软硬件融合 · 1 天前

关于智算云底层业务逻辑的思考

云计算市场本来已经基本定型:全球三大云服务厂商亚马逊 AWS、微软 Azure,以及谷歌云,占据了大部分市场;在国内,五大巨头占据大部分市场,分别是阿里云、天翼云、移动云、华为云和腾讯云。

但随着大模型智算的兴起,给整个云计算产业带来了新的变化。行业出现了很多以智算为特色的 AI-Infra 公司,NVIDIA 等芯片公司在探索基于自身算力芯片和生态的智算云,也有一些公司在探索算力网络等业务模式。

我们可以简单的把智算云的底层业务逻辑分为两类:一类是自下而上,如传统的云计算,以硬件资源为基础,服务各行各业的各个场景;另一类是自上而下,如 AI-Infra,以业务应用为牵引,基于业务需要,再不断夯实算力基础。

这里,抛砖引玉,探讨一下智算云的底层业务逻辑。

1. 一些背景知识

1.1 智算行业常见的算力服务分层

随着 AI 大模型的发展,常见的算力分层为:机房层、硬件层、IaaS 层、CaaS 层、PaaS 层、MaaS 层、解决方案层。这一切分层,都是为了服务客户的业务应用层(部分业务应用系统足够庞大、业务逻辑足够复杂,也可能会继续分层)。

智算服务分层简单介绍:

  • IaaS,Infrastructure as a Service,基础设施即服务。用户通过 IaaS 服务租用服务器、存储、网络等基础设施,无需购买和维护物理硬件。
  • CaaS,Containers as a Service,容器即服务。CaaS 提供了高效、灵活的方式来运行和管理容器,适用于多种环境,包括本地数据中心、混合云和多云环境。
  • PaaS,Platform as a Service,平台即服务。PaaS 提供开发和部署应用程序所需的平台和工具,用户无需管理底层基础设施(服务器、存储、网络等),只需专注于应用程序的开发和运行。
  • MaaS,Model as a Service,模型即服务。提供深度学习模型的访问和使用服务。用户可以通过 API 调用这些预训练或定制模型,无需自行开发或训练,专注于应用集成和业务创新。
  • 解决方案层。为了更好的帮助客户的业务应用落地,围绕某些技术以及针对某些场景,所开发的公版解决方案。

1.2 算力分层的金字塔和倒金字塔

如左图所示,IaaS、CaaS、PaaS、MaaS 每一层的服务都可以直接对外售卖,因此从下到上每层服务所包含的算力规模会逐渐减少。

如右图所示,按服务数量的分层为倒金字塔:越往下,差异性越小,单个服务的覆盖面越大,服务的数量越少;越往上,差异性越大,单个服务的覆盖面越小,服务的数量越多。底层通用性的服务,各家智算云厂家都差不多,难以形成差异性优势;只有通过更上层的差异性的算力服务,才能更好的帮助到用户,也更容易形成用户粘性。

又如右图所示,从下到上,也是一个算力价值逐渐增大的过程:底层裸算力价值最低,把底层裸算力封装成更上层的算力服务,价值会更高。

1.3 自下而上模式和自上而下模式

软件和硬件,是相互协作密不可分的关系;但两者,谁主谁从,则是在不断演进变化的。

自下而上模式,硬件占据主导地位,硬件资源支撑并定义上层软件业务应用;反过来,自上而下模式,软件业务应用约束并定义底层的软件和硬件资源。

传统的云计算,是一种自下而上的模式。云计算是一种以资源为核心的算力软硬件系统组织方式,整个系统堆栈,从最底层硬件开始,不断的叠加更上层的算力服务,如 IaaS、CaaS、PaaS、MaaS 等等,以期更好的支撑上层的业务应用。

而新兴的 AI-Infra,则是一种自上而下的模式。随着大模型发展,新兴的 AI-Infra 类的公司,以 AI 为导向,为上层提供相关的各类 MaaS 服务。同时,为了更好的支持其 MaaS 服务,对底层的软硬件进行了一定的优化甚至重构。但这些底层软硬件重构,不影响提供给的上层业务用户的服务接口,业务无感。

完全的从最高层的业务应用出发,不太现实。因为单个业务应用,并不足够构成足够的规模。而以次一层的应用框架层出发,覆盖相近场景所构成的某个具体领域,则是自上而下的典型案例。

2. 智算云的底层业务逻辑

2.1 底层业务逻辑综述

按照算力的底层业务逻辑,我们可以把智算云分为六种模式。

  • 模式 1,经典公有云,自下而上,以基础资源为核心。公有云也有 PaaS、MaaS 等更上层服务,但都是以 IaaS 层资源服务为基础构建。
  • 模式 2,AI-Infra,自上而下,聚焦 AI 和 AI+。以 AI 为核心,构建面向各行各业的高层次的算力服务。
  • 模式 3,以芯片架构为基,自下而上,目前主要是 NVIDIA 在做此尝试。因为距离业务最远,也是最难的一种模式。
  • 模式 4,聚焦特定技术领域,自上而下。技术背景的公司,可以聚焦在自己擅长的技术领域,以特定技术领域为中心,逐步向外围扩展。
  • 模式 5,聚焦特定行业,自上而下。相对于算力服务,更关键的是要能够赋能业务场景落地。于是,一些算力服务企业,深耕特定行业,以此行业特色和丰富的行业场景解决方案为核心竞争力。
  • 模式 6,聚焦特定地域,自上而下。各地政府,在探索算力网的业务模式。算力网的主要作用是,统筹当地各种算力资源,也借外部算力为我所用,以此来赋能当地的新经济和重点行业发展。

2.2 模式 1:云计算,以基础资源为核心

公有云计算,是以基础资源类服务(IaaS)为核心的,数百项各层次各类服务所组成的算力服务体系。相比通算云,智算云的各项算力服务,可能有升级、有重构,甚至有新增,但算力服务体系的组织架构不会变。

公有云,也有 PaaS、MaaS、SaaS 等,但本质是仍是一种自下而上的模式:把硬件资源封装成服务,然后再一层层叠加更高层的服务,然后再服务更上层的用户业务应用。

2024 年,全球公有云市场规模近 6000 亿美金。公有智算云是目前最主要的智算云方式。随着大模型智算的兴起,给整个云计算产业带来了新的变化。所有的云计算公司,都在积极的从通算云向智算云公司转型。

2.3 模式 2:AI-Infra,聚焦 AI&AI+

最开始,AI 可以算作一个技术领域,但随着大模型的兴起,我们走向了 AI 时代,AI 成为了一切业务应用必不可少的基础组件。

AI-Infra,其业务逻辑的核心是 AI 和 AI+:

  • 以 AI 为中心,逐步扩展到其他配套算力服务;
  • 承上,面向各种 AI+的业务场景和应用;
  • 启下,构建满足 AI 特定需求的硬件和底层软件的基础设施。

本质上,AI 属于业务应用层,AI-Infra 属于自上而下的模式,属于业务应用(上)定义底层硬件资源(下)的模式。

随着智算算力占比越来越高,以及 AI 相关上层服务的需求越来越多,AI-Infra 越来越成为一个重要的商业形态。未来会涌现越来越多的 AI-Infra 特色的智算云公司。

2.4 模式 3:NVIDIA,以架构为基础

几乎所有的云计算巨头都在自研芯片,这给了传统芯片公司很大的压力。NVIDIA 作为传统芯片公司的优秀代表,不能坐以待毙:对方侵入了自己的业务范畴,那么自己也需要侵入对方的业务范畴。

NVIDIA 目前在智算云方面,做的相关工作主要如下:

  • 第一方面,NVIDIA 的数据中心级 GPU,通常不单独售卖芯片,主要是以板卡、整机甚至整个智算中心解决方案的方式提供。案例:AI 超算工厂,NVIDIA 在美国德州和亚利桑那州建设超级计算机制造工厂,整合 Blackwell 芯片的封装测试与系统组装,目标未来四年生产价值 5000 亿美元的 AI 基础设施。
  • 第二方面,NVIDIA 的 Omniverse 平台。Omniverse 是一个计算机图形与仿真模拟平台,通过数字孪生技术,结合生成式 AI 等技术,帮助企业实现虚拟仿真。Omniverse 本质上是以 NVIDIA GPU 为底座的聚焦特定技术领域的智算云,也就是本文中接下来要介绍的模式 4。
  • 第三方面,NVIDIA 在过去一年中大幅增加了对云服务的投资,承诺在未来几年内至少投入 90 亿美元用于云计算服务。这包括其 2023 年推出的 DGX Cloud 服务,该服务允许云提供商租赁 NVIDIA 的服务器,并将其作为云服务销售给企业。
  • 第四方面,NVIDIA 收购了几家 AI-infra 公司,以此来增强其在以 AI 为特色的算力服务方面的技术实力。如 NVIDIA 近期完成了对 Lepton AI 的收购,这是一家专注于 GPU 云服务的初创公司;Lepton AI 成立于 2023 年,其业务模式是租赁 NVIDIA GPU 服务器(如 A100 和 H100 型号),并将其转租给需要高性能计算资源的企业。此次收购也标志着 NVIDIA 从单纯的芯片制造商向 AI 基础设施即服务(AIaaS)提供商的战略转型。

NVIDIA 以特定芯片(架构)为基础,来构建算力服务,是一种最难的智算云模式(距离最终用算力的客户最远)。除 NVIDIA 之外,目前,暂未看到有其他芯片厂家在做类似的事情。

2.5 模式 4-6 综述

跟传统的公有云相比,模式 4-6 的差异性主要有两点:

  • 第一点,相对于传统公有云自下而上,如 AI-Infra 一样,模式 4-6 本质上也是一种自上而下的模式。 模式 4-6 相比 AI-Infra 模式来说,其整体业务逻辑要更靠近上层一些(AI 是业务侧的底座层)。模式 4 聚焦具体的技术领域,模式 5 则脱离了技术范畴聚焦了更上层的行业,模式 6 同样脱离了技术范畴聚焦了特定的地域。
  • 第二点,则是聚焦。 公有云,相对来说,规模都比较大,赋能千行百业,走的是“大而全”的模式。而模式 4-6,则属于反向而行之,走的是“小而美”的专业化路子:聚焦特定领域、聚焦特定行业或聚焦特定地域。

当然,如果一个智算云企业做大做强了,未来逐步拓展其他领域、其他行业、其他地域也是必然的事情。

2.6 模式 4:差异化,聚焦特定技术领域

一些技术背景的智算云公司,通常以特定技术领域为聚焦范畴,如视频图像领域、安全领域、区块链领域、科学智算领域、边缘智算领域等。

聚焦特定技术领域:

  • 一方面可以给上层业务提供更加专业、全面、深度的算力服务;
  • 另一方面可以在特定技术方向做定向技术优化,从而实现最极致的算力成本。

下面,我们介绍一下特定领域的底层硬件加速优化的一些共性方法。

如上图,一个典型的计算架构,包括的处理器资源池有:CPU、GPU、X-AIPU、X-DSA、HPN。X 代表具体的领域;X-AIPU,为面向领域特色大模型的 AI 加速器;X-DSA,为面向其他特定领域的加速器。

加速计算优化可以分为三类:

  • 优化一:随着领域大模型的成熟,大模型加速逐渐从 GPU 切换到更加高效低成本的 X-AIPU;
  • 优化二:领域中其他性能敏感算法,通过专用的 X-DSA 加速;
  • 优化三:高 HPN 大带宽低延迟,但也高成本;根据业务需求,合理选择 IB、RoCEv2 或 Eth;支持网络转发可软件编程,和自定义高性能网络协议。

2.7 模式 5:差异化,聚焦特定行业

行业有很多,常见的行业有石油、电力、金融、教育、化工、医药、交通等等。每一个单独的行业,仅国内,其算力需求规模,通常都有 100 亿左右。深耕特定行业,也足以成为一个有足够影响力的智算云公司。

聚焦特定行业的智算云公司,其竞争力不在于 IDC、智算硬件、IaaS/CaaS/PaaS 等底层算力产品和服务(这些产品,可以标准化,由外部供应商提供),
而核心竞争力在于:

  • 面向特定行业的 AI 大模型,以及相关的 MaaS 级服务(训练、微调、推理、API 调用等);
  • AI 和特定行业特定业务场景的结合,给客户提供完善的从云到边再到端的软硬件综合解决方案;
  • 汇集行业特色数据,赋能行业各类 AI+业务场景落地;
  • 其他面向行业的产品和服务。

2.8 模式 6:差异化,聚焦特定地域

在“东数西算”大背景下,各地都在如火如荼的建设智算中心。如何把智算中心资源整合,如何更好的消纳算力,如何能更好的提升算力附加值,以及如何更好的赋能业务应用和当地经济发展,则是各地政府都在思考的话题。

政府算力网项目,则是在这个大背景下产生的。目前,全国很多城市都在筹建城市算力网项目,并且在算力网的业务模式探索方面,做了很多的工作。这一模式一旦走通,未来会在全国多地开花。并且会进一步从城市算力网,升格成区域算力网,甚至全国算力网。

很有可能,未来会形成若干家面向全国的算力网公司。

3 总结和展望

我们从下到上,对几种智算云底层逻辑的未来发展进行一个总结(一家之言,仅供参考):

  • NVIDIA,基于芯片架构的模式。这种模式,我们认为,很难走通。一方面是距离最终的业务客户最远;另一方面,和自己的主要大客户(各类公有云公司)存在竞争关系,这可能进一步加速客户采用其他供应商芯片(或自研各类核心芯片)。
  • 公有云模式。公有云既要专注算力的底层软硬件(AWS 等公司自研芯片,自研高性能网络,做非常多的底层优化),还要关注 AI 为核心的 AI-Infra。公有云模式的公司,未来可能分化成两类公司:成为更聚焦 AI 的 AI-Infra,成为更关注底层算力资源的 IaaS 云公司。
  • AI-Infra 模式。我们认为,在 AI 时代,AI-Infra 会成为最为核心的智算云模式。
  • 差异化模式,模式 4-6。一方面,底层云技术的成熟,也包括 AI-MaaS 层技术的成熟;另一方面,轻模式智算云成为主流,其切入门槛会进一步降低,从目前数十亿投入进一步降低到千万甚至百万级投入。未来会出现非常多的以模式 4-6 为切入点的公司,更聚焦行业,更聚焦业务,更聚焦客户。

END

作者:Chaobowx
来源:软硬件融合

相关文章推荐

更多软硬件技术干货请关注软硬件融合专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
2814
内容数
113
软硬件融合
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息