软硬件融合 · 2 天前

是否存在低门槛的智算云模式?

编者按

大部分人觉得,要想创立一家智算云公司,没有个几十亿投入几乎不可能做起来。而我们对此有不一样的看法。

随着智算大模型的发展,业务系统更加庞大复杂,不同领域、不同行业的业务应用,可能千奇百怪,差异巨大。传统公有云赋能千行百业的模式,在具体的某个领域或行业,可能会力有不逮,无法充分赋能企业的业务落地和业务规模化。

我们认为,AI 时代,传统公有云业态应该会分化(行业分工)成两个业态:一个业态聚焦算力基础设施,一个业态专注于单个或多个领域或行业的业务赋能。

业态一,是重资产投入,单个项目规模数十亿甚至上百亿。

而业态二,即为本篇文章重点关注的智算云模式;它是一种轻模式,其核心竞争力在于对领域或行业业务的深入理解和持续深耕;此种智算云模式,其资金门槛相对不高。

正文详细分解。

1. 问题本质:系统越来越庞大,行业越来越成熟,分工不断产生

回顾公有云之前的互联网时代,最开始系统规模较小,集群服务器数量个位数,企业自己买机器,自己搭互联网业务系统。但后来,随着系统规模不断扩大,集群服务器算力达到数十甚至上百。对一个企业来说,从硬件到软件架构和开发,再到具体业务应用,这样大包大揽模式的门槛越来越高。

于是,出现了云计算。云计算可以帮助企业更好地完成算力基础设施的繁琐工作,让企业能够从这些基础性的工作中解放出来,专心业务发展,聚焦业务创新。经过近 20 年的发展,公有云已经成长为算力基础设施的主流业务模式。

智算时代,主要有如下一些变化:

  • 基础设施投入相比通算,提高了一个数量级;
  • 智算系统更加庞大复杂,需要支持千卡万卡集群,以及多元异构算力;
  • AI+场景挑战巨大:有的场景应用需要赋能,有的场景应用需要重构,甚至可能需要原创一些全新的行业和场景应用。

智算时代,如果还延续目前的公有云模式,那么会遇到如下一些困难:

  • 基础的 IaaS 和 PaaS,甚至 MaaS,其开发和投入占比会越来越小;绝大部分人员和资源投入,投在了具体的跟行业、场景相关的各种上层定制服务和解决方案上;而这些投入相对不够聚焦。
  • 公有云会更加臃肿不堪。经过近 20 年的发展,公有云已经从最开始的 20-30 项算力服务,发展到了 300-500 项算力服务。按照现有模式继续发展,智算大模型时代,很可能突破 1000 项算力服务。
  • 大而全,意味着在特定的领域和行业,投入不够大,并且专业度不够,效率较低,所能提供的价值有限。在特定领域或行业,跟聚焦于此的专业的智算云相比,没有优势。
  • 公有云逐渐变成摊大饼发展模式,投入产出不成正比。

我们认为,在智算时代,公有云业态会逐渐分工成两种业态:

  • 业态一,算力基础设施云。聚焦智算算力建设,对外主要提供裸机和集群为主,也可能提供一些 IaaS 层算力,如虚机和容器等基础算力服务。
  • 业态二,轻量+专业模式的智算云。轻量体现在算力资源从外部买入(算力租赁),自身不直接持有算力。专业指的是聚焦某个特定技术领域或行业。

2. 智算行业的核心问题:算力消纳

算力供需的结构性矛盾,是智算行业永恒的话题。如何能找到更多的销路,如何能解决算力消纳,是智算行业大家最关心的问题。

智算行业之所以存在结构性矛盾,主要原因如下:

  • 智算中心的算力,不满足要求。一方面,智算中心提供的裸算力,距离客户可以使用的更上层的算力服务,还有很大的距离。另一方面,智算中心算力通用性不足,基于特定架构芯片建设的智算中心,存在生态不完善、场景覆盖少、客户群体小、生命周期短等问题。
  • 公有云,力有不逮。单个大型公有云,无法有效赋能千千万不同领域、不同行业、不同业务场景的各种差异性需求。需要有(数量级提升的)更多的聚焦特定领域或行业的专业智算云,来更好的服务不同客户的差异性需求,从而拓展算力消纳市场规模。从营销的角度看,“众人拾柴火焰高”,N 家智算云的总和算力消纳能力,通常也会大于单个公有云的算力消纳能力。
  • 算力行业,轻消费。从技术角度看,企业的算力环境越来越复杂:系统架构越来越复杂(从“云-端”架构到“云-边-端”架构,从协同架构到融合架构),算力越来越多元和多源(多元异构算力纳管、终端算力纳管、闲置算力上云,以及算网算力纳管等),需要有强大的企业侧算力管理软件,来统筹企业的算力使用。需要形成以企业算力消费为中心,消费驱动供给的算力新模式;同时,以终为始,从帮助企业业务落地以及企业方便使算力的角度出发,来反向的优化算力供给。

3. 公有云,重生产

在公有云模式下,越来越多的软硬件堆栈工作被公有云接管,企业的工作越来越聚焦。凡事有利有弊:

  • 有利的地方是,公有云接管的工作越来越多,企业所需要关注的事情越少,企业可以更好地聚焦业务创新和快速迭代。
  • 但与此同时,带来的新问题。越上层的堆栈层更靠近业务层,跟业务关联度更高。因此,在这成千上万个领域或行业的具体的场景应用方面,公有云是否都足够擅长?并且都足够高效?

公有云无法做到在成百上千的技术领域或行业,都能够面面俱到。于是,公有云 ISV 逐渐兴起。ISV 和公有云深度合作,服务企业,帮助公有云打通“最后一公里”。ISV 通常是一家 IT 集成公司,负责为企业提供算力整体解决方案(私有云、公有云、混合云等),在这个过程中,会用到公有云资源。

这种模式下的 ISV:

  • 仍然是在公有云的产品和业务模式大框架下,完成公有云算力服务在企业业务中的具体落地。没有站在企业视角,构建以企业业务为中心的算力综合解决方案。
  • 与此同时,在公有云大框架下,ISV 的技术创新能力受到约束。在一些行业客户的深层次创新业务方面,如果需要算力服务的大范围自定义和底层重构,ISV 也完全无能为力。
  • 公有云 ISV 模式下,ISV 难以形成客户粘性以及技术方案的积累,也没有太多技术自主权,整体技术实力较弱,能做的事情有限。

公有云,是典型的生产定义消费的模式,也可以说是一种“重生产、轻消费”的模式,还可以通俗的称为“大入口、小出口”的模式。在算力资源不足的情况下,这种模式没有问题;但在算力资源足够丰富的情况下,这种模式就必然面临消纳瓶颈。

4. 专业智算云,聚焦算力消费

在算力供给(入口)足够丰富的情形下,最大的瓶颈肯定是算力消费(出口)。专业智算云模式,其本质就是聚焦算力消费,拓展算力出口。

在此模式下,基础算力供应商,就类似水电煤,真正做到稳定、低价、海量和安全。

专业的智算云,聚焦在一个或(有限)多个领域或场景,赋能相关企业的业务落地和业务规模化。这些(技术)领域如视频图像、安全、区块链等,行业如电力、金融、医疗、工业制造等。

在此特定的领域或行业,专业的智算云,相比传统大包大揽的公有云,能更好的服务好企业的各项算力需求,也因此能够拓展更大规模的算力消费。

从更宏观的角度看,诸多的专业的智算云厂家所组成的“虚拟联合体”,比大型的公有云厂家,能更好地赋能算力消费,能拓展到更大规模的算力市场。

5. 专业智算云的起步门槛有多高?

专业智算云的挑战和门槛在哪里?我们从资金门槛和技术门槛两个方面分别介绍。

5.1 技术门槛

把整个公有云算力服务体系,按服务数量多少进行分层,则分层为倒金字塔型:越往下,差异性越小,单个服务的覆盖面越大,服务的数量越少;越往上,差异性越大,单个服务的覆盖面越小,服务的数量越多。

公有云算力服务,因为要照顾到千行百业的各种业务场景,算力服务数量较多(300 多项,大部分是上层的 PaaS 和 MaaS 层甚至更高层服务)。而聚焦特定领域和行业的专业智算云,其算力服务数量则要少很多(约 50 多项)。

算力服务,可以分为通用基础部分和专用特色部分。依据二八定律,面向特定领域和行业的智算云服务,其通用基础部分可以占到 80%(40+项算力服务),而专用特色部分占到 20%(10 项左右)。底层为通用基础的服务,这部分算力服务的技术开发和运维,可以交给专门的智算云技术提供商。上层的差异性的特色算力服务,是专业智算云的核心竞争力,可以组建一个数十人的技术团队专门开发维护。

5.2 资金门槛

当前情况下,一个典型智算中心(约 3000P 智算算力)建设费用大约在 10 亿左右(包括 IDC 和算力设备)。一个稳定运行的智算云,后台算力资源可能需要接入多个智算中心,再加上其他各项费用,
一个智算云的投入门槛差不多可以算到 30-50 亿。这是传统的重模式,这么高的门槛,不是创业公司可以参与的。

这里我们介绍一种创业公司可参与的智算云轻模式。

某民营智算云项目,采用 NVIDIA 消费级 GPU 算力,100P 作为一个最小单位。

对智算云运营来说,以 100P 为粒度,所有的算力均是动态接入,消纳多少即接入多少,可以做到接近 100%的算力设备使用率(类似仓库,需要有一定的库存)。

一个最小单位算力的投入约 1200 万(IDC 建设+设备上架),软件和运维费用(公有智算云 IaaS+CaaS+PaaS+MaaS+解决方案)约 100 万,运营费用约 200 万,预计整体(整个生命周期)营收 2000 万,毛利 500 万。

上述价格是按照整个项目周期测算的,并且是自建算力模式。如果把这些费用分摊到 5 年里,并且算力资源投入采用按年租赁模式(完全的轻模式),则可以把每年的各项成本投入压缩到 400 万以内(一个最小单位,100P 算力)。这个智算云轻模式的起步门槛相对较低,对一些志向做智算云或 AI-Infra 的创业公司足够友好。

END

作者:Chaobowx
来源:软硬件融合

相关文章推荐

更多软硬件技术干货请关注软硬件融合专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
2814
内容数
114
软硬件融合
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息