GPU荒漠，算力短缺背后的时间竞赛与解决方案｜TE解读

823封面.PNG “AI应用爆发节点或在2024年”
作者 | Koko

“今年以来，A800整机已经从80-90万元，涨到超过了140万元。”

“每天都有新客户来询价。”

“货一到，3天内就没了。”

“二道贩子说有货信不得，因为你既无法验证他的产品是不是旧卡重拆，又不知道他的质保能力。”

……

多位服务器经销商销售人员告诉亿欧TE智库（TEinstitute），现在算力处于供不应求中。

当前，国内AI算力的主要买方分为3类：

一是做大模型研发和应用的科技公司，包括百度、腾讯、阿里、字节等互联网大厂和MiniMax、智谱华章等初创企业；

二是打造智算中心、AI云的各地国央企；

三是落地大模型能力和应用的各行业头部企业。

今年初，ChatGPT的爆红正式让AIGC置于新一代技术革命风暴的中心。为炼ChatGPT提供燃料的英伟达，最早嗅到变革的气息，其CEO黄仁勋2月初就在加州大学伯克利分校哈斯商学院的演讲中明确指出，ChatGPT相当于AI界的iPhone问世。

回到2007年1月9日，乔布斯在旧金山举办的Macworld大会上正式发布iPhone。

多年后回望这一刻，它蕴含了太多历史时刻的开端——移动智能终端普及、社交媒体崛起、数字内容产业扩张、移动应用生态繁荣、网络通信技术加速迭代……

很难简单概括iphone问世代表了什么，因为它在技术更新、社会生活和经济发展等各方面都具有强大的影响力。

这也说明了黄仁勋对AI 2.0时代巨大的期翼——AIGC或将再次重塑人类的生活方式。

而这巨大期翼的另一面，是新生事物发展早期必定经过一段萌芽期。
美国学者埃弗里特·M·罗杰斯在1962年提出创新的扩散理论，还原了一项新观念/事物/技术引入社会体系时的演变过程：创新者-早期接受者-早期的大多数-晚期的大多数-滞后者。

图片罗杰斯创新的传播模型：随着大量新的消费者采纳新技术（蓝色），其市场份额（黄色）最终将达到饱和水平。蓝色曲线按采纳者的接受能力分段（来源：wiki百科）
当前，AIGC的发展正处于创新者和早期接受者之间，距离市场完全爆发还需要穿越早期接受者到早期大多数的一段隧道。
当前市场对AI算力的哄抢，正是因为算力作为AIGC时代的燃料，是支撑产业发展的基建，也是助推市场爆发的重要因素。
为了实现算力可用、可承担，科技公司、政府都在行动中。但在AIGC产业中，触发市场爆发的角色，一定是满足用户需求的产业应用。
算力和应用两者的重要性，就像iphone手机发布次年，苹果发布的iphone 3G和APP Store。
前者为用户提供更快速的互联网连接。后者允许开发者上传应用程序供用户下载，打造了丰富的应用生态，也让优质的应用产品反哺苹果手机销售。
其中一个典型案例是，2009年底“愤怒的小鸟”上线APP Store并在全球风靡。这不光让人们注意到苹果手机作为游戏平台的潜力，还让很多不常玩游戏的人沉迷于此。
最后更多消费者、开发者都注意到苹果应用生态并参与其中，更多好的应用产品诞生并得到普及，如此良性循环。
亿欧TE智库（TEinstitute）认为，如果ChatGPT代表着AI的iphone时刻，那么现在市场还需要更多“愤怒的小鸟”来完成市场落地和普及。
而现在市场上对算力的聚焦，背后也是应用的蓄势待发。

01算力紧张，背后有应用的时间赛

2023年8月中旬，亿欧TE智库对国内数家提供AI算力的服务器代理商进行了询价：

受外部管制，国内大量用于训练大模型的GPU是训练ChatGPT的A100的低配版——A800，单卡现货价格在12万元以上。
以《金融时报》8月初的报道，中国互联网巨头今年向英伟达下单10亿美元，采购约10万张A800芯片计算，A800的出厂价格约1万美元，当前的市场价涨幅超67%（汇率按1:7.2计算）。
有经销商销售人员告诉亿欧TE智库，现在一些有货源的厂商不会直接卖单卡，而是组装成8卡的PCIe整机，以更高的价格出售。
A800 NVlink 8卡整机的现货价格则在140万元以上。口头约定到货时间的期货产品，价格能便宜约二十万元。
英伟达在2023年新发布、性能优于A100 2-3倍的H100，也在国内有低配版上市——H800。目前H800整机的期货价格均在200万元以上。
GPU作为提供AI算力的核心，价格大涨的根本原因是现在市场供不应求，而被市场普遍认可的供给方只有英伟达一家。
离开英伟达有什么后果？企业得承受更低的性能、不低的能耗费用和更长的产品研发周期。
其中缩短产品研发周期，尽早上市产品，重新定义垂直场景的应用，对各行业落地大模型的企业尤为重要。
这从当前现货产品尤其抢手，现货整机价格可高出期货20万元以上可见一斑。
一位服务器经销商的销售人员告诉亿欧TE智库，只要是把自己需求整明白了的企业客户，下单都很痛快。一些等不及的企业还会选择租用云厂商的AI算力，通过同时租用多台服务器缩短产品的研发时间，或者在期货交付前先在云上跑起来。
“主要在抢时间，现在能入局的都是行业头部企业，有钱、有资源、有数据才能做产品。”
供给不足的现象不光存在国内，谷歌、亚马逊和微软等云计算服务商都在面临GPU缺货。马斯克还开玩笑说，搞企业级GPU比买“药”还难。
为什么英伟达不能通过加码生产端满足市场需求？
英伟达的一位高管表示，英伟达正在开足马力生产GPU，但GPU的产能最主要受到供应链的限制。
首先，芯片组件的生产依赖世界范围内的供应商，其中一些组件不乏需要采购稀缺的原材料与高难度的加工。如果英伟达供应商没有在更早意识到GPU需求的爆发，在囤货和生产上就不可避免的滞后。
其次，目前英伟达所有的5nm GPU都只与台积电合作，而台积电只有4个为5nm芯片提供产能的生产节点，其中又只有2个增强型节点满足H100的制程，这还需要英伟达与苹果、高通和AMD共享产能，因为台积电晶圆厂需要提前12个月对各客户的产能搭配做出规划。
对此，多位服务器代理的销售人员告诉亿欧TE智库，8月开始英伟达已不接受A800订单，将产能集中给H800。
正是由于以上原因，部分市场参与者预见到今年GPU将面临短缺，嗅到商机的中间商在上半年以接近原厂的“低价”囤货，进一步让市场上流通的产品更加稀缺，产品价格也更高了。
算力市场短期内离不开英伟达高性能的GPU，大厂也只能积极订货等待明年交付。
《金融时报》称，百度、腾讯、阿里巴巴以及字节跳动今年还向英伟达下单价值40亿美元明年交付的AI芯片。
尽管大量参与者已经相信了“AIGC可以把全部产品重做一遍”，现阶段却不得不拥堵在狭窄的算力管道里。

02算力解法在路上，生态抱团或是答案

在这样的背景下，被华尔街誉为“AI大战中唯一的军火商”——英伟达成为了独一份的香饽饽。今年以来，英伟达市值已多次创历史新高，并跻身万亿美元俱乐部。
老黄成为最意气风发的人，在8月的SIGGRAPH 2023上，他发布了英伟达最新的产品，并再次对公众说出那句名言“The more you buy, the more you save”。
然而，现阶段英伟达GPU芯片供给不足，并不能真正满足客户“buy more”的需求。这也给眼馋英伟达独占AI算力市场的竞争对手留下缝隙。
竞争对手们纷纷起立，向市场交出解决方案。而这或许将加快算力瓶颈的消除。
站在第一梯队的是老牌芯片巨头。
2023年6月，AMD发布AI芯片Instinct MI 300X，对标英伟达H100。MI 300X HBM（高带宽存储器）容量及显存带宽分别是英伟达H100的2.4倍及1.6倍，由于HBM容量大幅提升，单颗MI 300X芯片就可以运行800亿参数的模型。
而在前一年的6月，AMD发布的该系列首代产品Instinct MI 300A，采用的是CPU+GPU架构，对标英伟达的GH200。
不过AMD的这两款MI 300芯片距离实际应用或还需要一定时间，两者现在还处于给客户送样阶段。
英特尔同样不甘示弱。
为了抢占国内AI算力市场，2023年7月英特尔在北京召开发布会，为其高性能AI芯片Gaudi 2推出中国“特供版”。Gaudi 2是英特尔在2022年5月首次公布的一款ASIC（专用集成电路）芯片。
英特尔执行副总裁Sandra Rivera称，以AI开源模型供应商Hugging Face的性能结果为例，Gaudi 2在多种训练和推理基准测试中，表现超过了英伟达A100的性能；在各种最先进的模型上，Gaudi 2的性价比是A100的2倍左右。
此外，英特尔人工智能架构师赵玉萍在8月举办的百度飞桨开发者大会上称，在100-200亿参数规模的大模型上，通过优化架构和软硬件协同，英特尔CPU也能取得很好效果.
另一个动作频频的芯片巨头是手机芯片厂商高通。
2023年7月，Meta发布最新一代开源免费可商用大语言模型Llama 2，并宣布Llama 2将能够在高通芯片上运行。
高通相关人员表示，云端并非AIGC全部图景，看好AIGC在手机、电脑、物联网等“端侧”的机会。
这种大模型+芯片厂商的联姻，和上一轮互联网时代微软与英特尔结成的Wintel联盟异曲同工。
对此，上海交通大学计算机科学与工程系教授梁晓峣认为，AI芯片厂商与大模型厂商要结成对子、形成产业联盟，才能更快推动AIGC的发展落地。
“1.0的传统时代，芯片厂商打包芯片和框架软硬件一体研发。

2.0的深度学习时代，出现谷歌、Meta等巨头推出具有影响力的TensorFlow、PyTorch等框架，这一轮AI芯片创业公司的硬件产品需要适配巨头推出的框架。
3.0的大模型时代，芯片厂商要适配的大模型有了数量级的增加，这时芯片厂商要想尽早落地量产，必须提前圈定大模型伙伴，否则等到应用的时候，双方只会彼此嫌弃不好用。”

市场发展也明显正沿着这条路径。
8月中旬，科大讯飞联合华为发布了帮助企业快速部署大模型的星火训推一体机。两者的合作模式可能就是，华为提供国产芯片和服务器，并将其与讯飞的星火大模型适配。这一设备允许企业从头训练大模型，也能基于讯飞星火大模型针对场景快速优化。

科大讯飞董事长刘庆峰透露，该平台单卡算力已经开始对标英伟达A100芯片。
华为是在今年迅速跟进大模型落地的大厂之一，其能力涵盖底层芯片、AI框架，中层大模型和顶层应用端。
其中，昇腾Atlas 300T训练卡和KunLun G8600分别对标英伟达的芯片和服务器。昇思打造开源生态，对标海外主流AI框架。盘古大模型3.0，面向需求端提供基础、行业和专用三类模型。
另一个以打造生态著称的科技大厂是百度。百度已在芯片（昆仑芯）、框架（飞桨社区）、模型（文心系列）、应用（百度云合作伙伴）四层完成全栈布局。
目前，主打生态协同的飞桨社区已经集成超200个大模型，大量AI芯片创新公司可在飞桨社区完成大模型与硬件的适配，用户也可根据适配的芯片选择大模型来进一步训练和推理。
而海外值得关注的造芯科技大厂，则是在本次大模型浪潮中心的微软。
The Information报道，微软正在研发5nm制程的芯片Athena。这款芯片的目标就是替代昂贵的A100/H100，给OpenAI提供算力引擎。这也同样符合芯片+大模型的组合模式。
可以预见，研发成功后Athena会通过微软的Azure云服务，来抢夺英伟达的蛋糕。
为了保障这项新业务取得理想效果，在科技巨头裁员期间，微软成立了Microsoft Silicon，由前英特尔执行官Rani Borkar领导，有员工近千名。彭博称，微软为此已投入约20亿美元。

国内外自研AI芯片的科技大厂在补充AI算力的第二梯队，第三梯队则是大量AI芯片创业公司。
国内在2016年迎来了一波AI芯片创业潮，跑出了寒武纪、地平线、昆仑芯、燧原、天数智芯等明星企业。这些企业中的不少，也在积极融入以百度飞桨为代表的生态社区中，与框架、大模型厂商协同。

数据源：亿欧数据 2023年数据截止7月底制图：亿欧TE智库高佳欣

如今，在国产替代步步推进的背景下，他们将逐渐成为大模型厂商的优先选择。

亿欧TE智库进行算力询价时，经过追问后已经能零星听到有代理商提到昆仑芯和燧原的名字。

03应用或将爆发于2024年上半年

算力是大模型应用爆发的前提之一，即便很多企业在技术探索阶段，对算力的需求没有那么大，但到了真正做产品级应用时，还是需要算力作为底层支撑。

现在算力的获取方式除了购置服务器搭机房做私有化部署外，如果企业的产品不涉及敏感信息，还可以向国内拥有AI算力的云厂商租赁相关服务。
不过在硬件紧张的背景下，亿欧TE智库了解到，百度阿里腾讯等企业自炼大模型的AI算力虽然基本饱和，但冗余的可供市场交易的AI算力仍然紧张。
图源：阿里云地域为华为2（截图于8月22日）
图源：腾讯云基础设置为随机可用区、GPU机型、GPU计算型GN0Xp型号（截图于8月22日）

短期的算力紧缺，一定程度掩盖了人工智能应用程序的真正潜力。

到目前为止，除了年初就已经让用户大为震撼过的产品ChatPGT、Midjourney、Stable Diffusion，以及图生视频应用Gen 2外，年初到现在还缺少让用户同样直呼“哇噻”的应用。
不过值得补充的是，上半年ChatGPT发布的Copilot已经成为开发者的福音，即便该应用限制在工程师群体。而微软宣布的Office Copilot让全世界期待，虽然该应用至今仍未公开上线。
国内以2023年6月为分水岭，厂商从发布大模型到开启大模型ToB副本，深入千行百业落地。现在各大模型厂商仍在与行业企业共创完善大模型阶段。
ToC方面，2023年上半年百度、阿里、讯飞、MiniMax发布的大模型均可让用户申请测试。具体应用上，WPS发布了智能办公工具，允许安卓和windows系统用户申请测试；网易有道发布了“子曰”大模型，并落地虚拟人口语教练等6个功能……
**细数下来，当前国内普通人真正可用、可感知的大模型应用还很寥寥。
算力紧缺消除、算力平价可能会在一定程度解决这个问题。那么接下来的问题是，这个时间点何时能来？以行业巨头微软的说法，2024年上半年或许是关键节点。**

微软旗下有云服务和OpenAI，是以真实业务在感知大模型和算力市场。在此前的2023财年报告电话会上，微软CFO Amy Hood表示，人工智能服务收入预计到2024年上半年可以实现创收。
这至少说明，微软认为2024年市场对AI的需求还会激增，将有大量AI客户冒出头来。

从这个视角看，AIGC落地千行百业已经不可逆转。

亿欧TE智库此前发布的研报梳理了当前AIGC商业落地产业图谱，可以看到在数个细分场景和行业，已有不少服务商涌现。
图源：亿欧TE智库《企业AIGC商业落地应用研究报告》
亿欧TE智库在做算力询价时，有服务器代理商销售人员明确指出，“各行各业的客户都有”。
解决了算力问题，对企业来说最核心的就是产品打造和打磨了。
金山办公产品总监王中秋告诉亿欧TE智库，找到用户需求和大模型能力结合的场景，是其团队的关键任务，在此基础上打磨产品直到用户体验处于优良，团队才会对外发布。
**不过，在大模型的产品形态上，亿欧TE智库观察到，当前的大模型应用主要以网页版呈现，这并不符合当代人的屏幕使用习惯。
此外，当前许多大模型应用是在现有产品的基础上做AI能力的加法，类似ChatGPT、Midjourney等AI的原生应用还有巨大的想象空间。**
不过改变已经在发生。年初高通就将Stable Diffusion部署在安卓手机上运行；7月底，安卓版ChatGPT正式上线，美国、印度、孟加拉国和巴西四国的安卓用户，已经可在谷歌Play商店下载应用。
海外科研界和风投界也在积极进行AI的原生应用探索。本月，斯坦福Smallville项目在github开放源代码库，允许人们根据指引建立数字版的“西部世界”——人工智能体在其中生活并相互交流，而不知道自己生活在一个模拟环境中。有知名风投机构在一周内投资团队跟进了该项目，并复刻了一个人工智能小镇。

在接下来或将到来的大模型应用潮中，亿欧TE智库看好端侧的大模型应用和AI的原生应用潜能。
(End.)

01算力紧张，背后有应用的时间赛

02算力解法在路上，生态抱团或是答案

03应用或将爆发于2024年上半年

推荐阅读

TE产服

目录