英伟达GH200解读 & 国内外AI芯片发展情况

本文转载自 “调研纪要” 微信公众号，原文链接 https://mp.weixin.qq.com/s/0DLKD2CPjtXzk4p2SiA2Ng

事件：英伟达在5月29日台北computex峰会发布了使用Grace-Hopper系列的DGX GH200超算。该超算典型配置为256个GH200（每个芯片1U服务器）+96个L1层NVLINK交换机+36个L2层NVLINK交换机+24个IB交换机+42个以太网交换机，算力达到1EFLOPS（FP8），客户预计定位于北美云巨头。

Q：英伟达GH200对光模块和PCB厂商有什么影响？

1）光模块：光模块更多在系统之间的高速互联，除了100G和200G国内兼容性好，英伟达CX7这种400G高端场景，国产支持不太好。另外这些系统实际对光模块需求量不是很大，除非是大规模集群设计。

综合认为在大规模AI场景中，国内光模块厂商不会扮演重要角色；他们更多在信创、传统数据中心（25G、100G）这些中低端市场有一些份额。

2）PCB：对PCB要求越来越高，封装对基板要求也更高；高端PCB需求可能会高速增长。

Q：PCB的ASP会提升，但PCB用量是下降的？

整体PCB量没有明显下降，而且ASP上升，对PCB厂商是好事。

Q：GH200、MI300封装技术的优点是什么？渗透速度会如何？

对于需要完整一体化方案的场景有优势，高度集成、性能提升30%-40%（保证CPU和GPU之间内存一致性），对于英伟达推广自己云服务也是好的解决方案。

但对于很多互联网厂家不是很愿意，他们希望更开放的设计，否则只能绑定在上述产品架构上，而且价格溢价能力变弱；大的市场可能不会有很大市场份额，小于10%。

英伟达推出GH200主要用于弥补CPU体系不足，构建完整的生态，不要过分依赖于CPU x86环境；AMD则是主要用于跟英伟达竞争。

Q：寒武纪跟百度合作的情况怎么样，百度有没有使用思元590？

百度文心一言没有使用思元590，只是早期做了适配，小规模部署500多片，实际上线并没有使用；目前主要用A100和昆仑芯2代。

之前是建立开发团队配合开发，但实际部署结果来看，590性能指标不如A100，而且架构不太兼容、难度大，所以百度没有用。

寒武纪目前的产品不太适合大模型迭代，软件生态问题比较大；比如百度模型在不断迭代中，而每次迭代都需要思元590进行适配和优化，工作量太大，不适合百度开发；另外架构和指令集都比较特殊，不可控因素太多

未来发展上需要进行主流几个框架的支持，但目前支持都不太好，大模型场景使用有难度。

Q：快手传言使用了寒武纪思元590？

快手没有使用大模型，只是使用了一些传统AI技术、小模型，不涉及大规模系统并行，思元590可以支持。

Q：国内芯片厂商里沐曦相对好一些？

沐曦综合情况好一些（软件跟CUDA兼容，团队是AMD原来开发MI200的核心团队），但产品还没出来，只能做初步评价。

Q：A100和H100在国内受限，国内下游厂商是不是对国产芯片持开放态度？

态度开放，都需要找一些替代产品进行平衡，但性价比是关键因素。

Q：模型迭代是否使得推理算力需求降低？

未来头部大厂会出现预训练大模型，而更多模型会是垂直领域小模型，对算力需求碎片化；大规模算力只有头部厂商有需求，其他厂家只需要小模型、小算力。

不过整体需求还是快速增长，特别是推理需求，训练需求可能慢慢放缓。

Q：国内厂商算力储备大概什么量级？向英伟达采购量增长多快？

目前大厂各自手中估计有2k-3k片A100存货量，此前购买的大部分被常规业务占有，比较难拿出富裕算力（除非要把现有业务停掉，能凑出万片左右进行训练）。

国内互联网厂家3月份向英伟达进行38亿美元采购，年底才能陆续交货，持续交货到2024年；所以后面短期可能增速变慢。

Q：AMD MI300的性能怎么样？进展如何？价格水平？未来空间？

1）性能：MI300等比性能接近MI250两倍，整体性能应该是H100的1.5-2倍；核心架构类似英伟达GH200；软件支持对CUDA兼容。

2）进展：国内对应叫MI388，8月份可能提供测试样品；认为是非常强的产品。

3）价格：MI388 国内大概2.2-2.4万美金，非常接近H800。

4）用途场景：跟GH200完全一致，可以用于HPC、AI计算（性能很高，因为集成了CPU，不再需要单独CPU，板子上只需要MI300）。

5）竞争空间：对英伟达GH200、H100形成竞争压力，性价比具备优势；但在AI领域，MI300还有一定距离，主要是软件兼容性有一定差距（虽然支持CUDA兼容，但维护团队不够，并且跟目前典型大模型还没有适配案例，客户不了解）。

Q：MI300下游客户有谁？

国际主要是HPC场景，比如政府超算；国内字节、腾讯在做测试，但因为软件还不是很成熟，所以只能做算力评估，还不能做综合性能、大模型使用场景的评估。

Q：哪些厂家扶持AMD竞争NVDA？

国内外厂家都积极在跟AMD接触，比如微软、AMD、字节、腾讯，他们都对英伟达的溢价和垄断体系有一定的诟病。

PPT环节：

大模型生产流程更简单，但对基础设施要求更高

国内外算力市场发展区别：

1）国内厂商主流集群规模小（比如A100），很难有专门用于大模型训练的集群；国外有大量主流集群

2）国内开发框架不开源，模型市场分化；国外集中单一，开源，生态好

3）具体模型上，国内大部分是基于国外开源进行微调，多数没有掌握核心；国外开始向垂直领域渗透

4）应用方面，国内以内场应用为主，节奏较慢

硬件出货量：23年市场增速快，英伟达季度增速更快（原因考虑是单季客户爆发性增长，全年可能不如Q2）；24年之后算力普及，增速进入平稳。

训练和推理比例：国内训练和推理比例一般是1:4，而国外1:7

目前认为只有GPGPU/ASIC能满足大模型算力场景；存算一体也能用，其他像CPU、DPU、FPGA已经不太能使用大模型场景。

华为：昇腾910由于不太支持FP32，必须依赖华为自身软件生态、需要华为深度优化及代码移植，开源大模型很难在910上使用；920能够达到A100性能1.7倍水平，不过供货量可能不足，价格可能也居高。

阿里：产品低调，担心美国调查。

昆仑芯：年底计划做3代，目标是训练，但实际看可能更适合推理。

沐曦：N100出货几百片、几十万元，下一代产品C100，目标训练场景，性能对标H100，并且兼容CUDA，比较期待。

寒武纪：思元590整体算力综合性能大约是A100的70%，指令兼容性差，影响部署；思元590B下一代产品，性能指标大约是A100的1.5倍，但同样面临软件生态影响，以及供应链问题。

景嘉微、芯动、摩尔线程、兆芯：都是GPU，整体性能都比较低，除了摩尔线程能满足AI小模型训练和部分推理场景，但软件不太行，只有小量测试使用；其他3家都不太能用于AI。

海光：类似AMD第一代产品MI50，性能类似英伟达P100，软件生态不错，可以用于大模型；但海光整体策略放在HPC领域中，在AI领域没有多少投入，使用案例少。

作者：调研纪要
原文：企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏，欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

推荐阅读

目录