本文转载自 “调研纪要” 微信公众号,原文链接 https://mp.weixin.qq.com/s/0DLKD2CPjtXzk4p2SiA2Ng
事件:英伟达在5月29日台北computex峰会发布了使用Grace-Hopper系列的DGX GH200超算。该超算典型配置为256个GH200(每个芯片1U服务器)+96个L1层NVLINK交换机+36个L2层NVLINK交换机+24个IB交换机+42个以太网交换机,算力达到1EFLOPS(FP8),客户预计定位于北美云巨头。
Q:英伟达GH200对光模块和PCB厂商有什么影响?
1)光模块:光模块更多在系统之间的高速互联,除了100G和200G国内兼容性好,英伟达CX7这种400G高端场景,国产支持不太好。另外这些系统实际对光模块需求量不是很大,除非是大规模集群设计。
综合认为在大规模AI场景中,国内光模块厂商不会扮演重要角色;他们更多在信创、传统数据中心(25G、100G)这些中低端市场有一些份额。
2)PCB:对PCB要求越来越高,封装对基板要求也更高;高端PCB需求可能会高速增长。
Q:PCB的ASP会提升,但PCB用量是下降的?
整体PCB量没有明显下降,而且ASP上升,对PCB厂商是好事。
Q:GH200、MI300封装技术的优点是什么?渗透速度会如何?
对于需要完整一体化方案的场景有优势,高度集成、性能提升30%-40%(保证CPU和GPU之间内存一致性),对于英伟达推广自己云服务也是好的解决方案。
但对于很多互联网厂家不是很愿意,他们希望更开放的设计,否则只能绑定在上述产品架构上,而且价格溢价能力变弱;大的市场可能不会有很大市场份额,小于10%。
英伟达推出GH200主要用于弥补CPU体系不足,构建完整的生态,不要过分依赖于CPU x86环境;AMD则是主要用于跟英伟达竞争。
Q:寒武纪跟百度合作的情况怎么样,百度有没有使用思元590?
百度文心一言没有使用思元590,只是早期做了适配,小规模部署500多片,实际上线并没有使用;目前主要用A100和昆仑芯2代。
之前是建立开发团队配合开发,但实际部署结果来看,590性能指标不如A100,而且架构不太兼容、难度大,所以百度没有用。
寒武纪目前的产品不太适合大模型迭代,软件生态问题比较大;比如百度模型在不断迭代中,而每次迭代都需要思元590进行适配和优化,工作量太大,不适合百度开发;另外架构和指令集都比较特殊,不可控因素太多
未来发展上需要进行主流几个框架的支持,但目前支持都不太好,大模型场景使用有难度。
Q:快手传言使用了寒武纪思元590?
快手没有使用大模型,只是使用了一些传统AI技术、小模型,不涉及大规模系统并行,思元590可以支持。
Q:国内芯片厂商里沐曦相对好一些?
沐曦综合情况好一些(软件跟CUDA兼容,团队是AMD原来开发MI200的核心团队),但产品还没出来,只能做初步评价。
Q:A100和H100在国内受限,国内下游厂商是不是对国产芯片持开放态度?
态度开放,都需要找一些替代产品进行平衡,但性价比是关键因素。
Q:模型迭代是否使得推理算力需求降低?
未来头部大厂会出现预训练大模型,而更多模型会是垂直领域小模型,对算力需求碎片化;大规模算力只有头部厂商有需求,其他厂家只需要小模型、小算力。
不过整体需求还是快速增长,特别是推理需求,训练需求可能慢慢放缓。
Q:国内厂商算力储备大概什么量级?向英伟达采购量增长多快?
目前大厂各自手中估计有2k-3k片A100存货量,此前购买的大部分被常规业务占有,比较难拿出富裕算力(除非要把现有业务停掉,能凑出万片左右进行训练)。
国内互联网厂家3月份向英伟达进行38亿美元采购,年底才能陆续交货,持续交货到2024年;所以后面短期可能增速变慢。
Q:AMD MI300的性能怎么样?进展如何?价格水平?未来空间?
1)性能:MI300等比性能接近MI250两倍,整体性能应该是H100的1.5-2倍;核心架构类似英伟达GH200;软件支持对CUDA兼容。
2)进展:国内对应叫MI388,8月份可能提供测试样品;认为是非常强的产品。
3)价格:MI388 国内大概2.2-2.4万美金,非常接近H800。
4)用途场景:跟GH200完全一致,可以用于HPC、AI计算(性能很高,因为集成了CPU,不再需要单独CPU,板子上只需要MI300)。
5)竞争空间:对英伟达GH200、H100形成竞争压力,性价比具备优势;但在AI领域,MI300还有一定距离,主要是软件兼容性有一定差距(虽然支持CUDA兼容,但维护团队不够,并且跟目前典型大模型还没有适配案例,客户不了解)。
Q:MI300下游客户有谁?
国际主要是HPC场景,比如政府超算;国内字节、腾讯在做测试,但因为软件还不是很成熟,所以只能做算力评估,还不能做综合性能、大模型使用场景的评估。
Q:哪些厂家扶持AMD竞争NVDA?
国内外厂家都积极在跟AMD接触,比如微软、AMD、字节、腾讯,他们都对英伟达的溢价和垄断体系有一定的诟病。
PPT环节:
大模型生产流程更简单,但对基础设施要求更高
国内外算力市场发展区别:
1)国内厂商主流集群规模小(比如A100),很难有专门用于大模型训练的集群;国外有大量主流集群
2)国内开发框架不开源,模型市场分化;国外集中单一,开源,生态好
3)具体模型上,国内大部分是基于国外开源进行微调,多数没有掌握核心;国外开始向垂直领域渗透
4)应用方面,国内以内场应用为主,节奏较慢
硬件出货量:23年市场增速快,英伟达季度增速更快(原因考虑是单季客户爆发性增长,全年可能不如Q2);24年之后算力普及,增速进入平稳。
训练和推理比例:国内训练和推理比例一般是1:4,而国外1:7
目前认为只有GPGPU/ASIC能满足大模型算力场景;存算一体也能用,其他像CPU、DPU、FPGA已经不太能使用大模型场景。
华为:昇腾910由于不太支持FP32,必须依赖华为自身软件生态、需要华为深度优化及代码移植,开源大模型很难在910上使用;920能够达到A100性能1.7倍水平,不过供货量可能不足,价格可能也居高。
阿里:产品低调,担心美国调查。
昆仑芯:年底计划做3代,目标是训练,但实际看可能更适合推理。
沐曦:N100出货几百片、几十万元,下一代产品C100,目标训练场景,性能对标H100,并且兼容CUDA,比较期待。
寒武纪:思元590整体算力综合性能大约是A100的70%,指令兼容性差,影响部署;思元590B下一代产品,性能指标大约是A100的1.5倍,但同样面临软件生态影响,以及供应链问题。
景嘉微、芯动、摩尔线程、兆芯:都是GPU,整体性能都比较低,除了摩尔线程能满足AI小模型训练和部分推理场景,但软件不太行,只有小量测试使用;其他3家都不太能用于AI。
海光:类似AMD第一代产品MI50,性能类似英伟达P100,软件生态不错,可以用于大模型;但海光整体策略放在HPC领域中,在AI领域没有多少投入,使用案例少。
作者:调研纪要
原文:企业存储技术
推荐阅读
- Ceph Reef版本 RBD 性能测试:80万写IOPS(10节点、60个NVMe SSD)
- OCP EMEA区域峰会技术资料分享(Prague, Czech)
- Dell Precision 7960 Tower工作站:模块化的传承与提升
欢迎关注企业存储技术极术专栏, 欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。