这张图在留待文末再详细解释
在一个月之前,我曾提到随着 DeepSeek 的出现,在 AI PC 上尝试本地部署 LLM 大模型的人多了不少。除了 Ollama、LM Studio、Chatbox 这些工具,关注 Dify 等构建知识库的用户也增加了。
而 AI PC 的性能制约着模型部署的大小和体验。这方面性能又可以分为 3 个维度——算力、内存带宽和容量。前两者决定了 AI 推理不同处理阶段的速度;而内存(显存)容量则决定了能装下多大参数的模型。AI PC 在这一轮的创新型产品,就是在集成 CPU+GPU(高性能 AI PC 上 NPU 算可选项吧)的基础上,同时提高 3 个维度能力来达到突破的。
在此之前的 AI 硬件方案,比如顶级的大显存工作站显卡,还有多 GPU,由于成本原因暂时不放在本文的讨论范围内。像 RTX 4090 和 RX 7900 XTX 这些 24GB 显卡支持的 AI 模型上限一般在 32B 的范围。
最近我看到业内新出现了 2 种桌面级 AI 计算/PC 类产品,一个是在 NVIDIA GTC 大会上正式发布的 DGX Spark(芯片代号 GB10),还有基于 AMD Ryzen AI MAX PRO 处理器的笔记本/移动工作站/台式机,都宣称能支持 70B 乃至更高参数的模型。可能一些读者朋友觉得它们定位不同?但我却觉得有相似或者共通之处,所以今天来一起讨论下。
256 位 LPDDR5x 统一内存的价值
NVIDIA DGX Spark 号称“最小的 AI 超级计算机”,它的处理器有点像微缩版的 DGX 计算系统(参考下图),在 GB10 单芯片上集成了 Grace CPU——20 个 Arm Core,以及 Blackwell 架构的 GPU。
AMD Ryzen AI MAX PRO 系列(代号 Stirx Halo),更接近传统集成显卡的 x86 CPU,但整合 GPU 的性能却比较强。其默认 TDP 功耗 55W,根据不同系统设计,cTDP 可调功耗在 45-120W 范围。
关于 AI 计算性能,尽管从标称数值上看左右两边差距有点大,但正如 NV 官网https://www.nvidia.com/en-us/... 上的注释,这个 1000(不知道是不是加上了 CPU 部分?)是 FP4 TOPS using the sparsity feature(稀疏精度),如果是按生成式 AI 常用的标准(稠密)精度,理论性能是上述的一半——500 FP4 TOPS,而 FP8/INT8 标准精度算力则应该是 250 TOPS。
另一方面,无论使用 CPU 还是 GPU 做 AI 计算,在 LLM 推理的 Prefill(内容输入理解)阶段的瓶颈是算力;而在 Decode 输出时的性能(Token/s)则主要受制于内存带宽。我们看到上面 2 款产品都使用了 256 位 LPDDR5x-8533 内存(AMD 的实际运行速率为 8000),比传统 AI PC 的 64 位双通道内存提高了一倍,相当于 4 通道。
对于 CPU 和 GPU UMA 共享内存的架构,256bit 位宽这点设计对高性能集成 GPU 发挥,特别是 AI 性能的发挥至关重要。下文中我还会列出测试数据来证明。
NVIDIA DGX Spark 带有 ConnectX-7 高速网卡,参考独立网卡的规格,可能是 1 个 400Gb/s 或者 2 个 200Gb/s 网口?支持 NCCL、RDMA 和 GPUDirect。DGX Spark 的受众客户群体主要是 AI 研究人员、数据科学家和学生,有助于模拟 GPU 服务器的集群组网实验,比如可以用 2 台跑 405B 大模型。
按照 2 台主机 256GB 内存来计算,要是跑 Llama3 405B 也是 4bit 的量化精度。如果按照我在《DeepSeek-R1 671B 最小化部署实验:CPU+192GB 内存》里的玩法,1.58bit 量化精度的 671B 模型本身占用内存 132.x GB,加上 KV Cache 等开销应该也是能跑的。
256bit LPDDR5x-8000 内存的带宽,与服务器上的 6 通道 DDR5-4800 差距不大,所以 AI 性能比普通 PC 的双通道内存还是要好很多。
再进一步极限讨论,单台 128GB 内存能跑 671B 吗?KTransformers 方案是用 16GB 或以上的显卡来给 CPU 加速,理论上并不能比 Unsloth 的 1.58bit 更节省内存,但有人说 60GB 系统内存就能跑起来。这个我相信,但很怀疑只有模型的一部分动态加载进了内存,一旦访问到 SSD 时性能就… 除非把模型量化/压缩到比 1.58bit 更小的尺寸?至于这么玩有没有实际需求,我在这里先不下结论,还是要看与 32B 和 70B 蒸馏模型的效果比较——对这一段讨论感兴趣的朋友,请记得阅读本文结尾处的关键章节。
基于 AMD Ryzen AI MAX PRO 的系统,我看到有的台式机/工作站设计了 2.5GbE 网口,理论上也可以用 PCIe 4.0 来连接万兆级别的网卡芯片(以实际产品为准)。如果只是双机组网,应该还可以用 USB 4.0/雷电接口实现高速对连,参考我以前写的《雷电存储性能 & USB4 P2P 20Gbps 网络测试浅析》。
DGX Spark:对比 RTX 5070 的优劣势
NVIDIA 在官网上称 Spark 为“台式电脑”,上图中的定位又放在了 AI PC 与 DGX Station 之间。从宏观角度上,高性能独显的笔记本和台式机/工作站也归类在 AI PC,所以也可以说 DGX Spark 和 Ryzen AI MAX 都属于“超大显存”的 AI PC。
尽管 NVIDIA DGX Spark 带有 HDMI 显示输出接口,但 NV 网站的照片却是用笔记本来通过网络访问。由于 Grace ARM CPU 只认证了 DGX™ OS 操作系统,应该只能跑 Linux(不兼容 Windows),所以 DGX Spark 主要就是用于计算,图形性能方面不知是否做了优化?
AMD Ryzen AI MAX PRO 则是通用的 x86 处理器,常规的 Win11、Linux 都兼容,操作环境与普通台式机/笔记本/工作站相同,用途不限于 AI。
DGX Spark 的 AI 性能,与 GeForce RTX 5070 桌面显卡较为接近。不过有一点,5070 的显存带宽高达 672GB/s,这一点即使是 256bit LPDDR5x 内存的集显也忘尘莫及。毕竟一块 5070 独显就是 250W TGP 功耗,其空间占用也很难做到 Mini 机箱/轻薄笔记本里面。
虽然 iGPU 访存带宽上不及独显,但 128GB 统一内存的最大好处就是可以胜任更高参数的 AI 模型。比如 5070 的 12GB 显存最多以 4bit 精度推理 14B 大语言模型;而 DGX Spark 和 Ryzen AI MAX PRO(GPU 最多分配 96GB 显存)却很容易容纳 70B 模型。虽然内存带宽不算特别充裕,但至少比显存爆了之后通过 PCIe“借用”系统内存要好得多。
Ryzen AI MAX PRO:最强 CPU+GPU+NPU 处理器?
DGX Spark 毕竟不支持 Windows 桌面,AMD Ryzen AI MAX PRO 可以说是今天综合能力最强的 x86 AI PC 处理器?当然传统的 CPU+高端独显目前还是主流的方案,只不过 256bit 统一内存有其独特的价值。
传统的高端移动工作站,最多支持 4 条 48GB 内存,容量甚至可以超过 128GB,但只有双通道(128bit);另外普通 DDR5 内存速率比 LPDDR5x 也要低一些。
上图可以看到 RDNA 3.5 架构高性能集显在 Ryzen AI MAX PRO 里占用的面积。相比之下,NPU 显得高效许多——当然 NPU 的发挥也要看什么用途。
HP ZBook Ultra 14 inch G1a 移动工作站,重点看 Ryzen AI MAX PRO 处理器周围的 8 颗 LPDDR5x 内存。
HP Z2 Mini G1a 桌面工作站,前文中我提到过,Ryzen AI MAX PRO 具体机型的 cTDP 功耗释放取决于散热和供电设计。
惠普 2 款机型可选的 CPU 型号如下。做为工作站产品,其显卡驱动应该是按 Radeon Pro 来适配的——带有针对三维 CAD 等 ISV 软件的优化和认证。关于图形性能本文先不赘述了。
- AMD Ryzen™ AI MAX+ PRO 395 (3.0 GHz base clock, up to 5.1 GHz max boost clock, 64 MB L3 cache, 16 cores, 32 threads) with AMD Radeon™ 8060S Graphics and AMD Ryzen™ AI (50 NPU TOPS)
- AMD Ryzen™ AI MAX PRO 390 (3.2 GHz base clock, up to 5.0 GHz max boost clock, 64 MB L3 cache, 12 cores, 24 threads) with AMD Radeon™ 8050S Graphics and AMD Ryzen™ AI (50 NPU TOPS)
- AMD Ryzen™ AI MAX PRO 385 (3.6 GHz base clock, up to 5.0 GHz max boost clock, 32 MB L3 cache, 8 cores, 16 threads) with AMD Radeon™ 8050S Graphics and AMD Ryzen™ AI (50 NPU TOPS)
- AMD Ryzen™ AI MAX PRO 380 (3.6 GHz base clock, up to 4.9 GHz max boost clock, 16 MB L3 cache, 6 cores, 12 threads) with AMD Radeon™ 8040S Graphics and AMD Ryzen™ AI (50 NPU TOPS)
六联智能最高可配锐龙 AI Max+ 395 的迷你机“AXB35-02”,其功耗/性能释放可以做到 120W。
DeepSeek 等大模型测试:GPU 算力体现、内存带宽决定的 Token/s
下图引用自 AMD 官方社区博客,觉得有参考价值所以分享给大家。首先对比使用 LM STUDIO 跑 3B-14B 参数范围的 LLM 大模型推理,其中包括多款 DeepSeek R1 蒸馏模型。两款笔记本配置分别是:
- ASUS Zenbook S14 32GB - Intel Core Ultra 7 258V
- ASUS ROG Flow Z13 64GB - AMD Ryzen AI Max+ 395 (AMD Radeon 8060S)
这里未测试更高参数的语言模型,因为 Intel CPU 应该是最多动态分配一半的系统内存给集显,而 AMD Ryzen AI Max 在 64GB 内存时能最多分配 48GB 给 Radeon 8060S。
前面说过 Radeon 8060S 的性能水平,网上看评测确实也有达到桌面版 RTX 4060。而这里看到的 Token/s 可能没有想象的差距大——跑到 Intel Arc 集显的 2.x 倍。
再解释一次,大模型推理 Decode 输出时的瓶颈主要在内存(显存)带宽,包括 H20 GPU 的商业模式都是与这一点符合的。此时再看 256bit(4 通道)内存与双通道的差距就比较合理了。
在此我大胆预测,NVIDIA DGX Spark 如果跑上面一样的测试,其推理 Decode 阶段的 Token/s 性能应该与 Ryzen AI MAX PRO 接近。
Time to First Token(首 Token 输出时间)比的是 Prefill 阶段的算力,Radeon 8060S 的性能充分发挥出来——3B 级别的模型领先普通 AI PC 4 倍,到 14B 模型则达到 10 倍以上。如果给本地 AI 大模型输入长文本,这个价值就会明显。
视觉模型的对比,其中包括 4B 和 12B 参数的 Google Gemma 3。
上图是用 Gemma 3 27B 视觉模型,进行 CT 医疗影像的识别诊断。AMD 将 Ryzen AI Max+ 395 称之为“最快的 x86 处理器”,在这里也可以理解为最强集显的 x86 处理器,毕竟 CPU Core 在 AI 计算上的效率通常无法与 GPU 相比。另外大容量统一内存也有助于容纳 INT8 或者 FP16 精度的模型数据。
未来 AI 模型参数会越来越大吗?
上面是从网上引用的 AMD AI PC 发布会照片。
拿我自己来举例吧:一年前左右我经常在 AI PC 上测试 6B/7B/8B 模型,主要是受限于当时笔记本集显的性能,包括 8GB 独显也不太胜任跑 14B 及更大的模型。
体验下聊聊天没问题,甚至离线跑个机器翻译都还凑合。但进一步的生产力应用,比如 RAG(内容增强生成)则要跑在 32B 参数模型效果才会比较好,像 Ollama 默认的 4bit 精度模型也不太合适了(RAG 建议量化精度 6-8bit)。
注:AMD 也有类似的建议 “日常使用时使用 Q4 KM 量化,coding 写代码时使用 Q6 或 Q8。”
上下文方面:今天 AI PC 上的输入序列长度达到 1K-2K 基本够用了,而明天将达到 3K-5K。无论是 RAG 的内容检索,还是长文本输入/多轮上下文关联会话,这一点确实有意义。
至于 first token 输出时间是 1 秒还是 100ms,我觉得要看应用对实时性的要求。比如即时翻译或者连续图像识别,类似这种边缘 AI 场景大家能理解吧。
在 AMD 的发布会上,模优优科技讲解了用锐龙 AI Max+ 395 的 iGPU,运行 DeepSeek-V2 236B 模型的生成速度达到了 12+ Token/s。
目前他们已经完成对 DeepSeek V3/R1(671B)模型的混合精度量化,在与 Unsloth 1.58bit 量化相仿的 131GB 尺寸下,精度损失较小并且大幅领先于 Qwen 2.5 72B 的效果。后续目标是通过专家融合+编码,跑在 Ryzen AI Max+ 395 的 128GB 共享内存上,同时把模型的一部分层加载到 NPU 和 CPU Core 来配合 iGPU,有望达到 10 Token/s 的 Decode 性能——是不是与 KTransformers 有点异曲同工?
总结&展望
从去年最早在新闻中看到 256bit 内存的 Stirx Halo,我一开始没太细想与 AI 应用的强相关。诚然,DGX Spark 应该是个定位偏小众市场的产品;而 Ryzen AI MAX PRO 也刚开始杀入 AI PC 市场。加强的 GPU 和 256bit 内存在成本上肯定比传统 PC 处理器要高。不过一旦将来 Ryzen AI MAX PRO 这一级别的硬件销量上了规模,其性价比应该还有提高的空间吧。
至于短期内,我更关心的是,有多少受益于这种“大显存”产品的应用出现。
在我从业于硬件的这些年,Intel、AMD、NVIDIA 几大巨头对高性能集显的尝试不止一轮了。而 DeepSeek 等 AI 应用的蓬勃发展,则再次触发了新一轮机会遇。我想分享的东西并不止于本文写的这些,今天受限于时间精力先告一段落:)
扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)
END
作者:唐僧 huangliang
原文:企业存储技术
推荐阅读
- 在AMD MI300X上增强DeepSeek-R1推理能力:调优至7,318 Token/s
- DeepSeek-671B 纯 CPU 部署:配置选型、性能测试与量化对比
- MegaSacleOut:长距高性能网络千卡 AI 训练测试
欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。