15

DeepSeek 能否引领 AI PC 发展趋势?(技术篇)

image.png

这张图在留待文末再详细解释

在一个月之前,我曾提到随着 DeepSeek 的出现,在 AI PC 上尝试本地部署 LLM 大模型的人多了不少。除了 Ollama、LM Studio、Chatbox 这些工具,关注 Dify 等构建知识库的用户也增加了。

而 AI PC 的性能制约着模型部署的大小和体验。这方面性能又可以分为 3 个维度——算力、内存带宽和容量。前两者决定了 AI 推理不同处理阶段的速度;而内存(显存)容量则决定了能装下多大参数的模型。AI PC 在这一轮的创新型产品,就是在集成 CPU+GPU(高性能 AI PC 上 NPU 算可选项吧)的基础上,同时提高 3 个维度能力来达到突破的。

在此之前的 AI 硬件方案,比如顶级的大显存工作站显卡,还有多 GPU,由于成本原因暂时不放在本文的讨论范围内。像 RTX 4090 和 RX 7900 XTX 这些 24GB 显卡支持的 AI 模型上限一般在 32B 的范围。

最近我看到业内新出现了 2 种桌面级 AI 计算/PC 类产品,一个是在 NVIDIA GTC 大会上正式发布的 DGX Spark(芯片代号 GB10),还有基于 AMD Ryzen AI MAX PRO 处理器的笔记本/移动工作站/台式机,都宣称能支持 70B 乃至更高参数的模型。可能一些读者朋友觉得它们定位不同?但我却觉得有相似或者共通之处,所以今天来一起讨论下。

256 位 LPDDR5x 统一内存的价值

image.png

NVIDIA DGX Spark 号称“最小的 AI 超级计算机”,它的处理器有点像微缩版的 DGX 计算系统(参考下图),在 GB10 单芯片上集成了 Grace CPU——20 个 Arm Core,以及 Blackwell 架构的 GPU。

AMD Ryzen AI MAX PRO 系列(代号 Stirx Halo),更接近传统集成显卡的 x86 CPU,但整合 GPU 的性能却比较强。其默认 TDP 功耗 55W,根据不同系统设计,cTDP 可调功耗在 45-120W 范围。

关于 AI 计算性能,尽管从标称数值上看左右两边差距有点大,但正如 NV 官网https://www.nvidia.com/en-us/...  上的注释,这个 1000(不知道是不是加上了 CPU 部分?)是 FP4 TOPS using the sparsity feature(稀疏精度),如果是按生成式 AI 常用的标准(稠密)精度,理论性能是上述的一半——500 FP4 TOPS,而 FP8/INT8 标准精度算力则应该是 250 TOPS。

另一方面,无论使用 CPU 还是 GPU 做 AI 计算,在 LLM 推理的 Prefill(内容输入理解)阶段的瓶颈是算力;而在 Decode 输出时的性能(Token/s)则主要受制于内存带宽。我们看到上面 2 款产品都使用了 256 位 LPDDR5x-8533 内存(AMD 的实际运行速率为 8000),比传统 AI PC 的 64 位双通道内存提高了一倍,相当于 4 通道。

对于 CPU 和 GPU UMA 共享内存的架构,256bit 位宽这点设计对高性能集成 GPU 发挥,特别是 AI 性能的发挥至关重要。下文中我还会列出测试数据来证明。

Image

NVIDIA DGX Spark 带有 ConnectX-7 高速网卡,参考独立网卡的规格,可能是 1 个 400Gb/s 或者 2 个 200Gb/s 网口?支持 NCCL、RDMA 和 GPUDirect。DGX Spark 的受众客户群体主要是 AI 研究人员、数据科学家和学生,有助于模拟 GPU 服务器的集群组网实验,比如可以用 2 台跑 405B 大模型。

按照 2 台主机 256GB 内存来计算,要是跑 Llama3 405B 也是 4bit 的量化精度。如果按照我在《DeepSeek-R1 671B 最小化部署实验:CPU+192GB 内存》里的玩法,1.58bit 量化精度的 671B 模型本身占用内存 132.x GB,加上 KV Cache 等开销应该也是能跑的。

256bit LPDDR5x-8000 内存的带宽,与服务器上的 6 通道 DDR5-4800 差距不大,所以 AI 性能比普通 PC 的双通道内存还是要好很多。

再进一步极限讨论,单台 128GB 内存能跑 671B 吗?KTransformers 方案是用 16GB 或以上的显卡来给 CPU 加速,理论上并不能比 Unsloth 的 1.58bit 更节省内存,但有人说 60GB 系统内存就能跑起来。这个我相信,但很怀疑只有模型的一部分动态加载进了内存,一旦访问到 SSD 时性能就… 除非把模型量化/压缩到比 1.58bit 更小的尺寸?至于这么玩有没有实际需求,我在这里先不下结论,还是要看与 32B 和 70B 蒸馏模型的效果比较——对这一段讨论感兴趣的朋友,请记得阅读本文结尾处的关键章节。

基于 AMD Ryzen AI MAX PRO 的系统,我看到有的台式机/工作站设计了 2.5GbE 网口,理论上也可以用 PCIe 4.0 来连接万兆级别的网卡芯片(以实际产品为准)。如果只是双机组网,应该还可以用 USB 4.0/雷电接口实现高速对连,参考我以前写的《雷电存储性能 & USB4 P2P 20Gbps 网络测试浅析》。

DGX Spark:对比 RTX 5070 的优劣势

Image

NVIDIA 在官网上称 Spark 为“台式电脑”,上图中的定位又放在了 AI PC 与 DGX Station 之间。从宏观角度上,高性能独显的笔记本和台式机/工作站也归类在 AI PC,所以也可以说 DGX Spark 和 Ryzen AI MAX 都属于“超大显存”的 AI PC。

Image

尽管 NVIDIA DGX Spark 带有 HDMI 显示输出接口,但 NV 网站的照片却是用笔记本来通过网络访问。由于 Grace ARM CPU 只认证了 DGX™ OS 操作系统,应该只能跑 Linux(不兼容 Windows),所以 DGX Spark 主要就是用于计算,图形性能方面不知是否做了优化?

AMD Ryzen AI MAX PRO 则是通用的 x86 处理器,常规的 Win11、Linux 都兼容,操作环境与普通台式机/笔记本/工作站相同,用途不限于 AI。

Image

DGX Spark 的 AI 性能,与 GeForce RTX 5070 桌面显卡较为接近。不过有一点,5070 的显存带宽高达 672GB/s,这一点即使是 256bit LPDDR5x 内存的集显也忘尘莫及。毕竟一块 5070 独显就是 250W TGP 功耗,其空间占用也很难做到 Mini 机箱/轻薄笔记本里面。

虽然 iGPU 访存带宽上不及独显,但 128GB 统一内存的最大好处就是可以胜任更高参数的 AI 模型。比如 5070 的 12GB 显存最多以 4bit 精度推理 14B 大语言模型;而 DGX Spark 和 Ryzen AI MAX PRO(GPU 最多分配 96GB 显存)却很容易容纳 70B 模型。虽然内存带宽不算特别充裕,但至少比显存爆了之后通过 PCIe“借用”系统内存要好得多。

Ryzen AI MAX PRO:最强 CPU+GPU+NPU 处理器?

DGX Spark 毕竟不支持 Windows 桌面,AMD Ryzen AI MAX PRO 可以说是今天综合能力最强的 x86 AI PC 处理器?当然传统的 CPU+高端独显目前还是主流的方案,只不过 256bit 统一内存有其独特的价值。

Image

传统的高端移动工作站,最多支持 4 条 48GB 内存,容量甚至可以超过 128GB,但只有双通道(128bit);另外普通 DDR5 内存速率比 LPDDR5x 也要低一些。

Image

上图可以看到 RDNA 3.5 架构高性能集显在 Ryzen AI MAX PRO 里占用的面积。相比之下,NPU 显得高效许多——当然 NPU 的发挥也要看什么用途。

Image

HP ZBook Ultra 14 inch G1a 移动工作站,重点看 Ryzen AI MAX PRO 处理器周围的 8 颗 LPDDR5x 内存。

Image

HP Z2 Mini G1a 桌面工作站,前文中我提到过,Ryzen AI MAX PRO 具体机型的 cTDP 功耗释放取决于散热和供电设计。

惠普 2 款机型可选的 CPU 型号如下。做为工作站产品,其显卡驱动应该是按 Radeon Pro 来适配的——带有针对三维 CAD 等 ISV 软件的优化和认证。关于图形性能本文先不赘述了。

- AMD Ryzen™ AI MAX+ PRO 395 (3.0 GHz base clock, up to 5.1 GHz max boost clock, 64 MB L3 cache, 16 cores, 32 threads) with AMD Radeon™ 8060S Graphics and AMD Ryzen™ AI (50 NPU TOPS)

- AMD Ryzen™ AI MAX PRO 390 (3.2 GHz base clock, up to 5.0 GHz max boost clock, 64 MB L3 cache, 12 cores, 24 threads) with AMD Radeon™ 8050S Graphics and AMD Ryzen™ AI (50 NPU TOPS)

- AMD Ryzen™ AI MAX PRO 385 (3.6 GHz base clock, up to 5.0 GHz max boost clock, 32 MB L3 cache, 8 cores, 16 threads) with AMD Radeon™ 8050S Graphics and AMD Ryzen™ AI (50 NPU TOPS)

- AMD Ryzen™ AI MAX PRO 380 (3.6 GHz base clock, up to 4.9 GHz max boost clock, 16 MB L3 cache, 6 cores, 12 threads) with AMD Radeon™ 8040S Graphics and AMD Ryzen™ AI (50 NPU TOPS)

Image

六联智能最高可配锐龙 AI Max+ 395 的迷你机“AXB35-02”,其功耗/性能释放可以做到 120W。

DeepSeek 等大模型测试:GPU 算力体现、内存带宽决定的 Token/s

下图引用自 AMD 官方社区博客,觉得有参考价值所以分享给大家。首先对比使用 LM STUDIO 跑 3B-14B 参数范围的 LLM 大模型推理,其中包括多款 DeepSeek R1 蒸馏模型。两款笔记本配置分别是:

- ASUS Zenbook S14 32GB - Intel Core Ultra 7 258V

- ASUS ROG Flow Z13 64GB - AMD Ryzen AI Max+ 395 (AMD Radeon 8060S)

这里未测试更高参数的语言模型,因为 Intel CPU 应该是最多动态分配一半的系统内存给集显,而 AMD Ryzen AI Max 在 64GB 内存时能最多分配 48GB 给 Radeon 8060S。

Image

前面说过 Radeon 8060S 的性能水平,网上看评测确实也有达到桌面版 RTX 4060。而这里看到的 Token/s 可能没有想象的差距大——跑到 Intel Arc 集显的 2.x 倍。

再解释一次,大模型推理 Decode 输出时的瓶颈主要在内存(显存)带宽,包括 H20 GPU 的商业模式都是与这一点符合的。此时再看 256bit(4 通道)内存与双通道的差距就比较合理了。

在此我大胆预测,NVIDIA DGX Spark 如果跑上面一样的测试,其推理 Decode 阶段的 Token/s 性能应该与 Ryzen AI MAX PRO 接近。

Image

Time to First Token(首 Token 输出时间)比的是 Prefill 阶段的算力,Radeon 8060S 的性能充分发挥出来——3B 级别的模型领先普通 AI PC 4 倍,到 14B 模型则达到 10 倍以上。如果给本地 AI 大模型输入长文本,这个价值就会明显。

Image

视觉模型的对比,其中包括 4B 和 12B 参数的 Google Gemma 3。

Image

上图是用 Gemma 3 27B 视觉模型,进行 CT 医疗影像的识别诊断。AMD 将 Ryzen AI Max+ 395 称之为“最快的 x86 处理器”,在这里也可以理解为最强集显的 x86 处理器,毕竟 CPU Core 在 AI 计算上的效率通常无法与 GPU 相比。另外大容量统一内存也有助于容纳 INT8 或者 FP16 精度的模型数据。

未来 AI 模型参数会越来越大吗?

Image

上面是从网上引用的 AMD AI PC 发布会照片。

拿我自己来举例吧:一年前左右我经常在 AI PC 上测试 6B/7B/8B 模型,主要是受限于当时笔记本集显的性能,包括 8GB 独显也不太胜任跑 14B 及更大的模型。

体验下聊聊天没问题,甚至离线跑个机器翻译都还凑合。但进一步的生产力应用,比如 RAG(内容增强生成)则要跑在 32B 参数模型效果才会比较好,像 Ollama 默认的 4bit 精度模型也不太合适了(RAG 建议量化精度 6-8bit)。

注:AMD 也有类似的建议 “日常使用时使用 Q4 KM 量化,coding 写代码时使用 Q6 或 Q8。”

上下文方面:今天 AI PC 上的输入序列长度达到 1K-2K 基本够用了,而明天将达到 3K-5K。无论是 RAG 的内容检索,还是长文本输入/多轮上下文关联会话,这一点确实有意义。

至于 first token 输出时间是 1 秒还是 100ms,我觉得要看应用对实时性的要求。比如即时翻译或者连续图像识别,类似这种边缘 AI 场景大家能理解吧。

Image

在 AMD 的发布会上,模优优科技讲解了用锐龙 AI Max+ 395 的 iGPU,运行 DeepSeek-V2 236B 模型的生成速度达到了 12+ Token/s。

目前他们已经完成对 DeepSeek V3/R1(671B)模型的混合精度量化,在与 Unsloth 1.58bit 量化相仿的 131GB 尺寸下,精度损失较小并且大幅领先于 Qwen 2.5 72B 的效果。后续目标是通过专家融合+编码,跑在 Ryzen AI Max+ 395 的 128GB 共享内存上,同时把模型的一部分层加载到 NPU 和 CPU Core 来配合 iGPU,有望达到 10 Token/s 的 Decode 性能——是不是与 KTransformers 有点异曲同工?

总结&展望

从去年最早在新闻中看到 256bit 内存的 Stirx Halo,我一开始没太细想与 AI 应用的强相关。诚然,DGX Spark 应该是个定位偏小众市场的产品;而 Ryzen AI MAX PRO 也刚开始杀入 AI PC 市场。加强的 GPU 和 256bit 内存在成本上肯定比传统 PC 处理器要高。不过一旦将来 Ryzen AI MAX PRO 这一级别的硬件销量上了规模,其性价比应该还有提高的空间吧。

至于短期内,我更关心的是,有多少受益于这种“大显存”产品的应用出现。

在我从业于硬件的这些年,Intel、AMD、NVIDIA 几大巨头对高性能集显的尝试不止一轮了。而 DeepSeek 等 AI 应用的蓬勃发展,则再次触发了新一轮机会遇。我想分享的东西并不止于本文写的这些,今天受限于时间精力先告一段落:)

扩展阅读:《企业存储技术》文章分类索引更新(微信公众号合集标签)

END

作者:唐僧 huangliang
原文:企业存储技术

推荐阅读

欢迎关注企业存储技术极术专栏,欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5620
内容数
281
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息