编者注:几个月前我写过一篇《MLPerf Llama 大模型推理测试:一款 GPU 独战 NVIDIA 群雄》,随着最新一期的 MLPerf Inference: Datacenter 5.0 榜单更新,基本上没太多意外。
技术背景说明:根据 Meta 在 2024 年 OCP 峰会的披露,Catalina 是其基于 NVIDIA Blackwell 平台开发的 AI 机架解决方案。该项目在保留标准 GB200 NVL72 液冷机架核心设计的同时,针对性优化了网络架构和冷却系统,既缩短了 6-9 个月的开发周期,又实现了与 Meta 现有 AI 基础设施的无缝集成。这种"80%标准化+20%关键定...
本文参考自 2 篇博客文章《Speculative Decoding - Deep Dive》、《Speed Up Text Generation with Speculative Sampling on AMD GPUs》,来源链接见文末。
在一个月之前,我曾提到随着 DeepSeek 的出现,在 AI PC 上尝试本地部署 LLM 大模型的人多了不少。除了 Ollama、LM Studio、Chatbox 这些工具,关注 Dify 等构建知识库的用户也增加了。
我们之前关于这个主题的博客文章 讨论了 DeepSeek-R1 如何在 AMD Instinct™ MI300X GPU 上实现具有竞争力的性能。我们还提供了与 Nvidia H200 GPU 的性能比较和一个简短的演示应用程序来说明实际使用情况。在本博客中,我们将深入探讨如何使用 SGLang 框架、关键内核优化(如 ROCm™ 的 AI Tensor Engine)和超参数调整...
私有化部署大模型能够有效保护数据隐私、便于开展大模型安全研究和知识蒸馏。目前主流部署方式包括纯 GPU、CPU/GPU 混合以及纯 CPU 三种部署方式。本文介绍了我们针对 DeepSeek 大模型纯 CPU 本地化部署的推理探索与实践方案。我们以约 3.8 万元的整体成本,基于 llama.cpp 框架,经过硬件选型与量化精度的综合考量,实...
过去几年,大模型训练使用的算力从千卡增长到了十万卡。业界预测,未来 5 到 10 年,通用人工智能(AGI)在庞大的算力支撑下成为现实。然而,随着算力需求的急剧膨胀,园区物理资源的瓶颈问题正日益凸显。
zStorage 典型的部署拓扑结构如下图所示:采用 3 个存储节点,数据保存 3 副本,2 个或更多计算节点。存储节点用于承载 zStorage 分布式块存储系统,通过 FrontEnd(简称 FE)向外提供 NVMe-oF/iSCSI 块存储协议。计算节点用于承载计算任务,例如 Oracle、MogDB 等数据库业务。计算节点通过 NVMe-oF/iSCSI 块存储协议映...
目录-GPU连接方式:PCIe还是UBB?-4颗144 lane PCIe Switch的价值-电源3200+9600W、CPU/GPU散热区域隔离-I/O不妥协:24个满血PCIe 5.0 x16插槽-豪华散热器取巧达成“1U”双CPU 500W-原则上只能用被动散热,因为卡的安装方向…-PCIe Switch to CPU上行链路:为何有一点不对称?-GPU服务器对CPU的要求刚过去的一个周末,IT新...
在本博客中,我们探讨了 DeepSeek-R1 如何在 AMD Instinct™ MI300X GPU 上实现竞争性能,以及与 H200 的性能比较和一个展示实际使用情况的简短演示应用程序。通过利用 MI300X,用户可以在单个节点上以令人印象深刻的效率部署 DeepSeek-R1 和 V3 模型。在短短两周内,使用 SGLang 进行的优化已将推理速度提高了 4 倍,确...
在《AI 时代的高端文件存储系统:IBM、DDN、Weka 和 VAST》中我讨论了一些知名的文件存储,LLM 大模型的热度,确实促进了非结构化数据容量和性能的需求。而今天我要跟大家聊的是块存储(SAN),特别是在云计算兴起之前,多数的交易型结构化数据,比如关键数据库等大都放在上面。
在“千年虫”之前,那些追求“服务永不下线”的方案,比如数据库,是这样的。A、B 两台主机, 通过 SCSI 线缆连接至共享的一台磁盘阵列,运行比如 NCR lifekeeper 这样的软件向客户端呈现一个虚拟的 IP 漂移地址以接入对数据库乃至阵列的读和写请求。初始时 A 主机处于 active 状态, 所有客户的读写请求都物理上由它代为...
本文编译自 Azure High Performance Computing (HPC) Blog,原文标题《Running DeepSeek-R1 on a single NDv5 MI300X VM》。
在上一篇《一次无需调优的测试:SMT 多线程对存储服务器 IOPS 的贡献》结尾处,我提到了 IBM Storage Scale System 6000,和 VAST Data EBox 这两款高性能全闪存文件存储系统。
在《服务器NVMe调优指南:4900万IOPS、340GB/s带宽 (24x SSD)》一文中,我是以编译为主,并未加入自己较多的评论。因为在整理那份资料时,我大约有几年时间没深入测试过企业级NVMe SSD多盘服务器的性能。
自从加入 zStorage 分布式存储团队以来,性能调优工作一直是我的工作重点之一。从刚开始专注于本地存储(localstore)的性能调优,到后来负责整个 zStorage 分布式存储系统的性能调优工作,zStorage 的性能水平也逐步提升到了一个领先水平。在我之前的文章中,有介绍性能调优的一些方法。在性能调优的过程中,我也逐渐积...
目录- ML Commons的MLPerf基准测试:Llama-2-70b- 8x GPU:MI300X与H100-SXM旗鼓相当- 多GPU线性扩展评估、B100单卡表现优异- Tensor并行多卡NVLINK vs. PCIe效率- 选型参考:显存带宽是Token/s输出唯一决定因素吗?- 硬件参数、卡间互连与软件发挥
通过优化 NVMe 驱动器和 AMD EPYC 9005 系列处理器的配置,实现了 4900 万 IOPS 和 340 GB/s 带宽。详细分析了性能优化最佳实践、FIO 基准测试设置及结果,希望能帮助读者在实际系统中实现最佳性能。本文主要内容翻译自《NVMe® Tuning Guide for AMD EPYC™ 9005 Series Processors》,原始资料链接见文末。
接前文《风冷散热极限:1U/2U 服务器 CPU 500/600W+可行性分析》《风冷 500W CPU?Dell PowerEdge 17G AMD 服务器预览 (1)》没想到,我 yy 的一部分东西,这么快就变成了现实…上图为 Dell R6715服务器的 CPU 散热器——是不是跟 Intel Xeon 6E 单路的 PowerEdge R470 有点像?大概就是凭这一点,R6715 支持的 CPU 范围,就...
本文主要讨论基于 RAFT 协议实现的分布式存储,其硬盘状态机的实现方法,以及其中遇到的问题和挑战。