企业存储技术 - 极术社区 - 连接开发者与智能计算生态

企业存储技术

7715 声望

关注存储、服务器、图形工作站、AI硬件等方面技术，WeChat：490834312 展开

关注他

关注了

0

粉丝数

5679

IP 属地北京市丰台区

他的主页他的提问他的回答他的文章他的关注他的粉丝

他的收藏声望记录

最新动态

发布了文章 · 6月24日

AI集群扩展浪潮中的芯片、电力、服务器和网络预测

今天给大家分享一份调研报告《_Responsibly Deploying Al Clusters at Scale - 650 Group_》，来自2025 OCP Canada Tech Day——即Open Compute Project的首次加拿大技术日活动。
发布了文章 · 6月19日

AI超节点Scale-Up展望：为什么NV和AMD都要“消除”PCIe Switch？

引言：伴随着UALink的出现，AMD也会在一_AMD的战略挺明显：今年MI350先把FP4/FP6性能追上来（B200）；明年MI450再用UALink_些高端GPU中集成高速I/O枢纽，就像有的NVIDIA系统那样不再需要PCIe Switch了。_等互连技术加强，进一步缩小与NV（Rubin）之间的差距。_
发布了文章 · 6月11日

Fastllm：DeepSeek R1-0528 CPU+GPU混合推理加速方案

在转发过《DeepSeek-671B纯CPU部署：配置选型、性能测试与量化对比》之后，我一直想找个合适的时机也给大家分享下CPU+GPU混合推理DeepSeek R1等MoE大模型的方案。
发布了文章 · 6月3日

供电、散热资料分享：OCP AI/ML Physical Infra Workshop 2

今天分享的是OCP AI/ML Physical Infra Workshop第二阶段会议的资料。在国际领先厂商的介绍中，越来越多地出现1MW（兆瓦）的字样，当然目前单机柜还达不到，有些是一排（几个Rack）就差不多了。
发布了文章 · 5月29日

OCP AI/ML 研讨会资料：数据中心机架、供电、散热

AI/ML 应用的发展和密度要求，对机架 & 供电、散热等数据中心物理基础设施提出了更高的挑战。OCP AI/ML Physical Infra Workshop 1 资料网盘下载链接: [链接] 提取码: 9xsg大家也可以在关注本微信公众号之后，从后台对话框发消息 ocp0419__来获取以上分享链接。来源 [链接]（含qiang外视频回放）会议日程以下 ppt 内...
发布了文章 · 5月27日

HGX B200 液冷 AI 服务器中的 NVLink & PCIe Switch 应用

如下图，NVIDIA 的 HGX B200 8-GPU 模组早已不是新闻了，这张照片引用自国外网站在OCP 2024 峰会期间的报道。
发布了文章 · 5月23日

Ryzen AI 300商用笔记本评测 & Zen5+Zen5c多核效率分析

做为面向办公需求为主的商用本，其性能往往不见得有高端游戏本和移动工作站那样出色，相关的评测文章被追捧的亮点通常也不太多。而我则希望本文能给读者朋友带来一点新鲜的视角。
发布了文章 · 5月14日

使用 LlamaIndex 和 Ollama 在 AMD Radeon 显卡上构建 RAG 系统

AMD Radeon GPU 正式支持 ROCm，且满足与行业标准软件框架的兼容性。本 Jupyter notebook 利用 Ollama 和 LlamaIndex（ROCm 皆已支持）构建检索增强生成 (RAG) 应用程序。LlamaIndex 促进了从阅读 PDF 到索引数据集和构建查询引擎的通道创建，而 Ollama 则提供了大语言模型 (LLM) 推理的后端服务。
发布了文章 · 5月7日

从 Qwen3 MoE & 稠密模型性能测试-看 CPU/GPU 算力需求

自从通义千问推出 Qwen3 系列大模型，人们的注意力一下子从 DeepSeek 上转移出不少。有一点遗憾是 235B 的参数量，不见得能达到或者超过 671B 的效果？
发布了文章 · 4月27日

从 zStorage 性能调优：浅谈多线程的常见性能问题

我们都知道，多线程能够充分利用硬件资源，从而提升程序的吞吐量。然而，在实际的程序实现中，往往无法达到真正的多线程效果。由于各种因素的影响，线程之间会相互制约，导致性能与线程数量无法呈现线性扩展。本文将结合 zStorage 在性能调优方面的经验，总结线程之间制约的具体因素，以及 zStorage 为解决或缓解这些制...
发布了文章 · 4月21日

AI 集群 Scale-Up 互连：展望 UALink 与 NVLink 的竞争

在今天的数据中心 AI 硬件产业链中，NVIDIA 可能比手机界的苹果过得还舒服？市场份额和利润都拿着大头——我是指的训练和推理芯片（GPU）部分。在这背后离不开 CUDA 相关的软件生态，以及 NVLink（Scale-Up 网络）互连的技术优势。
发布了文章 · 4月15日

解锁 CXL 潜力：服务器内存和性能革命

本文参考自 SNIA Webcast《Unlocking CXL's Potential: Revolutionizing Server Memory and Performance》。
发布了文章 · 4月7日

大模型推理 BenchMark 榜单更新：GPU 性能调优要点

编者注：几个月前我写过一篇《MLPerf Llama 大模型推理测试：一款 GPU 独战 NVIDIA 群雄》，随着最新一期的 MLPerf Inference: Datacenter 5.0 榜单更新，基本上没太多意外。
发布了文章 · 4月1日

Meta 的 GB200 液冷 AI 服务器 - Catalina

技术背景说明：根据 Meta 在 2024 年 OCP 峰会的披露，Catalina 是其基于 NVIDIA Blackwell 平台开发的 AI 机架解决方案。该项目在保留标准 GB200 NVL72 液冷机架核心设计的同时，针对性优化了网络架构和冷却系统，既缩短了 6-9 个月的开发周期，又实现了与 Meta 现有 AI 基础设施的无缝集成。这种"80%标准化+20%关键定...
发布了文章 · 3月28日

推测解码：加速 vLLM 文本生成 Token/s 2.31 倍

本文参考自 2 篇博客文章《Speculative Decoding - Deep Dive》、《Speed Up Text Generation with Speculative Sampling on AMD GPUs》，来源链接见文末。
发布了文章 · 3月26日

DeepSeek 能否引领 AI PC 发展趋势？(技术篇)

在一个月之前，我曾提到随着 DeepSeek 的出现，在 AI PC 上尝试本地部署 LLM 大模型的人多了不少。除了 Ollama、LM Studio、Chatbox 这些工具，关注 Dify 等构建知识库的用户也增加了。
发布了文章 · 3月26日

在AMD MI300X上增强DeepSeek-R1推理能力：调优至7,318 Token/s

我们之前关于这个主题的博客文章讨论了 DeepSeek-R1 如何在 AMD Instinct™ MI300X GPU 上实现具有竞争力的性能。我们还提供了与 Nvidia H200 GPU 的性能比较和一个简短的演示应用程序来说明实际使用情况。在本博客中，我们将深入探讨如何使用 SGLang 框架、关键内核优化（如 ROCm™ 的 AI Tensor Engine）和超参数调整...
发布了文章 · 3月19日

DeepSeek-671B 纯 CPU 部署：配置选型、性能测试与量化对比

私有化部署大模型能够有效保护数据隐私、便于开展大模型安全研究和知识蒸馏。目前主流部署方式包括纯 GPU、CPU/GPU 混合以及纯 CPU 三种部署方式。本文介绍了我们针对 DeepSeek 大模型纯 CPU 本地化部署的推理探索与实践方案。我们以约 3.8 万元的整体成本，基于 llama.cpp 框架，经过硬件选型与量化精度的综合考量，实...
发布了文章 · 3月12日

MegaSacleOut：长距高性能网络千卡 AI 训练测试

过去几年，大模型训练使用的算力从千卡增长到了十万卡。业界预测，未来 5 到 10 年，通用人工智能（AGI）在庞大的算力支撑下成为现实。然而，随着算力需求的急剧膨胀，园区物理资源的瓶颈问题正日益凸显。
发布了文章 · 3月7日

zStorage 如何在多路径下保证数据一致性

zStorage 典型的部署拓扑结构如下图所示：采用 3 个存储节点，数据保存 3 副本，2 个或更多计算节点。存储节点用于承载 zStorage 分布式块存储系统，通过 FrontEnd（简称 FE）向外提供 NVMe-oF/iSCSI 块存储协议。计算节点用于承载计算任务，例如 Oracle、MogDB 等数据库业务。计算节点通过 NVMe-oF/iSCSI 块存储协议映...
点击载入更多

认证与成就

获得 249 次点赞

2020年05月11日加入

举报他

极术微信服务号

关注极术微信号
实时接收点赞提醒和评论通知

安谋科技学堂公众号

关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源

安谋科技招聘公众号

关注安谋科技招聘
实时获取安谋科技中国职位信息