企业存储技术 头像

企业存储技术

7660 声望
关注存储、服务器、图形工作站、AI硬件等方面技术,WeChat:490834312 展开

关注存储、服务器、图形工作站、AI硬件等方面技术,WeChat:490834312

收起
关注了
0
粉丝数
5671
IP 属地北京市丰台区
最新动态
  • 发布了文章 ·
    HGX B200 液冷 AI 服务器中的 NVLink & PCIe Switch 应用

    如下图,NVIDIA 的 HGX B200 8-GPU 模组早已不是新闻了,这张照片引用自国外网站在OCP 2024 峰会期间的报道。

    摘要图
  • 发布了文章 ·
    Ryzen AI 300商用笔记本评测 & Zen5+Zen5c多核效率分析

    做为面向办公需求为主的商用本,其性能往往不见得有高端游戏本和移动工作站那样出色,相关的评测文章被追捧的亮点通常也不太多。而我则希望本文能给读者朋友带来一点新鲜的视角。

    摘要图
  • 发布了文章 ·
    使用 LlamaIndex 和 Ollama 在 AMD Radeon 显卡上构建 RAG 系统

    AMD Radeon GPU  正式支持 ROCm,且满足与行业标准软件框架的兼容性。本 Jupyter notebook  利用 Ollama  和 LlamaIndex(ROCm 皆已支持)构建检索增强生成 (RAG) 应用程序。LlamaIndex 促进了从阅读 PDF 到索引数据集和构建查询引擎的通道创建,而 Ollama 则提供了大语言模型 (LLM) 推理的后端服务。

    摘要图
  • 发布了文章 ·
    从 Qwen3 MoE & 稠密模型性能测试-看 CPU/GPU 算力需求

    自从通义千问推出 Qwen3 系列大模型,人们的注意力一下子从 DeepSeek 上转移出不少。有一点遗憾是 235B 的参数量,不见得能达到或者超过 671B 的效果?

    摘要图
  • 发布了文章 ·
    从 zStorage 性能调优:浅谈多线程的常见性能问题

    我们都知道,多线程能够充分利用硬件资源,从而提升程序的吞吐量。然而,在实际的程序实现中,往往无法达到真正的多线程效果。由于各种因素的影响,线程之间会相互制约,导致性能与线程数量无法呈现线性扩展。本文将结合 zStorage 在性能调优方面的经验,总结线程之间制约的具体因素,以及 zStorage 为解决或缓解这些制...

    摘要图
  • 发布了文章 ·
    AI 集群 Scale-Up 互连:展望 UALink 与 NVLink 的竞争

    在今天的数据中心 AI 硬件产业链中,NVIDIA 可能比手机界的苹果过得还舒服?市场份额和利润都拿着大头——我是指的训练和推理芯片(GPU)部分。在这背后离不开 CUDA 相关的软件生态,以及 NVLink(Scale-Up 网络)互连的技术优势。

    摘要图
  • 发布了文章 ·
    解锁 CXL 潜力:服务器内存和性能革命

    本文参考自 SNIA Webcast《Unlocking CXL's Potential: Revolutionizing Server Memory and Performance》。

    摘要图
  • 发布了文章 ·
    大模型推理 BenchMark 榜单更新:GPU 性能调优要点

    编者注:几个月前我写过一篇《MLPerf Llama 大模型推理测试:一款 GPU 独战 NVIDIA 群雄》,随着最新一期的 MLPerf Inference: Datacenter 5.0 榜单更新,基本上没太多意外。

    摘要图
  • 发布了文章 ·
    Meta 的 GB200 液冷 AI 服务器 - Catalina

    技术背景说明:根据 Meta 在 2024 年 OCP 峰会的披露,Catalina 是其基于 NVIDIA Blackwell 平台开发的 AI 机架解决方案。该项目在保留标准 GB200 NVL72 液冷机架核心设计的同时,针对性优化了网络架构和冷却系统,既缩短了 6-9 个月的开发周期,又实现了与 Meta 现有 AI 基础设施的无缝集成。这种"80%标准化+20%关键定...

    摘要图
  • 发布了文章 ·
    推测解码:加速 vLLM 文本生成 Token/s 2.31 倍

    本文参考自 2 篇博客文章《Speculative Decoding - Deep Dive》、《Speed Up Text Generation with Speculative Sampling on AMD GPUs》,来源链接见文末。

    摘要图
  • 发布了文章 ·
    DeepSeek 能否引领 AI PC 发展趋势?(技术篇)

    在一个月之前,我曾提到随着 DeepSeek 的出现,在 AI PC 上尝试本地部署 LLM 大模型的人多了不少。除了 Ollama、LM Studio、Chatbox 这些工具,关注 Dify 等构建知识库的用户也增加了。

    摘要图
  • 发布了文章 ·
    在AMD MI300X上增强DeepSeek-R1推理能力:调优至7,318 Token/s

    我们之前关于这个主题的博客文章   讨论了 DeepSeek-R1 如何在 AMD Instinct™ MI300X GPU 上实现具有竞争力的性能。我们还提供了与 Nvidia H200 GPU 的性能比较和一个简短的演示应用程序来说明实际使用情况。在本博客中,我们将深入探讨如何使用 SGLang 框架、关键内核优化(如 ROCm™ 的 AI Tensor Engine)和超参数调整...

    摘要图
  • 发布了文章 ·
    DeepSeek-671B 纯 CPU 部署:配置选型、性能测试与量化对比

    私有化部署大模型能够有效保护数据隐私、便于开展大模型安全研究和知识蒸馏。目前主流部署方式包括纯 GPU、CPU/GPU 混合以及纯 CPU 三种部署方式。本文介绍了我们针对 DeepSeek 大模型纯 CPU 本地化部署的推理探索与实践方案。我们以约 3.8 万元的整体成本,基于 llama.cpp 框架,经过硬件选型与量化精度的综合考量,实...

    摘要图
  • 发布了文章 ·
    MegaSacleOut:长距高性能网络千卡 AI 训练测试

    过去几年,大模型训练使用的算力从千卡增长到了十万卡。业界预测,未来 5 到 10 年,通用人工智能(AGI)在庞大的算力支撑下成为现实。然而,随着算力需求的急剧膨胀,园区物理资源的瓶颈问题正日益凸显。

    摘要图
  • 发布了文章 ·
    zStorage 如何在多路径下保证数据一致性

    zStorage 典型的部署拓扑结构如下图所示:采用 3 个存储节点,数据保存 3 副本,2 个或更多计算节点。存储节点用于承载 zStorage 分布式块存储系统,通过 FrontEnd(简称 FE)向外提供 NVMe-oF/iSCSI 块存储协议。计算节点用于承载计算任务,例如 Oracle、MogDB 等数据库业务。计算节点通过 NVMe-oF/iSCSI 块存储协议映...

    摘要图
  • 发布了文章 ·
    DeepSeek时代:关于AI服务器的技术思考(PCIe篇)

    目录-GPU连接方式:PCIe还是UBB?-4颗144 lane PCIe Switch的价值-电源3200+9600W、CPU/GPU散热区域隔离-I/O不妥协:24个满血PCIe 5.0 x16插槽-豪华散热器取巧达成“1U”双CPU 500W-原则上只能用被动散热,因为卡的安装方向…-PCIe Switch to CPU上行链路:为何有一点不对称?-GPU服务器对CPU的要求刚过去的一个周末,IT新...

    摘要图
  • 发布了文章 ·
    解锁DeepSeek-R1 671B FP8推理性能

    在本博客中,我们探讨了 DeepSeek-R1 如何在 AMD Instinct™ MI300X GPU 上实现竞争性能,以及与 H200 的性能比较和一个展示实际使用情况的简短演示应用程序。通过利用 MI300X,用户可以在单个节点上以令人印象深刻的效率部署 DeepSeek-R1 和 V3 模型。在短短两周内,使用 SGLang 进行的优化已将推理速度提高了 4 倍,确...

    摘要图
  • 发布了文章 ·
    从多控阵列到全闪革命:RDMA+NVMe-oF 重构高端存储新范式

    在《AI 时代的高端文件存储系统:IBM、DDN、Weka 和 VAST》中我讨论了一些知名的文件存储,LLM 大模型的热度,确实促进了非结构化数据容量和性能的需求。而今天我要跟大家聊的是块存储(SAN),特别是在云计算兴起之前,多数的交易型结构化数据,比如关键数据库等大都放在上面。

    摘要图
  • 发布了文章 ·
    可软件定义的双机热备(HA)存储方案

    在“千年虫”之前,那些追求“服务永不下线”的方案,比如数据库,是这样的。A、B 两台主机,  通过 SCSI 线缆连接至共享的一台磁盘阵列,运行比如 NCR lifekeeper 这样的软件向客户端呈现一个虚拟的 IP 漂移地址以接入对数据库乃至阵列的读和写请求。初始时 A 主机处于 active 状态,  所有客户的读写请求都物理上由它代为...

    摘要图
  • 发布了文章 ·
    在 Azure MI300X GPU 虚机上运行 DeepSeek-R1

    本文编译自 Azure High Performance Computing (HPC) Blog,原文标题《Running DeepSeek-R1 on a single NDv5 MI300X VM》。

    摘要图
认证与成就
获得 248 次点赞
2020年05月11日 加入
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息