目录- ML Commons的MLPerf基准测试:Llama-2-70b- 8x GPU:MI300X与H100-SXM旗鼓相当- 多GPU线性扩展评估、B100单卡表现优异- Tensor并行多卡NVLINK vs. PCIe效率- 选型参考:显存带宽是Token/s输出唯一决定因素吗?- 硬件参数、卡间互连与软件发挥
通过优化 NVMe 驱动器和 AMD EPYC 9005 系列处理器的配置,实现了 4900 万 IOPS 和 340 GB/s 带宽。详细分析了性能优化最佳实践、FIO 基准测试设置及结果,希望能帮助读者在实际系统中实现最佳性能。本文主要内容翻译自《NVMe® Tuning Guide for AMD EPYC™ 9005 Series Processors》,原始资料链接见文末。
接前文《风冷散热极限:1U/2U 服务器 CPU 500/600W+可行性分析》《风冷 500W CPU?Dell PowerEdge 17G AMD 服务器预览 (1)》没想到,我 yy 的一部分东西,这么快就变成了现实…上图为 Dell R6715服务器的 CPU 散热器——是不是跟 Intel Xeon 6E 单路的 PowerEdge R470 有点像?大概就是凭这一点,R6715 支持的 CPU 范围,就...
本文主要讨论基于 RAFT 协议实现的分布式存储,其硬盘状态机的实现方法,以及其中遇到的问题和挑战。
- 3U 机架式服务器的驱动因素- PCIe Switch 与 GPU 直通 CPU 的区别- OCP Grand Teton AI 服务器:训练和推理的配置异同- EDSFF SSD、EPYC CPU 散热器一瞥- 支持 MI308X GPU 的服务器,来自谁家…- 2U 4 节点双路 500W CPU:风冷/液冷?
本文翻译自技术白皮书《CXL Memory Expansion: A Closer Look on Actual Platform》
IPC(Instructions Per Cycle)是指每个周期的指令执行数,用于衡量处理器的执行效率。IPC越高,表明处理器在相同频率下可以执行更多指令。
引言:最好的调优,就是不要(手动)调优吗?如果是手机、PC之类的消费级产品确实如此,OEM厂商甚至把一般人不需要修改的BIOS设置隐藏掉。对于服务器用户群,虽不太容易做到这样,但如果能做得相对“傻瓜”,需要修改调优的选项少一些则更好。
引言:由于服务器CPU核心数量的不断提升,不少客户发现在部分场景用单插槽(即单路CPU)就能替代以前的双CPU。
近期,zStorage分布式块存储系统在海光+麒麟+E810网卡环境下,使用FIO工具测试4K单并发随机读/写IO时,延迟达到4ms。而这里唯一的变量是E810网卡;如果采用Mellanox网卡,在同样的测试用例下,IO延迟约为100us左右。那么问题出在网卡吗?还是另有原因?以下是分析和探索的过程分享。
部分要点目录统一SP5插槽& 向前兼容第五代EPYC型号命名规则、型号列表“G”&“P”links 32G Serdes定义:IF、PCIe、CXL和SATA什么是GMI-Wide高带宽模式?支持几个CCD?一天之前,准确说是在美国时间的10月10日,AMD正式发布了代号“Turin”的第五代EPYC 9005系列服务器CPU,其中包含有使用Zen 5和Zen 5c两种核心的型号。EPYC 9...
上周我分享了FMS 2024会议的资料,唐杰总留言说 “给写个导读呗”。说实话看资料也是个耗时间精力的活,比如去年我工作比较忙,所以三大技术会议除了分享资料之外,好像当时只写过一篇相关的解读文章《SSD也要看互联网风向标 - 来自SNIA的FMS资料》。下图就是从中截的:
目录-为什么是LLM大语言对话模型?-测试项目:token/秒(平均延时)、首个token延时-官方对比测试数字——补充参考-当iGPU性能达到CPU Core 10倍…-测试平台:不完美有不完美的价值-更多发现、总结与展望
在IB/RoCE网络环境中,经常会遇到一些网络相关的配置不当问题,这些问题可能导致性能出现降级。本文对这些问题做一个总结,以供记录备忘。
思考1:Xeon 6 E-Core“小核”服务器,定位的行业似乎比较明确;思考2:我上一次尝试在1U和2U服务器中使用同一款主板,好像是快20年前了…目录- Front I/O前接线,与传统Rear I/O支持- OCP标准化模块:BOSS-N1 DC-MHS和DC-SCM board- R770 / R670 CSP服务器主板差别有多大?- Xeon 6 SoC不再需要PCH芯片组,简化主板设计之...
目录- Quad Rank相对Dual Rank MRDIMM的性能优势- TFF 2U高度内存尺寸改进散热密度- MRDIMM功耗接近翻倍:RCD & DQ Buffers影响较大- MRDIMM对液冷服务器友好?这种新型服务器内存,在SK Hynix网站(如下图)上叫MCRDIMM(Multiplexer Combined Ranks DIMM),而在Micron网站上称作MRDIMM(Multiplexer-Ranks DIMM),其实是...
最近我试用了2款基于LLM大模型+RAG知识库的商业软件,按照发布的时间排序,也按照字母的缩写,分别称为F家和L家吧。
背景:在撰写本文的分享之前,我就已知有一些不完美和遗憾之处,这次希望能达到抛砖引玉的效果。欢迎大家提出自己的建议、可以在下面给我留言。
对于Intel Core CPU性能的进一步挖掘(Turbo/超频),在近几年又恢复了一些热度。记得我在《让45W TDP CPU__稳跑75W__的秘密》一文中讨论的,还只是一款10代U的轻薄移动工作站。事实上,后来55W TDP的HX高性能笔记本CPU,通常也能跑到更高的功耗。至于台式机,从散热和供电上可发挥的空间应该更大。(_注:本文主要讨论...
毫无疑问,GPU和AI加速器才是AI时代算力的最大提供者。训练AI模型需要GPU的超大算力,但一块GPU越来越存不下今天的模型,互联多块GPU成了刚需,各种高端的网卡,DPU也诞生了。推理AI模型也需要非常高的算力,同时对存储带宽的要求也越来越高。即便是端侧,这几年移动GPU和NPU的进步,AI的部署也大多从CPU侧迁移到更大算...