单节点230虚拟桌面、6 GPU卡：AMD EPYC vSAN超融合测试&参考架构

内容提要

-每节点最大230桌面、6块Tesla T4可驱动90图形用户；

-5,000用户Horizon VDI参考架构：VMware推荐25节点vSAN HABlock；

-测试结果：即时克隆减少“启动风暴”存储I/O压力；

-nVector测试：vGPU虚拟图形桌面的性价比高吗？

谈到AMD EPYC（二代）服务器，单CPU 64核心数、128 lane PCIe 4.0这些优势显而易见；而另一方面，单核性能、Socket片上的NUMA亲和，以及缺乏像Intel AVX-512这样的浮点计算增强指令集，也可能会限制其发挥。怎么把它用在合适的场合，是一个需要考虑的问题。

上图中8个小的7nm Die分别可以容纳8个CPU核心，中间那个大的是IO Die。从表面上看内存和PCIe控制器集中了，但从各方面了解的情况是还有CPU内部的NUMA（非一致性内存访问）特征。这点可以参考我在《多级NUMA__：AMD EPYC__互连速率、位宽与功耗的关系》中讨论过的第一代EPYC。

《_AMD EPYC二代服务器预览：Dell扩展2U 4节点HPC机型_》一文中，我曾经初步提到AMD服务器主打的几类客户群体：天气模型、科研、数字化制造和生命科学应用，还有互联网。而当这次我看到一份VDI测试报告和参考架构文档时，才发现之前忽略了虚拟桌面这个应用领域。趁着周末的时间学习一下，顺便给大家写个分享。

首先列出我之前写过几篇VDI相关的东西，交代一下背景：

《_揭秘VDI存储测试：4节点SDS模拟12000虚拟桌面_》

《_虚拟桌面测试：Optane DIMM持久内存能否降低VDI成本？_》

《_V_DI__性能测试：Win10__受漏洞补丁影响小于Win7》

其中第一个标题里的密度，是用微软StorageSpaces Direct（S2D或称WSSD）软件定义存储集群只模拟VDI的磁盘I/O负载。在两年多之前的该文中，我也提到过每节点220桌面的超融合，不过是在RDSH会话形式的桌面；而本文讨论的则是针对Instant-Clone（即时克隆）的测试，独立的桌面虚机消耗的硬件资源会更多。

每节点最大230桌面、6块Tesla T4可驱动90图形用户

上图引用自Tolly的测试报告《_Dell EMC PowerEdge R7525 Virtual Desktop Infrastructure(VDI) - Windows 10 Scalability vs. Prior-Generation Platform_》，相关资料链接我会在文末统一列出。

对比第一代AMD EPYC CPU的R7425服务器，R7525在VDI领域最权威的Login VSI测试中，VSIbase和VSImax这两个响应时间上都取得了更好（_即更低，单位__ms_）的结果，包括每节点运行100、140和200虚拟桌面。

既然有对比数字，测试平台信息也应该一并列出：

Demartek在2年前发布的Login VSI测试报告，在PowerEdge R7425服务器上配置了EPYC 7551 32核CPU，并使用PERC H730P RAID卡和本地SSD存储。

这个是本次PowerEdge R7525的测试信息。2颗AMD EPYC 7502 32核CPU的主频提高到2.5GHz，内存仍然是1TB。由于存储改为VMware vSAN分布式，使用4块1.92TB读密集型SAS SSD为容量分层，2块800GB SAS写密集型SAS SSD用于Cache分层，HBA 345卡使用直通模式。网卡为Mellanox ConnectX-5 25GbE双口，以太网交换机采用PowerSwitch S5248-ON。

理论上vSAN可能带来10%的CPU开销，但从测试结果来看超融合的性能并没有比RAID卡吃亏，分布式存储还带来了数据高可用。

注：当然RAID__卡对SSD__的支持也存在性能瓶颈，参见4__年前我写的《服务器SSD RAID__性能速查手册》。

按照现在流行的用法，vSAN配置的SSD为什么不配置性能更好的U.2 NVMe盘呢？在《直联还是交换？Intel__、AMD__服务器NVMeSSD IO__拓扑速查手册》中我就介绍过“2U双路AMD EPYC NVMe x12（最大带宽型）”和“2U双路AMD EPYC NVMe x24（最大容量型）“配置——针对R7425服务器，R7525情况应该类似。

细心的朋友可能注意到了，上面的配置为NVIDIA Tesla T4预留了6个PCIe 4.0 x16 插槽（但GPU当前还只支持3.0）。估计是考虑到NVMe/PCIex4信道可能不够，所以SSD就采用了全SAS配置，从下文中的存储I/O性能来看应该也足够了。

上面这个Login VSI测试结果是在PowerEdge R7525 3节点AMD服务器，VMware Horizon 7 + vSAN超融合集群上获得的。每节点跑了230个Knowledge Worker（知识型）桌面。

nVector Knowledge WorkerProfile__应该与LoginVSI__的虚拟桌面配置和压力不同。

图形用户测试部分，换成了在一台R7525服务器跑90用户——因为在R7525上插了6块NVIDIA Tesla T4 GPU，每个T4是16GB显存，分配给虚拟桌面的每个vGPU是1GB显存。

这里运行的测试项目也不同了——nVector应该主要是为了反映GPU在VDI应用中的功效。性能结果为图像质量0.9904（接近于无损，这个应该与Horizon的远程图形协议有关）、延时215ms、帧速率8.82FPS。测试中主机占用率峰值小于85%，6个GPU的平均占用率大约35%。

Tolly的测试报告并没有展开细节分析，因此我建议继续关注另一个《_DellEMC Ready Solutions for VDI: VMware Horizon 7 on Dell EMC PowerEdge R7525 Servers_》参考架构文档。

5,000用户Horizon VDI参考架构：VMware推荐25节点vSAN HA Block

上图只是一个逻辑上的示意：

-网络层_：25Gb ToR__交换机跑SDS__和LAN__，iDRAC__服务器管理网络走千兆交换机；_

-计算和图形层_：由最多64__台服务器（受vSAN__集群限制）及其配置的TelsaT4 GPU__组成；_

-存储层_：vSAN DataStore__的Cache__和容量分层我不在这里过多解释；_

-管理层_：管理基础架构虚机包括VCSA__（vCenter__）、Horizon__的ConnectionServer__、文件服务器、统一访问网关（应该是用于VDI__的外网安全访问）以及NVIDIA License__服务器（授权vGPU__）；_

具体的虚拟桌面池，可以包括InstantClone__即时克隆虚机、RDSH__会话和虚拟工作站（重度图形应用）。

这样5,000用户pod使用的服务器，如果选择AMD机型，管理集群可以考虑3台PowerEdge R6515 1U单路；而实际承载VDI桌面的就是25台R7525 2U双路服务器，这两个集群都是使用vSAN存储具备HAN+1容错。

前面介绍的测试中，虚拟桌面配置为KnowledgeWorker，如果每个虚机4GB内存都用满的话，230用户就是960GB。尽管AMD有核数更高的CPU，但单服务器1TB内存也够瞧了，目前这个密度我觉得更多受限于内存。

参考架构文档的测试结果中，还会包括PowerWorker以及GPU项目等。我们先来看下软硬件配置：

上图中别的我不重复了，Windows10版本是较新的1909，VMware VDI显示协议为Blast，NVIDIAvGPU版本为10.1。

测试结果：即时克隆减少“启动风暴”存储I/O**压力

**

测试结果显示，当每主机KnowledgeWorker类型VDI用户密度达到207时，R7525的CPU使用率达到85%，平均内存消耗651GB，平均活跃内存225GB。

Power Worker（无GPU）的密度也能跑到158桌面用户，此时平均内存消耗高达965GB（因为该类桌面ESXi配置内存为8GB）。

加上6块Tesla T4和vGPU（Virtual PC：T4-1B）之后，每主机跑满96桌面，此时的平均活跃内存反而达到最高的776GB，显然这个PowerWorker的实际运行负载更重。

上图是网络流量，在虚机桌面Login登录时达到1,704 Mbps的峰值。

这个磁盘（SSD）IOPS测试曲线，与我在3年前介绍的全克隆和链接克隆VDI磁盘（见下图）明显不同了。从即时克隆的原理来看，由于启动时最常用的热点数据已经由SSD预加载到内存，因此Login阶段负载低很多，18,376的读+写IOPS峰值反而出现在Recreate Clones阶段。

上图引用自《揭秘VDI__存储测试：4__节点SDS__模拟12000__虚拟桌面》一文。

即时克隆的磁盘I/O延时也很好看——在这里vSAN读和写都没有超过1ms，LoginVSI的要求是20ms以内即合格。

nVector测试：vGPU虚拟图形桌面的性价比高吗？

在nVector测试部分，除了对比Knowledge Worker桌面在有无GPU时的区别之外，还有一项虚拟工作站的测试，运行SPECviewperf13图形基准测试工作负载，这时vGPU就不能只分1GB显存了——T4-4Q应该是把TeslaT4分配成4个4GB的虚拟Quadro专业显卡。

扩展阅读：《图形工作站专业显卡测试：SPECviewperf 12》

先看第一项对比结果。在加入TeslaT4之后，96个nVector桌面产生的平均CPU使用率从92%降低到72%，平均GPU使用率只有15%，终端用户延时和帧速度也有改善。看来Tesla T4支持重载商务办公桌面性能也挺富裕。不过每节点6块卡加上vGPU的License成本，与这20%的CPU资源节约相比是否值得呢？

最后是虚拟工作站测试。上面图表为每个桌面运行SPECviewperf测试的平均帧速度，此时的单节点VM密度应该是4（个4GB）x 6=24。这组数字参照Tesla T4四分之一的性能还算合理，用户运行基本的CAD和DCC软件应该能跑动。

但是性价比呢？别忘了还有Virtual WorkStation的vGPU License，如果没有资源复用的情况下，以24台Precision 34xx/36xx Tower这样的单路工作站物理机作为对比参考，配上4核+Quadro P1000显卡估计要便宜不少吧？要知道Intel Core CPU现在基本都是4GHz以上的Turbo主频，而服务器CPU在虚拟机底下即使能Turbo还会有HyperVisor的一点损耗。

当然VDI相比物理机的优点，还有安全性和灵活接入（移动办公），不能只看成本。

结尾之前，再放一个Dell AMD服务器推荐给VDI应用的BIOS设置。除了最常规的Performance高性能模式之外，NUMA Nodes per Socket不出意外设置为4（对应32个CPU核心所在的4个Die），同时处理器的x2APIC Mode也要打开。

先写到这里吧，希望对大家有帮助！

推荐阅读

本文转载自企业存储技术微信公众号原文链接点这里
注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的微信/QQ：490834312。
尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage，也欢迎关注企业存储技术极术专栏，定期更新。

推荐阅读

目录