NVIDIA Tesla T10变身GeForce？云游戏能接盘矿卡市场吗

本文内容非商业用途可无需授权转载，请务必注明作者及本微信公众号、微博 @唐僧\_huangliang，以便更好地与读者互动。

最近几个周末都想写点东西，这次聊聊GPU/显卡吧。上面这张图信息量有点大，往下我慢慢跟大家讲…

昨天看到来自国外的新闻：“_硬件检测工具__AIDA64__的更新日志中出现了一款名为GeForece RTX T10-8__的显卡，基于TU102__核心打造。_” 如下图：

记得在NVIDIA的几款RTX Super加强版显卡推出之前，曾有传言2080 Ti也可能会有个Super型号，并将显存从11GB提高到12GB（也就是384-bit位宽全规格）。后来NV辟了谣，不过这一次又有人猜测这个T10-8可能是RTX 2080 Ti Super啥的。

但我确不这么认为。2个简单的理由：第一，“-8”有可能是代表8GB显存；第二，“T10”并不是个全新的命名，因为之前Turing（图灵）架构中已经有个Tesla T10。

NV计算卡的不同定位：Tesla T4

在Turing家族和RTX光线追踪GPU发布之后，通用型计算的高端卡仍然是Tesla V100，在P100之后只有Volta架构的这款“大核心”支持FP64双精度浮点计算。NV全面公开发布的Tesla新品只有T4一款，这肯定有自己的考虑。

Tesla基于TU104核心，半高小尺寸，功耗只有70W。相比之下，它仍然保留了2560个CUDA Core，并配备高达16GB的显存，显然能耗比相当高。

与Tesla V100更多用于HPC不同，T4的定位更多是在AI/机器学习中的Inference（推理），以及VDI——GPU桌面虚拟化应用，比如将16GB显存切分给8个2GB的vGPU。这里除了单独卖钱的GRID License选择之外，Tesla T4还提供了16VF的SRIOV支持。

AI深度学习计算，特别是Inference并不只有GPU一种选择，还面临各种不同高效方案的竞争，比如我在《_OCP China Day：Nervana神经网络处理器、Ruler还有500G？_》里面写的。NV最擅长的还是图形显示（包括后端计算的云游戏），这方面ASIC和FPGA可搞不定。

在最新的NVIDIA驱动中，Turing架构Tesla仍然只有一款。我们看到Tesla、Quadro和TITAN的Device ID结尾都带有.10DE，也就是说只提供原厂卡。

面向云游戏的Tesla T10：规格悄然变化

除非您在NVIDIA网站上细心浏览过RTX Server的页面，否则还真不太容易发现这个NVIDIA几乎没有主动宣传过的Tesla T10。Cloud Gaming——云游戏会不会是下一个增长点呢？

这张图左右两侧截自旧/新2份资料，大家注意到有什么区别了吗？

NV这款系统实际上是个8U机架的刀片服务器。每机箱内10个双节点刀片（也就是20节点）。

具体到单节点的配置，CPU是1颗Intel i9 8核，2颗Tesla T10 GPU。不过NV最新的资料中隐去了RTX的型号（已经不提Tesla了），并将显存从8GB提高到16GB。那么原来的“T10-8”会不会就改成GeForce了呢？

在“Tesla T10 16GB”显存增大的同时，新版资料中还加入了vGPU支持。按照我的理解，在没有vGPU的情况下，每个双GPU节点可能是运行单一Windows/Linux系统，以进程级别隔离在上面运行的“云游戏”应用；或者利用IDV/PCV这类PC虚拟化软件，在Linux Hypervisor底层上装2个虚拟机（很可能是Win），把显卡分别以独占方式穿透进去。

这次vGPU（GRID Gaming）的引入，估计就能把显卡切割给更多的虚拟机，以达到比进程更好的隔离效果来适配某些游戏。至于“Tesla T10 16GB”具体切分为几个vGPU使用，我稍后会讲。

先来看看Tesla T10 GPU的规格，3584个CUDA Core应该属于TU102核心，参考上表，恰好与上一代的GP102的GTX 1080 Ti数量相同。按照NV网站的说法在游戏中能够达到GeForce RTX 2080（属于TU104）的水平，而功耗只有150W。这个有点像Tesla T4的做法，用相对“大核心”降低频率以实现更好的能耗比，当然T10的成本应该比2080要高，卖价也会是如此吧？

以前在对比GPU服务器时经常会看空间密度，这次的RTX Server在8U内容纳40个GPU与传统机型的设计思路不太一样。比如我在《_4U 10卡机器学习服务器：为什么PCIe比NVLINK能效比高？_》介绍的Dell DSS8440，8U内2台能放进20个300W功耗的Tesla V100；1U 4卡的PowerEdge C41x0，8节点能达到的密度更高——32 x 300WGPU。云游戏并不需要单卡性能太高，而是更在意能耗比和CPU的配比。

上面这段资料提到GRID vGaming软件能让40个GPU同时运行160个PC游戏，如果是每个CPU节点启动8个虚拟机的话，每个虚机平均能够分配到4GB显存的vGPU、1个CPU核心、接近4GB内存和60GB左右SSD容量，运行主流中等负载3D游戏差不多够了。

如果在数据中心配置30套RTX Server，可以服务数千个并发用户。

挖矿之外，GeForce在数据中心允许的另一用途？

无论RTX Server中的“T10 16GB”是否还叫Tesla，包括我和一些同行朋友都认为：如果是传统NV对Tesla的定价习惯，想在对成本要求苛刻的云游戏市场中广泛应用是有些困难的。

就像NV之前只允许GeForce在数据中心用于区块链计算（俗称挖矿）那样，商业公司都希望自己的利益最大化。当然NV也不傻，他们在GeForce RTX上保留Tensor Core全部能力的同时，将显存容量严格限制在上一代的水平，这将显著影响一些更大规模计算的性能（如渲染）。没有显存ECC支持也无法充分保证长时间高负荷运行的稳定，规模大些的商业HPC用户基本上只能选Tesla和Quadro。

还有些功能从技术上是难以限制的，比如一些VR应用和3D游戏调用同样的GPU处理单元，这时GeForce就可能和同等硬件规格的Quadro专业显卡跑一样快。具体到此类场景，用户肯定会看性价比，而传统制造业对图形工作站的选型则是另一种情况（具体先不展开了）。

举上面这个例子，我是想说明NV为云游戏设计了“Tesla T10”+ vGPU虚拟化的基础设施，但最终市场选择可能会更看重性价比。因为还有Intel的PC Farm方案，有些特殊情况数据中心里也可以放多节点PC，AMD的Radeon游戏显卡也没有限制吧？

至此，我把GeForece RTX T10-8相关背景交待差不多了。当然以上有许多个人推断的内容，我还想继续猜一下T10会长什么样？

_NVIDIA P104__“专用矿卡”，图片引用自技嘉网站。

记得前两年人们用显卡挖矿最多的时候，除了GeForce 1060以上全面缺货和涨价之外，这款专用的P104也是一卡难求。大家知道普通GeForce显卡挖矿损坏是不保修的，P104还提供3个月质保。

如果GeForece RTX T10-8正式名称确实如此，我想它可能也是专为云游戏应用而设计的。具体比RTX 2080贵多少我说不准，但也可能会像P104这样去掉显示输出接口？——因为并不需要本地连接显示器。另外一点：Tesla现在都是被动散热，GeForece RTX T10-8会采用风扇主动散热吧？

以上也算是我对云游戏计算平台的一点小见解。云游戏/VR应用中还涉及远程图形传输协议（视频推流）、针对低延迟网络的5G通信等技术，以后有机会再跟大家聊。

推荐阅读

本文转载自企业存储技术微信公众号，[原文链接点这里]。
注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术可以加我的微信/QQ：490834312。
尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage，也欢迎关注企业存储技术极术专栏，定期更新。

推荐阅读

目录