企业存储技术 · 2020年06月26日

NVIDIA Tesla T10变身GeForce?云游戏能接盘矿卡市场吗

本文内容非商业用途可无需授权转载,请务必注明作者及本微信公众号、微博 @唐僧\_huangliang,以便更好地与读者互动。

image.png

最近几个周末都想写点东西,这次聊聊GPU/显卡吧。上面这张图信息量有点大,往下我慢慢跟大家讲…

昨天看到来自国外的新闻:“_硬件检测工具__AIDA64__的更新日志中出现了一款名为GeForece RTX T10-8__的显卡,基于TU102__核心打造。_” 如下图:
image.png

记得在NVIDIA的几款RTX Super加强版显卡推出之前,曾有传言2080 Ti也可能会有个Super型号,并将显存从11GB提高到12GB(也就是384-bit位宽全规格)。后来NV辟了谣,不过这一次又有人猜测这个T10-8可能是RTX 2080 Ti Super啥的。

但我确不这么认为。2个简单的理由:第一,“-8”有可能是代表8GB显存;第二,“T10”并不是个全新的命名,因为之前Turing(图灵)架构中已经有个Tesla T10。

NV计算卡的不同定位:Tesla T4

在Turing家族和RTX光线追踪GPU发布之后,通用型计算的高端卡仍然是Tesla V100,在P100之后只有Volta架构的这款“大核心”支持FP64双精度浮点计算。NV全面公开发布的Tesla新品只有T4一款,这肯定有自己的考虑。

image.png

Tesla基于TU104核心,半高小尺寸,功耗只有70W。相比之下,它仍然保留了2560个CUDA Core,并配备高达16GB的显存,显然能耗比相当高。

与Tesla V100更多用于HPC不同,T4的定位更多是在AI/机器学习中的Inference(推理),以及VDI——GPU桌面虚拟化应用,比如将16GB显存切分给8个2GB的vGPU。这里除了单独卖钱的GRID License选择之外,Tesla T4还提供了16VF的SRIOV支持。

AI深度学习计算,特别是Inference并不只有GPU一种选择,还面临各种不同高效方案的竞争,比如我在《_OCP China Day:Nervana神经网络处理器、Ruler还有500G?_》里面写的。NV最擅长的还是图形显示(包括后端计算的云游戏),这方面ASIC和FPGA可搞不定。

image.png

在最新的NVIDIA驱动中,Turing架构Tesla仍然只有一款。我们看到Tesla、Quadro和TITAN的Device ID结尾都带有.10DE,也就是说只提供原厂卡。

面向云游戏的Tesla T10:规格悄然变化

image.png

除非您在NVIDIA网站上细心浏览过RTX Server的页面,否则还真不太容易发现这个NVIDIA几乎没有主动宣传过的Tesla T10。Cloud Gaming——云游戏会不会是下一个增长点呢?

image.png
这张图左右两侧截自旧/新2份资料,大家注意到有什么区别了吗?

NV这款系统实际上是个8U机架的刀片服务器。每机箱内10个双节点刀片(也就是20节点)。

具体到单节点的配置,CPU是1颗Intel i9 8核,2颗Tesla T10 GPU。不过NV最新的资料中隐去了RTX的型号(已经不提Tesla了),并将显存从8GB提高到16GB。那么原来的“T10-8”会不会就改成GeForce了呢?

在“Tesla T10 16GB”显存增大的同时,新版资料中还加入了vGPU支持。按照我的理解,在没有vGPU的情况下,每个双GPU节点可能是运行单一Windows/Linux系统,以进程级别隔离在上面运行的“云游戏”应用;或者利用IDV/PCV这类PC虚拟化软件,在Linux Hypervisor底层上装2个虚拟机(很可能是Win),把显卡分别以独占方式穿透进去。

这次vGPU(GRID Gaming)的引入,估计就能把显卡切割给更多的虚拟机,以达到比进程更好的隔离效果来适配某些游戏。至于“Tesla T10 16GB”具体切分为几个vGPU使用,我稍后会讲。

image.png

先来看看Tesla T10 GPU的规格,3584个CUDA Core应该属于TU102核心,参考上表,恰好与上一代的GP102的GTX 1080 Ti数量相同。按照NV网站的说法在游戏中能够达到GeForce RTX 2080(属于TU104)的水平,而功耗只有150W。这个有点像Tesla T4的做法,用相对“大核心”降低频率以实现更好的能耗比,当然T10的成本应该比2080要高,卖价也会是如此吧?

image.png
以前在对比GPU服务器时经常会看空间密度,这次的RTX Server在8U内容纳40个GPU与传统机型的设计思路不太一样。比如我在《_4U 10卡机器学习服务器:为什么PCIe比NVLINK能效比高?_》介绍的Dell DSS8440,8U内2台能放进20个300W功耗的Tesla V100;1U 4卡的PowerEdge C41x0,8节点能达到的密度更高——32 x 300WGPU。云游戏并不需要单卡性能太高,而是更在意能耗比和CPU的配比。

上面这段资料提到GRID vGaming软件能让40个GPU同时运行160个PC游戏,如果是每个CPU节点启动8个虚拟机的话,每个虚机平均能够分配到4GB显存的vGPU、1个CPU核心、接近4GB内存和60GB左右SSD容量,运行主流中等负载3D游戏差不多够了。

如果在数据中心配置30套RTX Server,可以服务数千个并发用户。

挖矿之外,GeForce在数据中心允许的另一用途?

无论RTX Server中的“T10 16GB”是否还叫Tesla,包括我和一些同行朋友都认为:如果是传统NV对Tesla的定价习惯,想在对成本要求苛刻的云游戏市场中广泛应用是有些困难的。

就像NV之前只允许GeForce在数据中心用于区块链计算(俗称挖矿)那样,商业公司都希望自己的利益最大化。当然NV也不傻,他们在GeForce RTX上保留Tensor Core全部能力的同时,将显存容量严格限制在上一代的水平,这将显著影响一些更大规模计算的性能(如渲染)。没有显存ECC支持也无法充分保证长时间高负荷运行的稳定,规模大些的商业HPC用户基本上只能选Tesla和Quadro。

还有些功能从技术上是难以限制的,比如一些VR应用和3D游戏调用同样的GPU处理单元,这时GeForce就可能和同等硬件规格的Quadro专业显卡跑一样快。具体到此类场景,用户肯定会看性价比,而传统制造业对图形工作站的选型则是另一种情况(具体先不展开了)。

举上面这个例子,我是想说明NV为云游戏设计了“Tesla T10”+ vGPU虚拟化的基础设施,但最终市场选择可能会更看重性价比。因为还有Intel的PC Farm方案,有些特殊情况数据中心里也可以放多节点PC,AMD的Radeon游戏显卡也没有限制吧?

至此,我把GeForece RTX T10-8相关背景交待差不多了。当然以上有许多个人推断的内容,我还想继续猜一下T10会长什么样?

image.png

_NVIDIA P104__“专用矿卡”,图片引用自技嘉网站。

记得前两年人们用显卡挖矿最多的时候,除了GeForce 1060以上全面缺货和涨价之外,这款专用的P104也是一卡难求。大家知道普通GeForce显卡挖矿损坏是不保修的,P104还提供3个月质保。

如果GeForece RTX T10-8正式名称确实如此,我想它可能也是专为云游戏应用而设计的。具体比RTX 2080贵多少我说不准,但也可能会像P104这样去掉显示输出接口?——因为并不需要本地连接显示器。另外一点:Tesla现在都是被动散热,GeForece RTX T10-8会采用风扇主动散热吧?

以上也算是我对云游戏计算平台的一点小见解。云游戏/VR应用中还涉及远程图形传输协议(视频推流)、针对低延迟网络的5G通信等技术,以后有机会再跟大家聊。

推荐阅读

本文转载自企业存储技术微信公众号,[原文链接点这里]。
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。 进一步交流技术可以加我的微信/QQ:490834312。
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage,也欢迎关注企业存储技术极术专栏,定期更新。
42.jpg
推荐阅读
关注数
5556
内容数
237
关注存储、服务器、图形工作站、AI硬件等方面技术。WeChat:490834312
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息