狒话 · 8月1日

开放新基建:后直播时代的计算与存储

E企研究院酝酿已久的信息基础设施实践者社群活动“开放新基建”终于在6月正式启动。正值“618”期间,“开放新基建”系列活动的开篇请来了京东云与AI硬件研发总监陈国峰先生,从超大规模用户的角度阐述疫情、直播带货对信息基础设施发展的影响

0603海报横版.jpg

接下来的“第一期”直播则请到了国内服务器、存储领域的三位资深产品专家,从后疫情时代的计算与存储、新一代计算平台、功耗与冷却挑战、整机柜发展的新动向等几个角度展开探讨。大家可以扫描文中贴出的二维码在E企学院回看分段访谈视频,或者阅读正文中的谈话内容整理。

后疫情时代的计算与存储行业

张广彬:大家好!欢迎收看“开放新基建”系列谈话节目,我是这一系列节目的主持人张广彬,大家也叫我狒哥。我们这个节目的初衷是希望以开放的角度和心态来探讨新型基础设施建设过程中的技术和一些行业方向。做客的嘉宾都是行业内工作在第一线的专家。我们今天这个主题是计算和存储,所以我们请来了国内知名厂商里的三位计算和存储领域的专家,请他们先做一个简单的自我介绍。

丁煜:大家好,我叫丁煜,我在服务器行业已经有十几年的经验了,目前在一个服务器厂商工作。一直从事的主要是产品管理类的工作,很高兴有这个机会。谢谢。

郑宇:大家好!我叫郑宇。我来自一个国内的存储创业公司,也感谢广彬今天有机会邀请同仁来一起做一个交流。

农天使:大家好,我叫农天使,大家也叫我Harry,我曾经服务于思科、IBM,现在在希捷(Seagate)工作,所以对于网络、计算和存储都有一定的经验。我服务互联网公司超过10年了,非常高兴今天来跟大家交流。

第一段回看-500.png
扫码回看第一部分视频,时长约16分钟

张广彬:非常感谢各位今天能够来参加我们这个节目的第一期,确实提供了很大的支持,也给了我很大的信心。长话短说,因为各位时间都比较宝贵,我们先简单地谈谈今年整体的情况,大家也知道今年上半年是很特殊的上半年,我们都能感觉到整个市场的运行规律和往年是不太一样的,从你们几位的角度来看,你们所感受到的上半年的市场受到了哪些影响?包括服务器也好,SSD(固态盘)、硬盘产业的供应链,当然也有需求,还有下半年,你们对下半年的走势有怎样的一个预期?

农天使:我就先抛砖引玉一下,今年上半年大家可以看到我们面临着很大的挑战,也有很多的不确定性。从我们看到的情况来看,首先由于疫情的影响,我们注意到一些新兴的应用增长得很快,比如说远程办公、在线会议以及网课,包括直播带货,这些新的应用,包括电商的需求也很强劲,所以这些新的应用反而是造成我们看到需求比往年同期有一个增长,所以对我们来讲今年上半年反而有一个波峰的情况。

我们也在观察,随着这个情况的发展,后面各行各业受到的影响,会不会在某一个时间有一个需求疲软的情况?我们确实在密切地关注这块。

郑宇:谢谢Harry。从我这边来看,我们是一个相对还比较小的一个国产的初创团队,我们也是聚焦在数据中心和企业级的SSD产品上,所以说这个领域我们从这几个点上有一些感受,跟大家分享一下。

一个是市场端。市场端我很认同Harry的讲法。实际上从疫情角度来看各种线上的应用比原来明显地活跃了,我们很多的线上客户对于存储,对于性能都不断有新的需求提出来。反而好像在疫情当中相对更快地发展了。

从整个技术层面来看,正好也是跟广彬在交流OCP相关的(内容),OCP领域我感觉受今年中美关系和交通的影响,很多话题都没有展开的很充分,其中OCP里面我看到蛮多的热点是关于硬盘协议的更新,也向NVMe去转移,但是更多的还是围绕着新的form factor大家在做交流。从技术上我觉得大家都努力希望把整个的数据从存储和流动变得更加顺畅,但是原有生态里面一些继承的产品或者是技术的格局其实还是有很大的努力要去跨越和更新的。

另外从行业层面来讲,广彬也提了新基建,其实我们也非常希望新基建当中有一些热点、有一些好的商业机会能够参与。但是从整体的政策到变成具体的项目的角度,我们也在尝试其中的一些机会和感觉,可能这方面也许丁煜这边从服务器原厂来说会有更大的清晰的感受,我们比较小。

丁煜:从我这边来看,首先是市场需求方面确实是有一个比较大的拉动。当然主要也是源于这些线上业务的拉动是很厉害的。传统市场因为受到疫情的影响,确实有一些采购有延迟的情况。但是正如刚才郑宇说的整体市场反而受到线上应用的拉动出现了小的高峰,这个也是和过去的节奏稍微有些不同的。

这个过程中,整体供需都还是比较顺畅的,我感觉也是我们科技产业一个比较好的地方。大家比较迅速地就从一些外界的影响中恢复过来了。所以说最终感觉交出了比较好的成绩吧。

再接下来的时间里面我觉得这个市场整体还是会保持一个比较好的状态。因为在前期受到推延的一些传统行业实际上他们的采购需求和应用需求还是存在的,后续还是会释放出来的所以我感觉接下来的市场情况应该也是比较好的。谢谢。

张广彬:针对刚才几位的回答我有一个补充,比如回答Harry你的这个问题来说,我们也知道服务器存储行业都是全球供应链,当然随着中国这些年的发展供应链已经非常完善了,但是大家也知道我们核心器件供应方面,上游器件,三大件,我们国内还是有差距的。现在回到硬盘,当然我觉得硬盘可能是一个比较特殊的行业,至少在以前,我也知道现在行业都用很多智能制造的手段,但是以前它是一个劳动密集型的行业,所以它很早地就把生产的重心转移到亚洲,尤其是在中国。那是不是说在中国或者在亚洲的生产受到的影响小一些?但你们是不是还有一些上游的部件在中国以外?所以我想问问从你们自身供应链的角度受这个疫情的影响有多大?

农天使:我们早期的时候疫情刚刚开始因为有一些停工的事情,但是对我们的影响反而不是那么重要的部分,举个例子,当时疫情比较严重的时候,我们在硬盘出货的时候,比如说一个托盘上面有一个纸盖子,纸盖子把它盖住,那个供应商当时就交不上货了,但是我们跟我们客户沟通这个事情,大家也能接受,因为它不是最核心的部分。我们最核心的部分基本上大家管理起来都还很OK。特别是我们在国内这块没有一个工厂的同事受到感染,这个还是挺厉害的。

后面我们看到产业里面,比如说在菲律宾或者是在马来西亚有一些停工的影响,但是我们公司很快就制定出一个流程和策略把它管理起来了。我们基本上现在的供应是没问题的。

张广彬:谢谢Harry。郑宇,抛开你们公司不提,我觉得你个人对闪存整个行业的情况还是比较关心,比较了解的,包括这个行业也在寻求芯片国产化,不仅仅是做SSD,包括控制器,所以我想问问你不从具体公司的角度,从行业的角度,你觉得上半年闪存这些芯片的供应和下半年的走势是怎么样的一个情况?

郑宇:这个话题范围,其实整个闪存行业是一个非常宏大的行业,所以可能只能从个人角度比较片面地谈一些观点。

第一我觉得从上面来讲应该有一点两极分化。从刚才Harry讲的情况,像终端消费的产品受市场影响比较大的。一个是销量有所缩减。

另外一个是从供应的角度也呈现了一定的过剩,价格也形成了压力。但是从企业级角度来讲,刚才讲了线上的应用比较活跃,其实对于SSD需求是挺旺盛的。而且从今年来讲,或者是说新基建,或者是说行业在整体基础设施投入上面的规模,我觉得都还是比较持续和稳定的。

刚才丁煜也讲了从整个系统层面供货还是小高峰,所以相应的作为企业级数据中心的SSD其实它是有一定配比关系的,从配比率上应该是逐步在上升的一个过程。所以,一冷一热,我觉得是。

从整个的趋势来讲,应该对于SSD的应用我们国内的使用水平和北美市场还有一定的差距,他们整体的配比水平还要更高。从国内需求的应用成长来讲,很明显一些大的客户还在逐步地提高应用水平,甚至可能用一些更新的form factor,或者更高的技术,去用一些产品。

价格层面,我觉得随着整体经济情况,如果经济能够很快地恢复,相信仍然能回归到一个性价比逐步提升的轨道。但是如果确实在整体经济上产生一些不可预测的情况,也许再供应过剩,这个价格可能产生比较大的反弹。这个对用户,尤其是对国内在整个产业恢复上未必是一件坏的事情,可能用户有机会能够用更好的价钱买到更大的容量或者更好的产品性能。我觉得整体形势只要国内的经济正常地恢复运转起来,那支撑整个行业容量、产品性能技术上升的空间,就会很持续地走下去,我们还是乐观的。

张广彬:关于这个form factor一会儿会有专门的讨论。其实在这个话题结束之前我主要想问一下丁煜,因为咱们从往年来看服务器的供应链第一季度是比较低的,第二季度有一个很强的反弹,第三季度比较高,但是今年是不是因为出现了疫情的情况,会出现把这个规律打乱的情况,还是说第一季度还是低,第二季度比较高,但是第三季度会掉下来,还是全年总的量都会有一个上升?从你的角度来看你觉得它会是怎样的(趋势)?

IDC2020Q1-Server.jpg
从IDC公布的2020年第一季度全球服务器市场数据来看,收入同比下降6%,但以云计算和互联网头部企业为主要客户的浪潮和ODM直销仍保持增长,如ODM Direct的收入超过整个市场的四分之一(25.9%),出货量接近整个市场的三成(29.9%),侧面反映了疫情对线上生活的影响

丁煜:从全年总量上来看,个人观点,我觉得整体的市场应该不会受疫情影响特别大,当然确实供应节奏发生了一些变化。像刚才说的,这些线上服务的需求突然爆发式增长也让这部分行业里面的客户把一些需求提前进行了采购,所以我觉得一定程度上影响了接下来的采购节奏。

但是从另外一个角度来说,在上半年,尤其是3月份、4月份的时候,传统行业,包括渠道上实际受到停产、出差的限制、出行的限制,受到的影响还是蛮大的。所以那部分上半年表现并不是很好。

我觉得在接下来的时间里面它们会逐步地复苏起来,会把这些需求释放出来。

所以最终看上去,我觉得很有可能三季度的时候也许不会像往年那么的高潮,因为它有一些(需求)可能已经前移,但是整体全年应该是不错的。

线上会议、直播对IT基础设施的要求

张广彬:我们虽然是探讨技术和应用为主,但是整个市场的形势,总体上来说关注咱们这个市场的还不是特别多,所以其实还是需要给大家一个整体市场状况的介绍,刚才也简单地说了说大家的看法。其实我们还是要围绕着技术和应用,刚才几位也都谈到了视频、线上,我可以说说我个人的体会,大家可以聊聊天。

第二段回放.png
扫码回看第二部分视频,时长约20分钟

其实咱们都关注OCP,刚才郑宇也提到了这个,Open Compute Project(开放计算项目),你们二位的公司,包括我们公司,都是OCP的成员。我们也是OCP成员。只不过你们是铂金(Platinum),我们是最低的那一档(Community)。但是确实大家都去关注这个领域的事情,我们也知道其实这个会往年都是3月份开的,但是今年搬到了线上。

搬到线上,其实这个体验差别就大了去了,第一要跨时区看这个直播,第二个是网络带宽。实际上OCP以前它自己的视频都是放在Youtube上的,大家都是回看。现在它自己搭了一个网站,是你能实时看了,结果我那天和另外一个朋友相约晚上爬起来看,卡得不行,卡得要死,包括带宽,而且我觉得受到歧视,像曾哥家里是1.6Mbps,我家里只能是800Kbps,就这还卡,实际上这就体现了线上对带宽的需求,过后你还要回看,你自己要存储,我觉得这是国外的例子。

OCP线上会议.png
卡就一个字,圈圈转不停

更近的例子就像咱们这个活动,如果没有疫情这件事情,咱们这个事情可能就是线下来做,以前我也办过这种活动,线下找个60~100个人,大家聊一聊,这个东西可能就不会搞什么直播之类的。但是搞了直播以后,对这个带宽,首先你要解决带宽的问题,还有存储,因为有更多的内容会被存储下来,当然这里面都离不开服务器。

简单来说,这些线上应用毫无疑问肯定是增加了对计算、存储和网络的需求,这是一个总体的感觉,但是进入服务器里面,什么时候我要用SSD,什么时候用硬盘,什么时候是内存去搞?我相信大家还不是特别清楚。Harry能不能从你的角度来说一说这个直播或者是线上这种视频对IT架构的计算和存储的影响?

农天使:刚才咱们说到OCP这些直播的体验好像不是特别好,我想OCP应该跟我们国内做直播的公司好好学一下,因为咱们国内直播不仅用户体验好,而且支持的用户基数也更多。

回到刚才咱们探讨的问题,在服务器层面会是怎样一个数据流动?

我想根据我的经验,应该说咱们做直播有很多互动和在线的诉求,所以我想大部分的压力会在CPU和内存这块,数据里面有一个频繁的交互,承载了大部分的压力。后面当数据落盘的时候才会落到SSD上,再到机械硬盘这个过程,我想应该是这样一个架构。这个也是头部客户里面目前用的一个分层的架构。

张广彬:丁煜,刚才Harry提到了CPU、内存,我们也看到现在有人用专用的加速器,AI当然有专用的加速器,包括就像这次OCP上Facebook也提了它的视频转码加速器,实际上这些都对服务器的设计构成了一定的挑战,从你的角度看是怎样的?

Video_Transcode_Accelerator_in_Facebook_Datacenter.jpg

丁煜:首先感觉现在的应用确实是让CPU这个原本占据中心位置的一个数据处理单元的中心权威地位受到了影响。现在有很多的负载其实都已经放到了协处理器上,或者加速器上。就像您刚才提到的比如说视频类的、媒体类的处理,包括像AI更是目前比较依赖协处理器,甚至在网络上,也有很多网络的处理现在也都是通过一些像智能网卡(SmartNIC)、FPGA一类的技术来进行加速的。所以这块我感觉对产品的设计还是变化蛮大的。

因为这些应用,包括这些加速单元,它们是随着客户应用而变的,这个实际上对我们来说,可能以前我们只需要开发一个所谓的标准机型,通用产品,各行各业都可以买,都能用。但是现在因为客户的应用属性不同,他有可能对这个产品的设计就会提出不同的要求。这就是为什么现在我们有越来越多的客户有这种定制的诉求,因为确实是标准品在承载业务的时候不能做到效能最佳,相应的也给我们这些厂商带来了可以说是额外的压力吧,因为我们要针对它的应用重新设计产品,会增加我们的库存种类、运营难度,所以这一块我感觉对行业还是产生了非常大的影响的。

张广彬:我觉得丁煜说的有一点很对,因为前几天和美国一个很著名的服务器生产商的人交流,他也说大家都用标准品就好了嘛,为什么搞那么多定制呢?其实按我的理解是因为现在应用在变化,标准品可能是根据以前的市场来做的,那它可能在一个特别大规模的情况下效率不是最优。

另外一个,我感觉咱们差不多这20分钟了大家还是比较和谐的,但是我还是希望制造一些争端,比如说SSD和硬盘之间,刚才Harry也提到了分层,但是站在某大厂的角度,要用QLC取代硬盘,当然这个事情到现在还没有发生。郑宇,我不知道从你的这个位置上来说,你是不是支持QLC取代硬盘,或者说还是认为现在还是一种分层的形态?

郑宇:因为希捷也是存储业界的巨头,也是老兵,我们是新兵。所谓国产,我们也是个国产SSD企业级视频解决方案的一个供应商,我们其实也看到了实际上整个用户从计算、存储到网络传输的通路上都在面对像直播、线上巨大的压力在打通这条路径,在寻找好的方法,但是最终我们是以服务器为整体来形成在基础架构上的支撑。

这个分层的概念我非常认同。分层首先从Flash慢慢成为存储的主要的一个从性能和容量上的新层次来看,我觉得这两年已经呈现出了巨大的变化。实际上我们从过去的讲法上叫这个数据的温度,开始逐步地升温了,整个网络形成的虚拟世界越来越讲究体验。这个体现在IOPS有没有更多的用户可以同时地并发支撑,也体现在延时上我们能让用户更好地体验到及时的一些数据反馈。这方面我们认为如果国产的方案和国内的研发团队进入是有利于帮助用户在各种新的,不管是分层还是个性化的体验上更好地得到支撑。

从我们现在的看法来讲,不只是在硬盘和Flash上产生了分层,事实上在Flash内部也是有分层的。最初是MLC,逐步切换到TLC,现在还有QLC的新话题,甚至PCM也有可能加入进来。其实大家最终的诉求我觉得是两点,一个是更好的容量、性能的增加,另外一个是性价比能不断地提升。所以这是一个动态的比较的过程。

现在来看,TLC和QLC两个技术的思路不一样。一个是存储数据的位元数会有密度的增加。从TLC本身来看它的多少层,3D的层数也是对密度的增加,实际上我认为是一个竞赛。但是,QLC和TLC在存储的介质特性上是不一样的,应该讲TLC今天我们看到还是明显地呈现了在耐用性、整体设计的成熟度各方面上的优势。所以我个人认为如果TLC在整个3D密度层次上能够继续良性上升的话,对QLC能否产生真正的规模化的替代是有相当的压力的。

今天来看,我仍然认为QLC可能在消费类市场应该是比较适用的一个介质。而对于企业级的数据中心,如果TLC能够随着技术演进继续发展,对QLC能否顺利地进入这个市场成为主流,还有待观察。这是我的观点。

张广彬:我感觉老郑同学没有上我的圈套,还对友商进行了一番推广。虽然我本人也是从接触硬盘开始,因为毕竟岁数大了,我年轻的时候SSD,不能说没这个概念,但是你想不到它能到跟硬盘一较短长的地步。过去10年来,我们看到SSD对硬盘构成了相当多的(威胁),不能说替代,比如你从我的角度来说,我就特别爱升级机器,因为CPU的发展其实并没有那么快,大家也都知道,大英在挤牙膏,可能一会儿我们要谈到挤牙膏这个事情,但是其实SSD过去这些年,尤其是前几年发展还是比较快的,所以你看这个机器它用的这个硬盘,性能还是差一点,我就会选择给它加一个SSD,然后让硬盘更多地去做数据存储。SSD当然是随机性能特别好,但是如果完全从顺序访问的角度来说,其实硬盘的差距没有那么大,所以站在我的角度来说可能也不单是一个分层的角度,另外可能是不同的数据类型(的角度)。

我不知道是不是有很多人跟我一样,不知道算不算偏见,就是我随机性能要求比较高我就放在SSD上,我对硬盘其实主要是个带宽,对硬盘的延迟好像没什么要求。但是很有意思,我发现这次OCP线上峰会它放出来的一些存储的workshop里面,有相当多的比例都在谈怎么降低硬盘在大规模环境使用中的延迟、时延,包括Facebook和微软都在研究这个。所以我感觉比较困惑,是不是我的认识还是有点片面?仍然有很多应用还是需要用硬盘的?包括哪怕是对延迟比较重视的应用,它也还是希望在现有的架构下能够更充分地把硬盘用得更好?所以我的问题比较长,不知道Harry有没有get到我的点?

HDD_Queing_for_Cloud_Configurations.jpg
增加队列深度可以提高硬盘的throughput,但是少量尾部延迟会恶化

农天使:对,我觉得狒哥刚才给我们挖了个坑。

张广彬:但是你们不跳。

农天使:对,我们都没跳。我觉得SSD取代硬盘这个争论,可能在过去的几年前是一个很热的话题,那时候大家可能都站在不同阵营,大家的争论就会比较激烈。但是走到了今天,我觉得大家基本上有一个共识,相辅相成,各有所长。特别是我们达成了一个共识,比如在台式机硬盘或者笔记本硬盘上基本上后面会收敛到SSD这条路,但是在企业级,在数据中心这部分,像我们的近线级(Near-Line)企业盘以及监控盘,还有NAS盘市场的增长,还有这个必要性,大家看得是比较清楚的。

又回到刚才说的问题,以前很多朋友,特别是互联网的朋友,说我解决I/O的问题,我解决性能的问题我就用SSD,为什么今年反而是在OCP上有这么多的讨论说我要把硬盘的性能,特别是延迟这块,我要想办法再提升或者是让它更可控、可预测?归根到底,是咱们的应用在不断地演进,而且不同的应用它有不同的需求,一旦咱们的应用发展到了一定的规模,量变引起质变,那时候就不是简单地说我选SSD来解决性能这么简单的一个问题了,因为那时候如果这么简单地来看问题,往往意味着成本和投入是非常非常巨大的。

因为像我们的硬盘比如它的响应时间是毫秒(ms)级的,但是在真实的应用环境里面网络的延迟跨城之间可能也是几十毫秒、上百毫秒的,也是非常正常的。甚至如果有一些情况,还会更大。在这种环境下面,硬盘的延迟是很有价值去探讨的一个话题。我们看到现在一些大厂,比如微软、Facebook在密切关注这个问题。国内头部的互联网客户也在关注这方面的问题。核心就在于大家会关心反馈的延迟,希望在一个可控的水平里面。比如说100毫秒以内,50毫秒以内,我们希望有99%还是多少的一个响应时间是在这个区间里面的。这就是应用我们的QoS(Quality of Service,服务质量)做得比较好。

P99读延迟.jpg
本届OCP线上峰会存储部分的一个议题,通过划分优先级的方式保证高优先级应用99%的读延迟降低,代价是低优先级应用99%的读延迟成倍增加,即不同的QoS

引申开来,一方面在单个盘上面咱们会有这方面的探讨,同时现在我们主流出货的最大容量已经到16TB了,后面还有更大的。单个盘的IOPS慢慢地大家也会有一些挑战。

张广彬:对,这个问题接下来我们再去讨论,因为我们确实也不希望一段谈话太长。当然有个观念是涉及到公共的话题会让听众感觉到信息量太大。但是Harry说的有一点很重要,我也受到了启发,其实应用对于延迟的追求并不是(极致最小),当然越小越好,但是不同的应用只要达标了就可以,但是最关键的主要是你延迟的稳定性,就像你说的99%延迟,比如大家就怕这种,就有0.1%的延迟,它特别长,这个QoS就受了这个影响了,所以我觉得可能Harry至少部分解答了,我看微软、Facebook的方案,其实它就是把整体的延迟控制在一个可以接受的水平,自然有适合它的应用还接着可以用它。

CPU、内存通道及PCIe 4.0的升级挑战

张广彬:这个问题又要回到计算上了,实际上存储数据量越来越大,还是希望有更强的处理能力。虽然我们刚才开玩笑挤牙膏,但实际上也有不挤牙膏的厂商,比如像AMD,当然我们也不是给AMD做广告, AMD曾经被英特尔按在地上摩擦了差不多10年,但是这一两年确实表现不错,确实是在多核上面,至少在核数上面很领先了,1个CPU可以有64个核。

第三段回放.png
扫码回看第三部分视频,时长约22分钟

我观察到一个挺有意思的现象,ARM有很多厂商,有个小厂叫安培(Ampere),原来英特尔负责数据中心的老大出去创业的公司,他们3月5号发布了一款CPU。我为什么特别强调3月5号呢?我是这么分析的,因为OCP线下这个峰会原定是3月5号开的,所以我认为它这个产品本来是想在那个时候发,但是后来因为线上峰会挪到了5月份。回到它这个产品, 80核的产品,核数很多。当然因为AMD的处理器它支持超线程,它这个80核不支持超线程,但是我们可以看到第一,核数越来越多了。另外一个是I/O,内存通道AMD已经把CPU弄到了8通道,好像英特尔也要增多,当然我估计丁煜你没法回答具体的问题,我只是说这个趋势。另外一个还是支持PCIe 4.0。所以我想问一下,丁煜从你的角度来说,用户是怎么看待这个核数(core count)、内存通道越来越多,还有PCIe 4.0这些趋势的?

ampere-altra-block-diagram.jpg
80核的Altra处理器,也采用7nm制程、8个DDR4-3200内存通道,预计今年底推出128核的Altra Max

丁煜:好的,我谈谈我的看法。首先在CPU核心数量上,核心数量一直是一个比较众说纷纭的点,有的时候你必须得通过扩展核数的方式来提升CPU整体的性能,稳定性,现在的制程也好,还是说散热,你是不可能支撑你的核心频率持续提升的,这个时候可能扩充核数是一个比较好的提升性能的方法。

但是之前一直有个比较有争议的地方,因为扩充核心实际要求你的应用程序有比较好的并行化的能力,同时也会给芯片设计厂商带来很大的挑战。你能不能很好地让你的核心能够做到比较好的协同?让你的比如说我们姑且叫做加速比吧,你增加核数的时候,你的性能能否尽量多的提升?这个实际上是蛮考验厂商的设计能力,以及应用程序并行化的能力的。

但是现在为什么有一些公司推出了核心数远超过去想象的产品?会有一些终端客户对此有兴趣。我觉得这里面也有一个很重要的应用方面改变的点,就是我们现在服务器里面的I/O设备和存储设备越来越多,这些设备他们现在更多的会有一些技术能力很强的客户,他们希望自己能够用软件控制的方式,就是软件能够很精细地管理到这些设备,那在这个时候实际上这些管理的动作有好多好多细节的处理是通过CPU来做的,那这个时候如果你的核心数比较多,它就可以比较从容地分配出,比如我们之前有一些应用曾经在客户那个地方会有说它每一颗硬盘对应一个CPU核,这样的话通过CPU核调度这个硬盘就能达到最好的效能。

NVMe HDD.png
今年的OCP线上峰会,微软提出了NVMe硬盘的设想,这样HDD和SSD的接口就统一了,CPU也可以更直接的管理硬盘

这个时候我举个例子,如果你的机器里面有40个硬盘,按道理说你至少提供40个核才能把这些硬盘管好,然后你还得再提供更多的核,因为那些更多的核才能运行你的操作系统和业务程序。所以从这个角度来说,我觉得这个核心数特别大的这些CPU方案实际上它瞄准的也是一个非常有意思的领域,就是用户的应用程序已经足够精细化地管理它的周边设备包括存储设备,包括I/O设备,这是第一个点。

第二个就是关于内存带宽的,因为我们现在的设备架构,内存是最主要的数据存储,包括甚至很多的数据交换都发生在内存里面,所以内存的带宽或者说它的整体性能的提升是提升整体设备性能的一个非常有效的途径,从这个角度来看我觉得不管是哪个厂商都会在自己工程实现角度允许的情况下尽量多地提供比如说更高的内存的存取频率,更多的内存通道,来获得更好的性能。所以在这块我觉得仍然还是会有提升的空间的。

intel-cooper-lake-eight-socket.jpg
在Cooper Lake这一代,英特尔的至强可扩展处理器仍然保持每CPU配6个内存通道,预计年底推出的Ice Lake会提高到8个

再到PCIe 4.0,我觉得对于我们传统的数据中心,可能企业用户很难感受到PCIe 4.0的价值,但是对于刚才说到的这些头部客户,这些超大规模的,本身它的应用性能也发挥到极至的客户,他们对4.0的需求可能会更加迫切一点。比如说它需要支持更高速的以太网。好比说100G以太网,它就已经占用了PCIe 3.0×16的全部带宽。如果你说我以后要支持200G,或者我要做双口100G,同时双口都能做到100G线速的话,你必须要用PCIe 4.0,否则你是实现不了的。

Mellanox-PCIe 3.jpeg
以Mellanox ConnectX-6 200Gb/s InfiniBand/以太网卡为例:PCIe 3.0版本(上)需要占用2个x16插槽,以获得足够的带宽支持;而PCIe 4.0版本(下)因为单个插槽的带宽倍增,所以只需要占用1个x16插槽

而且从另一方面来看,在存储方面,PCIe 4.0我觉得也是能提供价值的。最简单的时候,比如我们的NVMe SSD,我们现在U.2的设计上它里面就是一个PCIe 4.0×4,它能提供比较好的性能。但是毕竟4个PCIe lane拉过去,这个本身PCIe lane的数量比较多,导致你走线也会比较复杂,电路板设计也会比较复杂,你的系统也没有那么多lane可以往外提供啊,所以就限制了你,你可能接不了那么多SSD。如果你要接更多怎么办啊?你就需要用比如说PCIe switch做一个扩展,但是毕竟PCIe 4.0 switch会引入新的成本,引入新的比如说延迟,然后让它的性能可能得不到充分的发挥。

但是如果我们有PCIe 4.0,是不是比如说我们在保持现在SSD带宽不变的情况下,我就只用2个lane就可以解决问题?那未来甚至可以做1个lane?这样我觉得也很大地反过来能促进SSD,尤其是一些相对性能更高或者是功能更复杂的SSD?比如说双链路的,多地址,多namespace的,这些东西我觉得PCIe 4.0会促使它更快地进入到市场的实际应用中。

张广彬:这里面我觉得丁煜讲得很全面,但是这里面可能涉及到一个生态的问题,其实CPU只要能生产出来新的CPU,大家就跟着生产主板,内存也不过就是加个通道,这个其实通俗地理解对于内存厂商也没有什么挑战。但是PCIe 4.0就不一样了,你还得要有个生态,就是要有足够多的设备,一方面CPU支持,实际上英特尔支持PCIe 4.0的(CPU)产品还没有出,光靠AMD它的份额还是相对有限的。另外一个更关键的就是设备方面。确实网卡对带宽来说,原来姓M(ellanox),现在姓N(vidia)的那家,它出PCIe 4.0很积极,但是感觉SSD就慢了一些。郑宇,从你的角度来说,你怎么看PCIe 4.0 SSD这个市场?

Intel 3D NAND SSD D7-P5500_angle.png
在本期节目播出后,英特尔正式发布了支持PCIe 4.0的新一代SSD:英特尔固态盘D7-P5500和D7-P5600系列,现在就等CPU支持啦

郑宇:PCIe 4.0从技术上优势是明显的,大家都希望更快、更大的带宽,但是现实中我们看到一个总线,尤其和是CPU紧密关联的总线去做演进,产生的延伸的话题在生态是比较复杂的。

从我们前期在SSD投放市场的过程中,首先感觉到的直接的挑战是来自于功耗的。PCIe 4.0的产品从外部来看是一个IT结构,但是从内部来看它的IC端的接口也都在主频上升,NAND颗粒,在控制器,在内部SSD设计的整体频率,这一切的性能,它是一条龙的,所以这个功耗带来的影响大家如果是尝试消费类去换,你会发现可能散热器和CPU一体化地要做一些调整,这个还是不容易的。

但是另外一点,整个的演进过程也是取决于用户需求能不能真正地支撑?当然从用户的角度一定是希望能够用同样的成本,同样的便利来实施这样一些产品技术升级,但现实中应该讲整个的过程,它从应用一直到整个的配置,一直到最后实际的使用,很可能都要综合到一个成本的角度来看。

从速度上来讲,我们历史上认为这么重要的一个总线应该是全生态地去进行升级的,但是现在我们发现很奇怪的反而是小厂商优先地推动4.0的演进,大厂商在整个4.0上反而有一个波动性。我就直接说带队的英特尔老大实际上最初是没有做好这样一个节奏的。

所以从4.0来看,我觉得在存储端首先它一定是个方向,但是刚才我们讲了对应用、对成本应该直接来讲,首先是保证它在整个生态演进中的一个均衡性,应当和整体的计算网络,包括在SSD内部整个发展的进度是呈现一个均衡,大家才有可能自然地把它延伸到后期的部分当中去。

今天我们来看4.0在发布产品的时候大家都是蛮积极的,但是从真正使用的时间上,我个人做一个预测,真正要成熟可能还要比较长的时间,一年甚至更长一段时间。这是我个人的看法。

张广彬:对。这个我确实是比较赞同的。因为我们已经拿到了某个大厂的PCIe 4.0的SSD,结果这样比较有趣的现象出现了,另外一个大厂基于AMD的服务器也是支持PCIe 4.0的,但是PCIe 4.0 SSD放到支持PCIe 4.0的服务器上只能工作到PCIe 3.0。这是个固件的问题。据说这个月就能出新固件了,我们已经等了两个月了。

所以这个生态不仅仅是个硬件生态,其实软件的各种兼容性确实是很复杂的。刚才郑宇提到了功耗,我觉得这个功耗会是咱们后面比较重点讨论的一个话题,但是这里面首先还是功耗和性能,相对来说硬盘在历史上也受到过这种限制,什么15000转(RPM)啊,这个也不光是功耗的问题,我们就不展开来讨论了。但其实我觉得硬盘和SSD不同程度地都碰到了一个问题,因为现在大家应用中越来越强调单位容量的IOPS,单位容量的I/O能力,其实在我看来大家都是增加并发度嘛,SSD可以增加颗粒数、闪存控制器通道数,来增加并发,其实硬盘也在通过类似于增加磁臂的数量来增加并发的能力。但是这样的话大家会觉得这个硬盘本来就很复杂了,是不是把硬盘搞得更复杂了?

Dual Actuator.jpg
狒哥在2019年OCP全球峰会上拍摄的双磁臂(Dual Actuator)硬盘,可以看到硬盘的磁臂分为上下两组

农天使:现在最先碰到这个问题的会是咱们互联网的大厂。因为首先它会倾向于把大容量的硬盘部署上去,这样TCO是最好的。这样的话,也会最先碰到我每个单盘的容量上去了,但是每个单盘的IOPS并没有线性地往上涨。

为了解决这样一个两难的困境,我们业界就会探讨多磁臂(Multi-Actuator),第一代就先从双磁臂做起。双磁臂的情况下,肯定是说咱们互联网厂商的客人跟我们业界的硬盘厂商一块从它的failure domain(失效域),包括怎么把它用起来,还是有一些基础的工作在做的。但是,基本上来讲这个难度跟整个互联网碰到的软件架构的难度是小很多的。因为现在恨不得是软件定义所有,网络、存储都在里面。

在这里面,大家也看到了这有明显的收益的,我相信大家投入在里面不是太大的问题。

张广彬:确实刚才你也提到了大厂,但是大厂有不同的喜好,不然大家为什么要定制?大家的需求都不太一样。刚才郑宇提到了功耗的问题,其实SSD的性能提升确实有时候受到供电能力和散热能力的限制,我的感觉就是Fabebook和微软,包括亚马逊他们都比较喜好搞高密度的,Facebook和微软都用了很多的M.2,当然M.2毕竟它的form factor、尺寸决定了它能放的芯片数量有限,这就限制了容量,还有功耗和散热,又限制了性能,所以,我们也可以看到这届OCP上都在EDSFF,E1.S来提高性能,E1.L来提高容量,但是感觉国内客户对他们不太感冒,国内客户和互联网客户经常大家会觉得U.2比较适合企业客户,尤其是像通用的服务器里面,发现国内客户大厂都很喜欢U.2,所以你看用户偏好上的这种区别,郑宇从你的眼光来看,你怎么解释?

E1.S Thermal.jpg
追求性能的E1.S,需要不同的散热方案配合

郑宇:首先,刚才我们都看到了从大型的用户来讲,因为他们的规模在这个里头,所以对于标准产品在正常情况下他们有很多要优化的愿望的,因为标准产品很可能没办法在特大型的数据中心很精密地适配它的各种应用环境,所以从北美的情况来讲,因为整个半导体生态包括像整个系统生态都比较健全,所以他们会主动地去尝试用各种方式优化这样的结构。

其实从定制的角度,他们也是最早带动国内市场一些头部用户开始尝试这些部分的。很多年前,我在一些大型客户中早期参与了这个过程。

从SSD的角度,我觉得现在的话题,北美看起来是说用各种变化来简化各种线缆或者接插件,去提高信号的一致性、完整性,也降低一些复杂性,但是这个前提是说它确实在整个生态支持系统上有足够的能力,很快速地做大规模的转换。北美数据中心的特点恰恰又都云集在几个大家伙手里,所以这是他们内在的一个动因,也有条件做这个事情。

从国内的情况来讲,我们的IT生态实际上在核心部件,在核心的上游供应上相对是受制约的。所以我们为什么尝试在核心部件上做国产的团队,国产的方案?很大程度上我们也希望推动国内面向客户的应用能够更好地提供适合的解决方案。

当然这是有一个过程的,我们现在和一些大的头部公司围绕一些如何去做SSD的定制化已经有了一些初步成熟的方案,正在开始做尝试。主要是面向未来,能够让server host端和SSD更好地能够互动。在整个介质的管理上,面向未来的混部(混合部署),面向灵活的调度,能够给用户更大的一些适合应用的一些条件去做一些努力。这个大家有机会也可以去搜一搜类似的方案,像Open Channel、KV(Key-Value)之类的都很多。

Key-Value SSD.png
但是从实际的硬件生态的改变来讲,我们是一个很有特色的市场,我们既有互联网,也有传统的企业、行业,在规模化应用的角度来看,其实我们更擅长围绕着应用做具体的定制改变,而不是从单纯硬件的角度去做。所以即便是通过U.2,通过现有规模化的方案,很大程度上也能帮客户做很多的适配和优化。

另外,刚才讲了M.2初期它可能从功耗、并发度的角度适合,但是现在为什么大家探讨E1.S呢?大家还是希望能够一次性比较理想地优化出一个体系结构来,这个从现在来讲的话,任何一个厂商做这样一个根本性的改变,也得评估市场的需求和投入是不是真正能够平衡?从实际应用的角度,一个相对原来传统U.2异形的form factor在做成产品的过程中也面临着产品的各种测试、可靠性、各方面打磨的一些工作量。

今天来讲,国内也不是有很多的团队有能力在这方面真正很快速地实现成熟的产品。我们也是在这方面紧密地跟踪。应当讲,在适合的时机我们也看看这个产品是不是真有机会被广大用户去接受。今天来看我觉得国内用户还是比较成熟的,在选择的时候不单纯是技术驱动的,实际上还是综合平衡投入,平衡应用上优化的潜力,平衡成本,平衡多方面的因素。所以我觉得更符合国内市场的实际需求吧,客户还是理性的。

走向液冷时代的服务器散热设计

张广彬:咱们讨论到了散热的问题,其实刚才丁煜说这个频率上不去,但实际上我观察好像好多年前大家说5GHz上不去了,但是现在发现一些消费类产品的CPU,选一些体质比较好的核心,也能过5GHz了,当然全过5GHz还不行,供电是其次,散热是个问题。

第四段链接.png
扫码回看第四部分视频,时长约16分钟

包括现在AMD它也有一些核数比较少的(EPYC 7Fx2系列)CPU,把频率飙得比较高,再加上Cache越来越大,好像在几年前CPU功耗过200瓦(W)还是比较少的,但是现在发现很多CPU都200瓦起了,一个CPU 200瓦,2个CPU,一个双路服务器光CPU就400瓦,再加上内存,内存通道一增加,就意味着内存数量增加,功耗上去了,再加上AI,譬如GPU以前300瓦,现在400瓦,还有700瓦的。如果我们还是用风冷的情况,这些对服务器的设计带来很大的挑战。

7Fx2.jpg

比如你也知道原来Facebook自己的OCP服务器是2U,但是很窄的(2OU3),两个CPU前后布置,所以这回横着放。微软也是这样的,阿里也是这样的。当然具体这些客户你是不方便评论的。但是我想这个确实可能是对服务器设计的挑战很大。因为这样一改的话,密度就下来了。

Facebook-new 2S.png

丁煜:没错,对于服务器来说,现在功耗设计已经变成非常难的一个地方了。就像您刚才提到的,像CPU本身作为一个高功耗的器件,实际上它对温控的要求还很高,虽然说现在的CPU温度提升了以后,它有一些降频机制,但是这个时候带来的你的性能就下降了,这个也是客户不想看到的。

所以现在确实我们看这个行业里面,不管是哪个厂商,在散热方面投入的精力都是比较大的。比如说从原本的只是单纯地作为一个风冷,CPU上面有一个散热器,金属的,慢慢的现在开始冷板方案,比如一些产品上逐渐开始运用一些remote heat-sink,把热量通过热管带到一个更大的散热器上,甚至包括水冷、直接水冷,甚至到现在有浸没式的液冷,核心还是希望在这些半导体器件的性能在不断攀升的时候,还是能让它工作在比较高的工况下,最终能给客户交付它想要的性能。这个挑战蛮大的,也有很多创新。

Facebook-heatsink.png

张广彬:是。其实我们可以认为不一定要这么演进,但是方向是这样的,风冷→冷板式的液冷,因为冷板式的液冷是风液混合,甚至还有水冷后门,水冷后门我觉得跟你说的remote heat-sink(远程散热片)逻辑是类似的,就是把这个热量先带出去,再用其他的方法处理。其实说到所谓远程散热片,刚才我提到的Facebook的新设计,新双路,包括微软Project Olympus,这里的双路其实应该是Project Olympus先这么搞的,在这种开放的标准下,包括国内阿里的方升,你也可以看到有这样一个趋势。所以这个我觉得就先不深入讨论了。

SA2-heatsink.jpg
上面提到的几个远程散热片应用都是1U服务器,2U的腾讯云星星海服务器使用远程散热片,可以支持更高TDP的CPU

往下的,比如我们用冷板式液冷,就可以说它是风液混合的,因为CPU和内存占了这个功耗的大部分,可能60%、70%,甚至更高,所以给他们弄冷板(cold-plate)就可以了。但是如果回到刚才郑宇的角度,我们E1.S,比口香糖要厚一些,因为M.2像口香糖嘛,一个就是二三十瓦,甚至更高,其实功率密度也很高了,他们是不是也要考虑冷板式的液冷,其实咱们私下也聊过它的散热是个很大的问题。咱们先不说国内U.2,国外什么,我觉得如果可以的话,你可以对于E1.S的散热吐吐槽?

郑宇:首先追求存储的密度是所有人的愿望。这个E1.S明显也是为了希望在整个使用便利性和密度上都想进一步地追求更高的水平,我们从OCP的机型上来看最多可以插48块盘,这个可能整个容量接近1个PB,一台机器,整个功耗我们相对极端一点来说,以20几W来看,单纯在存储部件上可能产生的功耗就要超过1千瓦了,从服务器设计上来讲我觉得可能综合存储部件的功耗要超过刚才我们说的所有单一部件的功耗。所以,我认为存储应当讲在普通应用服务器上可能配比率相对低,还没有这个问题,但是从真正的高密度服务器的角度讲,刚才我们讲了像PCIe 4.0,还有这些总线的,包括部署、分配、平衡,到现在有功耗的问题产生。

E1S-heatsink.jpg

所以总体上我觉得大家现在在Flash存储的使用上还是在努力地通过各种方式,用探索的方式来寻求更好的方法。但是未见得最新我们看到的技术就是真的在生态中很完美的,能很快适用的一个产品。所以这上面我也持一定的保留,我认为国内用户的选择是理性的,实际上我们有很强的应用的使用能力,也开始逐步有了国内的研发和产品团队,在真正的应用层,在系统的调优层都会做很多的工作,去满足用户进一步地提升。

而在这种相对跨度比较大的新技术产品上,我觉得大家真的遇到那种极限的挑战就尝试用这样的新产品,但是真正是否适合,还是刚才讲的性价比、部署的管理,一系列的综合考虑是不是适用,我们相信用户是理性的。

张广彬:对。我也同意你说的这个用户是理性的情况,当然因为国内的这些客户不是我的客户,所以我跟你们不太一样,我还是可以放肆地点评一下。其实国内的客户有时候也比较激进一些,或者说为未来布局。比如说阿里在张北,我和曾哥也都去看过,2000个节点的浸没式液冷的机柜,这个可能在超算领域不算什么,但是在互联网、云计算领域算是比较超前的,包括以前不能说的,但是这回在OCP线上发布会也有一个PPT里面提到的,只不过这个不是阿里提的,是国外一个公司(3M)提的,要把那个事情公开了,就是阿里在杭州已经在计划2万个节点的,就等于增大了一个数量级的浸没式液冷部署。

3M-Immersion Cooling.jpg

就像咱们刚才说的,如果说E1.S在风冷的情况下可能这个密度没法保持,上冷板又会变复杂化,那是不是一浸没就完全没有问题了呢?

郑宇:是个好问题。正好丁煜也是服务器方面的专家。因为SSD和其他的核心部件不一样,它是个消耗品。实际上它在使用过程中对于寿命的磨损是有一定的更换周期的。而且刚才也讲到甚至有人希望尝试用QLC去做企业级服务,那就意味着整个寿命,尤其是擦写的整体上它一定会越来越短,只要提高密度,就是Flash产品面临的一个天生的挑战。所以说作为风冷条件下,我认为一个易损部件,尤其是中间可能还随着一些应用或者一些部件的调整可能发生,热插拔部件,它是个经常替换的,我开个玩笑,如果真的发生问题,要不要穿着潜水服进去更换一下?

张广彬:夸张了哈。实际上来说可能对于硬盘就比较简单了。从Harry的角度来说,是不是只要充氦的硬盘泡在浸没式液冷里面就没问题了?

农天使:对,在浸没式液冷这个环境里面,我们就是用充氦的硬盘,因为它是密封的,就能够支持使用的环境。这部分其实已经比较成熟了,所以也没有太多的难度在里面,充氦硬盘就好了。

总的来说,需要液冷的时候,它主要是解决计算层面的散热问题,从硬盘的角度讲,(浸没式)液冷就不是要解决硬盘的散热问题,我们在这个环境里面用充氦硬盘是最简单、可靠的一个解决方案,也不需要在空气硬盘里面做更多的事情,这样的话只会增加这方面的投入。

张广彬:好的,谢谢Harry。确实浸没式液冷最关键的还是解决计算的问题。站在丁煜的角度上你怎么看浸没式液冷的应用,什么时候能够比较大规模的应用?

丁煜:浸没式的话,首先我认为它一定只是少数客户才用得起来的,因为这对它的机房基础设施的设计就已经提出了和风冷或者现在的水冷方案完全不一样的考量。

Immersion Cooling Types.jpg
浸没式液冷是OCP的先进制冷方案(ACS)下的一个分支,又可以分成多种模式

其次,我觉得现在浸没式液冷有一个非常大的问题,刚刚郑宇也提到了,后续假如出现故障的时候你如何维护?不单要维护这个服务器里面的单个器件,你还可能面临着,比如说机柜也好,或者水池(Tank)也好,这个水池里面你要加新机器的时候怎么办,你要移出老机器的时候怎么办?这个其实是行业里面现在还没有一个特别好的方案来解决它的可维护性。

所以我觉得这块,它如果要完全进入大规模的生产,还是有一段时间要走的。而这部分会是一个非常大的挑战,因为它就已经不是一个电子上的东西了。其实对于我们来说,我们的产品现在做浸没式没什么问题,它也不会被腐蚀,它也能长期存在于这个环境里面,它更多的时候可能会涉及到比如说你这个机构学上的设计,比如你在化学上如何能够保证这些液体对人和环境无害,拿出来之后,比如说它不需要清洗,它还能挥发,这些我觉得还是需要更大、更宽的行业共同地去探索的问题。

所以现在我们可以看到,比如说3M,包括这次OCP的峰会上,壳牌(Shell)也在介绍它也有适合浸没式液冷的化学品方案,所以这个领域我觉得还有很多要探索的地方。

Shell-S5X.jpg

张广彬:对对对,我觉得你说得很对,当然因为浸没式液冷前几年我开过玩笑,以前你如果变成浸没式,其实从这个数据中心的制冷环节,就相当于从物理学变成了化学,变成了材料科学,你要找合适的材料。但是这个东西它绝对不仅仅这么简单,实际上是整个生态的改变。所以这个也许在比较远的未来是方向,但是在近期来看大多数人的选择,包括这次OCP峰会上,大家公认某种形式的液冷是方向,但是更多的是冷板,如果我们把这种热管的方案,这种remote heat-sink算作一小步,冷板,也包括水冷后门这些,至少大家确实从未来的服务器设计里面也应该考虑一下。

整机柜服务器的应用与未来

张广彬:很多整机柜标准都进入到了3.0的时代,包括Open Rack V3,天蝎(Project Scorpio)也是3.0,京东也在弄新的整机柜交付的标准。其实大家在这里面都考虑了不同的液冷方式的适配性,比如说进水管、出水管的布置,大家都有了一个设计,这是我看到的一个方面。

第五段回看.png
扫码回看第五部分视频,时长约13分钟

但是另一方面,刚才咱们也谈到了定制就是大家都很不一样,但是这个都很不一样以后就提高了整个行业的成本,我们也可以看到现在不同的机柜标准之间也越来越(兼容),因为这种兼容度也有提高的趋势,所以简单来说站在你的角度,你从业这么多年了,丁煜,你怎么看待整机柜服务器这个行业,还有你怎么看我刚才说的这个标准,以及对液冷这些适配的方面?

Open Rack V3.png
支持48V供电和(冷板式)液冷方案是V3一代整机柜服务器的普遍做法

丁煜:这也是个很大的问题。怎么说呢?谈一些我的想法。首先在整机柜设计这方面,当我们说整机柜的时候,实际上可能里面包含的产品形态是有很多种的,比如说它会有一种完全,我们姑且叫设备节点和它的承载柜体彻底重新设计,甚至它的柜体的长宽高都和咱们传统看到的这种机柜是不一样的。这是一种方案。这种方案现在看当然是越来越少了,因为它会要求你的基础设施、你的建筑都要做很多的调整。它更多的可能会用在一些研究机构,包括有很多超算的专用的设备上它会采用这种设计。我认为这不会是未来一个非常主流的方向。

另外一个,类似于咱们之前的天蝎也好,Open Rack也好,它实际上是在尽量保持机柜的外尺寸和机房支撑不变的情况下,通过重新去布局和利用机柜内空间,让里面的设备具备更多的可塑性,具备更高的承载能力。这种方案一度会是整机柜,大家一说到整机柜好像脑子里面第一个想到的是这个东西,因为他们确实是比较早出现的。但是这些设备它又存在一个什么问题?就像您刚才说的,它有很多的标准,这些标准之间其实他们的互兼容性是比较差的。比如说Open Rack和我们的天蝎和(Project) Olympus,它的节点是一定不会互用的,无法互用的,所以这个对于这些一线的大客户来说不是个问题,因为它本来就需要定制,本来买的就是自己设计的。

张广彬:只要有量就行。

Roll forming.jpg
Open Rack V3采用轧辊成形设计

丁煜:对对,但是对于其他一些客户,这是一个阻碍其他客户跟进的一个很大的点。到底我选择什么样的方案可能会是一个能够保证我相对长时间内投资是安全的,然后能够持续升级的?所以我觉得这是为什么有很多的客户当他在看整机柜的时候开始犹豫和退缩。

张广彬:这种完全重新设计的整机柜,有可能仍然还是局限在这些超大型的客户里面。

丁煜:其实我们还有一个方案,我们也许可以尽量多地运用标准相对来说比较传统的,比如说设备设计,但是我们可以让它实现整机柜交付,我们可以把刚才说到的这些Open Rack、Olympus里面用的比较好的一些设计要素给移植过来,放到我们这个设备里面去,从而使它具备一定的先进性和承载力,更好地面向大规模数据中心。

水冷后门.jpg
前一部分讨论过的水冷后门(Rear Door Heat Exchanger)与机柜标准自然非常密切

我觉得这实际上有可能会是一个很有意思的地方,因为它也能实现整机柜交付的便捷性,它也充分地利用了现在这些我们叫开放的计算标准,带来的一些生态的建设。它也能实现有限的创新和优化,就相对于最传统的机架式服务器来说它也有很多的变化。所以我觉得这个领域有可能是一个未来会比较有意思、有作为的地方。

张广彬:我觉得丁煜这个总结基本上把关键的点都讲到了。其实不管是完全定制化的,还是仅仅作为一种交付方式。因为很多时候站在数据中心的角度,快速交付就可以了,我不管你里面的东西是怎么连的。但是确实还是在于很多定制化的场景。

Rack Power.png
10~20kW的机柜将越来越常见,整机柜服务器会配备机柜级电池

刚才丁煜提到了天蝎,我觉得天蝎里面比较成功的一个产品是JBOD(Just a Bunch of Disk),因为它机柜的特性不一样,所以它跟传统的所谓企业存储市场上的JBOD差别还是比较大的,而且我觉得还是挺有特色的。

但是相对来说基本上没有JBOF(Just a Bunch of Flash)这个东西,在天蝎的体系里面,但是在OCP,在Open Rack,不管是Facebook的Open Rack路线,还是微软的Project Olympus路线,它都有JBOF的产品,全都是闪存做的。其实这里也有U.2的方案,也有全用M.2的方案,甚至E1.L或者E1.S,在这种定制的里面JBOF可能是不同的form factor,从这个角度来说,从整机柜的层面来说,郑宇你怎么看?你比较喜欢谈form factor前景性的东西?

郑宇:整个OCP里面一个比较大的话题是硬盘在NMVe协议上的一个靠齐,我觉得这是很有意思的一个话题,好像从未来整体的协议上如果能一致化,我相信对用户会带来很大的便利。当然也挑战系统设计。

另外一个,在整个使用上,一个是方向的新的点是在新的NVMe盘上增加网络接口,这也是一个很有意思的话题,有些公司做过一些尝试,我觉得未来也许真的在整个基础架构,在网络上更加强健的时候是一个好的选择。

剩下两个话题就是JBOF,刚才广彬问form factor对JBOF的影响?我觉得这里有很大的灵活度,第一是系统内和系统外使用的存储相对于整系统的设计在通用的面上影响就小了,它专门用在专用的存储领域,所以自由度就相对大。另外,在整个设计上,它可能应用负担相对低,更多是完成专门的存储任务,其实从E1.S的角度我认为是一个很好的场景。

Project Olympus FX16.jpg
微软的JBOF:Project Olympus FX16,支持16个PCIe x16的SSD模块,这些模块开始由4个M.2 22110规格的SSD组成,后来升级为E1.L

从应用上讲,现在国内实际上在整个云的基础设施上大家已经在存储上充分地用分布式的方式做了实现,所以这样单一机箱比较集中的方式在这些超大型客户上应用的机会相对来说少了。但是对于企业级用户,现在我们看到NVMe其实提供了非常好的IOPS和性能,包括非常低的延时。其实对于企业的关键应用我认为在扩容和升级上JBOF应该是个很好的途径。

现在一个核心的点就是NVMe over Fabric(NVMeoF)的路径到底通过什么方式来实现,真正能够和系统更好地去融合起来,这个也有待其中在整个布局上看计算,偏存储的计算它的offload(卸载)是通过什么架构来比较合理地搭配的。我现在看是两种方向,一个是跟host端能够对介质进行更直接的管理,多种混合介质的灵活调度,这应该是一个对用户应用体验非常丰富的一个场景。

另外一个就是在offload计算端有机会能够对一定的计算和分布产生一定的优化。这时候从用户端虽然选择少了一点,但是需要做应用端的调整或者开发的部分工作量就低了。其实都是好的途径。

我们现在来看,两个方案都有人在做,我们在两个方案上也居然都有幸和用户做了一些尝试,现在主要取决于用户自身在使用的硬件架构上有多大的投入能力,我觉得如果它的应用更强,其实是可以做更适合自己的一些性能方案。如果要是软件很强,可以相对更好的通过上层来直接调用。

其实现在从应用上,我认为JBOF是很有潜力的在企业应用中能够得到成长的点。

张广彬:我认为郑宇讲的OCP存储部分的总结,顺手做的一个总结,我觉得挺好。因为我们不光是搞基础设施建设的,但实际上软件、硬件是密不可分的,缺了谁,哪条腿短都不行。当然我们有的时候,我觉得咱们搞基础设施的人还是比较谦虚的,就像刚才Harry(农天使)讲的软件定义一切,我们就是软件提出要求我们怎么去满足就行了。包括像JBOF这个东西,不是说光顾着把它做在一起,还要考虑在软件上怎么把分散的聚合在一起,或者把它聚合在一起再分散,总而言之,就是满足应用的需求。

JDCloud-Rack.jpg
JDCloud Rack集中体现了整机柜服务器的发展方向

所以其实我们今天谈论的话题有定制化,也有标准产品,但是定制和标准本来就是一个相对的概念。以前的定制也许是以后的标准。但是我觉得咱们核心的思想是不变的,就是开放。另外一个就是脚踏实地。

我们请来的这几个位专家都是在第一线做实践的。所以我们也很希望咱们本期的开放新基建的话题只是这一个系列的开端,我也希望以后还请两位包括Harry一起从别的角度继续探讨开放新基建的话题。

非常感谢大家分享的见解,本期开放新基建谈话节目就到这里结束。谢谢大家。

5 阅读 75
推荐阅读
0 条评论
关注数
11
内容数
15
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
Arm中国学堂公众号
关注Arm中国学堂
实时获取免费 Arm 教学资源信息
Arm中国招聘公众号
关注Arm中国招聘
实时获取 Arm 中国职位信息