半导体行业观察 · 2020年04月03日

一款新贵芯片横空出世

来源:内容由半导体行业观察(icbank)编译自「thenextplatform」,谢谢。

在过去的五年左右的时间里,已经有很多关于加速计算成为新常态以及关于通用处理器进入数据中心时代的讨论,这是有充分理由的。因为关于如何以一种省电又经济的方式在单个设备上完成我们的应用程序所需的所有复杂处理,我们已经用完了各种方法。

就在上周,我们进行了一次实验,探讨如何针对特定用途精简chiplets,将它们集成在单个封装内或 跨sockets 和节点,共同设计以专门运行非常精确的工作流,因为混合CPU,GPU,TPU,NNP和FPGA元素的任何通用处理器在所有方面都不是最理想的,除了批量经济性之外。我们认为,数据中心计算的这种极端协同设计是世界最终走向的方式,而我们只是将chiplets体系结构和interconnects连接在一起,以实现这一目标。

处理器新贵Tachyum的联合创始人兼首席执行官Radoslav Danilak在这方面有绝对的话语权。因为他们设计的Prodigy“通用处理器”正朝相反的方向发展。

Danilak说,要解决现代处理器设计中的bloat和wiring问题,从而实现一个独立的,完整的混合处理器,他认为这可以完成我们认为需要将CPU的整数引入引擎,GPU或FPGA的工作浮点引擎和NNP矩阵数学引擎都与跨越sockets和boxes的高速互连捆绑在一起才能完成的工作。而且,尽管我们仍然认为,将计算组件以固定比例锁定在每两到三年更新一次的单个芯片中(迫使它们以相同的速度前进)与尝试打包不同样式的小芯片计算单元的集合一样有风险和能力。我们也欣赏Danilak和联合创始人Rod Mullendore(首席架构师)和Igor Shevlyakov(软件副总裁)的远见。

另一个新贵芯片启动

在21世纪第二个十年推出新处理器需要一定的自我意识和大量实践经验。这是一个艰难的市场,我们已经看到了计算设备的激增,这是令人高兴的。但是并非总是如此,并非每个人都会做到这一点。幸运的是,有大量的风险资金进入其中,人们愿意押注能够设计新事物的人们。

Tachyum的总部位于加利福尼亚州圣克拉拉,在斯洛伐克的布拉迪斯拉发设有开发实验室,其团队中有许多经验丰富的工程师和高管。Danilak在早期的互联网泡沫时代设计了自己的超长指令字(VLIW)处理器,几年后,为一家名为Gizmo Technology的公司创建了具有64位处理和内存功能的失序执行X86处理器(我们拥有从未听说过他的芯片),然后在东芝任职,担任东芝7901芯片的首席架构师,该芯片是PlayStation2游戏机中使用的MIPS R5900 Emotion Engine处理器的一种变体,大概用于各种东芝微控制器和电子产品中。

Danilak在Nishan Systems进行了为期一年的项目,创建了一个单芯片网络处理单元(NPU),该单元合并了20种不同芯片的功能,然后是Nvidia的高级架构师,设计nForce 4 GPU和使用 Fermi内核的第一代Tesla GPU加速器。在2007年离开Nvidia之后,在GPU加速浪潮开始腾飞之际,Danilak找到了闪存制造商SandForce并创建了自己的闪存控制器。SandForce在2010年以3.77亿美元的价格卖给了LSI Logic。之后,Danilak共同创立了全闪存阵列制造商Skyera,该公司在2015年夏天被西部数据以未公开的总价收购,并在寻找新创意的路上奔波了一年,然后于2016年9月与Mullendore和伊戈尔·谢夫利亚科夫(Igor Shevlyakov)共同创立了Tachyum。。就在GPU加速浪潮即将起飞之际,Danilak找到了闪存制造商SandForce,并创建了自己的闪存控制器。SandForce在2010年以3.77亿美元的价格卖给了LSI Logic。之后,Danilak共同创立了全闪存阵列制造商Skyera,该公司在2015年夏天被西部数据以未公开的总价收购,并在寻找新创意的路上奔波了一年,然后于2016年9月与Mullendore共同创立了Tachyum。

他们打造了一个团队来创建处理器,设计使用用于它的软件堆栈,并将其发布给潜在客户,而Tachyum的团队在这方面经验丰富。Mullendore在网络热潮期间和之后曾是Nishan Systems的高级架构工程师,然后为McData做了一些工作,McData是存储区域网络交换机的制造商,当时它是EMC的一部分,后来被卖给了Brocade Communications,收购后他留了一段时间。随后,Mullendore担任SandForce的首席架构师,然后跟随Danilak到Skyera,然后现在到了Tachyum。

Tachyum的另一位联合创始人Shevlyakov于1990年代初以软件工程师的身份开始工作,然后在互联网泡沫开始之初(在1999年至2002年间达到顶峰时期)专注于俄罗斯多家初创公司的编译器。 2001年,是实时操作系统制造商Wind River的一名高级编译器工程师。Shevlyakov随后在MicroUnity工作了十几年,该公司开发了一种称为BroadMX的RISC / SIMD处理器,旨在处理网络处理工作,并将GNU开源工具链移植到该处理器上。他与Skyera的Danilak和Mullendore一起加入了该公司,在那里他将GNU工具链移植到该公司创建的专有芯片中,以控制闪存以及在其全闪存阵列中处理闪存转换层。在Western Digital收购Skyera之后,Shevlyako便成为Tachyum的合伙人,专攻软件堆栈方面的问题。

业务开发副总裁Ken Wagner也是公司的共同创始人,他曾为多家芯片初创公司工作,而创建横向扩展存储制造商Pavilion Data Systems的Kiran Malwankar是系统工程副总裁。超级计算机制造商Encore Computer和Kendall Square的联合创始人,曾担任AMD首席技术官,帮助创建64位Athlon和Opteron体系结构的Fred Weber是顾问,计算机教授Steve Furber也是如此。曼彻斯特大学的自然科学专业,并在1980年代设计了第一个32位的Acorn RISC Machines处理器,我们称之为Arm。Christos Kozyrakis,经常与Google关联的分布式系统专家,斯坦福大学的教授,也担任该公司的顾问。

芯片解读

据Danilak称,Prodigy芯片已经设计了好几年了,已经可以在FPGA模拟器中使用一段时间了,而且现在已经被淘汰。就像当今许多先进芯片一样,它是使用台湾半导体制造公司的7纳米工艺进行制造的。而先进的制造工艺使其可以将很多组件塞入290平方毫米的器件中。

有趣的是,该设计是集中于将用导线将电路块连接在一起,然后将Tachyum认为合适比例的组件放进来去吸引超大规模生产者,HPC中心以及机器学习的客户。Danilak说,问题在于电线越来越慢。以下是一些熟悉的图表:

Danilak告诉The Next Platform: “我们存在全天候的性能稳定期,每个内核的性能增长并不那么快。” “核心数量不断增长,但由于散热问题,我们还在降低时钟速度。所有的晶体管都更快,但是问题是导线越来越细,电阻越来越大,因此导线延迟增加了。以前芯片每毫米延迟100皮秒,而现在每毫米延迟1000皮秒。”

导线电阻会产生热量,当然也会产生延迟,因此Danilak认为,诀窍是使导线尽可能短。这样,您可以比以前更快地为芯片提供时钟,并且还可以减少总的计算时间(获取数据的时间和处理数据的时间),并完成更多的工作。诀窍是提取芯片上运行的工作负载中的并行性,这会导致计算时间出现线路延迟(就像高速缓存层次结构掩盖了标准处理器中的计算延迟),并且需要一些聪明的编译器工作。而这是Shevlyakov最擅长的,因为他具有丰富的编译经验。

因此,事不宜迟,我们先看下一Prodigy芯片的照片:

Danilak提出了一个大胆的主张:“每个内核都比Xeon内核或Epyc内核快,并且比Arm内核小,总的来说,我们的芯片比HPC和AI上的GPU快。”

我们必须对这句话中“快速”的定义进行细微的讨论,但是很明显,Tachyum将Prodigy-1芯片上的时钟速度提高到4 GHz,这比Intel的顶级bin部分,AMD,Ampere Computing和Marvell的芯片要快得多,能与IBM可以在其Power9系列中制造的最快的芯片相提并论。

Prodigy芯片使用台积电(TSMC)的标准单元和SRAM,采用其7纳米FinFET工艺,该工艺具有12个金属层,工作电压为0.825伏。

处理器管道的乱序执行是由编译器而不是硬件处理的,因此,关于它是乱序还是乱序的处理器存在一些争议。

Danilak说,Prodigy芯片中的指令并行性是使用poison bits,它在Itanium芯片中很受欢迎,该内核在某些方面类似于,并且也用于Nvidia GPU。Prodigy指令设置为64位的32个整数寄存器和32个矢量寄存器,可以是256位或512位宽,外加7个矢量掩码寄存器。编译器提取显式并行性,并且将指令捆绑成3、8、12或16个字节的大小。该管道可以做两个负载,两个multiply-adds,一个store,,一个address increment,一个比较,而每个周期一个分支,这是每个周期8 RISC-Y微操作,这平均到每个周期1.72指令-关于什么我们认为“ Skylake” Xeon SP内核可以做到实际上,Tachyum在自己的图表中引用了我们的数据。

这64个内核分布在16个内核的四个冗余块中,全部通过其L3缓存由网状互连互连。内存控制器链接到与缓存分开的网格互连上的核心,以避免网格上的拥塞。每个四核都有一对存储器控制器,它们将支持DDR4或DDR5存储器协议以及在SerDes中实现的18通道PCI-Express 5.0外设互连。在典型配置中,这些SerDes将用于实现每个Quad单个PCI-Express 5.0 x16以及一对400 Gb / sec以太网控制器,但是配置非常灵活。可以选择在这些芯片上添加HBM3内存,这是高端产品线的预期目标,该产品系列的HPC和AI工作负载需要比DDR4甚至DDR5更高的内存带宽需求。

Danilak表示,使用8个通道的DDR5内存,当前的HBM2内存将只能提供大约2倍的高内存带宽,这更是麻烦。“带宽处于可比范围内”,这恰恰是IBM 对Power9'和Power10处理器附带的增强型DDR4和DDR5存储器的评价。

现在,让我们深入探究Prodigy核心:

与其他核心设计相比,L1缓存要小一些,数据为16 KB,指令为16 KB,但核心上的256 KB L2缓存和核心上的512 KB切片L3缓存(编织在一起)为整个裸机创建一个巨大的32 MB共享L3缓存)是完全正常的。如您所见,整数流水线深度为九级,向量流水线又增加了五级。

现在,让我们为那些喜欢这些东西的人找出一些细节。就是是Prodigy核心如何处理指令提取( instruction fetching):

这是指令执行的流程:

这是实际的Prodigy芯片缓存层次结构:

向量和矩阵数学单元的布局和工作方式如下:

在这些图表中,有两件事需要说一下。

在从L3高速缓存输出到DDR5和HBM3存储器的链接上,进出DDR5存储器的总带宽为410 GB /秒,进出HBM3存储器的总带宽为1 TB /秒。因为您必须真正需要2倍的带宽才能为HBM3支付额外的费用,当然这也能让许多AI和HPC工作负载将从中受益,因为它们主要受内存带宽限制,而不是计算能力。这就是我们分拆这些应用程序并并将它们跨越那么多服务器节点的原因。

向量单元将支持普通的双精度64位FP64和单精度32位FP32运算,以及半精度16位FP16以及16位bfloat16(由Google发明)以及8位浮点数(由Tachyum发明的专有格式)。向量单元还支持INT8,INT16和INT32整数运算。还可以在这些向量单元上部署矩阵运算,从而允许对FP32和FP64数据进行4×4矩阵乘法运算,并可以在16位或8位整数或浮点上运行8×8矩阵乘法运算数据。向量的这种双重作用确实非常有趣,Tachyum暗示它可以在未来的处理器中使性能提高一倍。我们需要更好地解决这个问题,但是看起来这四个512位SIMD单元可以根据需要用作矢量或张量核,并且可以为这两种不同的数学方式腾出空间。相比之下,英伟达的“ Volta”和“ Turing” GPU具有不同种类和数量的整数,浮点数和张量核心单元。

用Danilak的思维方式,浮点乘法加法单元本质上是相同的,他说Nvidia并不比其他人更擅长于此。GPU的运行频率为1.3 GHz至1.5 GHz,CPU乘法单元的运行频率为2.5 GHz至3 GHz,有时甚至是4 GHz。每个人都在台积电7纳米制程上工作,但英特尔今年将提高其10纳米制程制程。真正的过程优势将不会持久。

“ CPU,GPU和TPU的不同之处在于计算能力的控制和功耗处理。” 为简单起见,该论点是,warp具有32个线程,其运行速度是Xeon芯片中AVX2向量单元速度的一半至三分之一,它可以大约以三分之一至四分之一的功耗执行四个“线程”浮点运算。X86芯片的分支预测非常昂贵,解码非常复杂。所有这些都增加了功耗,但比以前的X86芯片产生了更好的性能,但代价是不断降低时钟速度并增加线程。您可以移至AVX-512并获得两倍于矢量的矢量,但是您必须移动得更慢。采用Prodigy芯片的想法是要在CPU和GPU之间建立某种架构。

这是Prodigy“通用处理器”系列的初始SKU的样子:

Tachyum一直希望在2019年末试用Prodigy芯片,但它被推迟了几个月,现在才开始使用。预计该公司将在2020年底之前实现产品的批量发货,但现在的计划是将其投入系统并于2021年下半年投入实际应用,其中包括将用于Open Compute Project的四路系统机架。计划是在2020年第一季度推出具有128个内核和四个堆栈的HBM的两处理器机器,然后在2020年第二季度启动具有64个内核的具有八个DDR4存储器控制器的单个芯片,然后在2007年第二季度发布具有四个DDR4存储器控制器的32核芯片。 2020年第3季度。目前尚不清楚这是否仍是部署节奏,但显然已推迟了时间。

Tachyum尚未设定价格,但有一些想法。Danilak表示,标准DDR4 / DDR5 Prodigy SKU的价格将在几百美元到几千美元之间,带有32 GB HBM3内存的高端产品的价格预计在10,000美元以下,从而将价格/性能提高3倍(说的非常笼统)。

推荐阅读
关注数
11296
内容数
1936
最有深度的半导体新媒体,实讯、专业、原创、深度,50万半导体精英关注。专注观察全球半导体最新资讯、技术前沿、发展趋势。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息