今年由于疫情影响,hotchip也改为了线上会议。anandtech网站新鲜出炉了hotchip 2020的keynotes和slides,可以在视频出来之前大致了解今年各大公司的芯片成果。今年hotchip的处理器部分参与的公司比较多,包括intel,AMD,IBM这些传统处理器厂商,Marvell的arm服务器,以及嵌入式处理器的新玩家阿里平头哥,还有一个稍显另类的RISCV many-core系统。在处理器领域发展比较成熟的今天,仍然有新玩家的不断参与,从另一个侧面说明了这个市场虽然成熟度高,垄断性强,但还是有一些特定场景和市场有切入和成长的空间,这对处理器设计者以及整个IC设计领域都是一个激励,这仍然是一个机会和挑战并存的时代。接下来会就hotchip各大公司的展示随便聊聊个人的感想。
首先是intel,这次hotchip展出了两款处理器设计,面向高端的ice lake SP和mobile的tiger lake。Intel最近两年可算是流年不利,由于先进工艺上迟迟没有突破,在竞争对手早已进入7nm的阶段,intel的处理器还停留在14nm。这次终于推出了它的10nm+产品,但是相对于TSMC的7nm以及马上就要推出的5nm工艺,这个差距还是比较明显的。在高端核心上包括面积和功耗都有一定的劣势。核心服务器市场被AMD的先进工艺处理不断蚕食,AI方面的研发也不顺利,Nervana的失败让intel起了大早,赶个晚集,浪费了宝贵的时间。那么这两款新发布的产品怎么样呢?
作为Xeon的第三代产品,Ice lake在19年官宣,其核心架构是sunny cove。那么这个产品的主要区别就在这个SP的后缀上了。核心的提升是相对于上一代cascade lake的数据:改良branch predictor,增加发射宽度,提高TLB,prefetch,增大cache。相比上一代产品可以获得18%左右的IPC提高。这个提升的数字在这种级别的处理器上当然还是不错的,微架构上也没有发掘出太多的新意。稳扎稳打的策略。
在ISA架构上,主要增加了更强crypto指令和compress指令。crypto和SIMD算是目前比较有意义的发展方向,尤其是后者,在基于处理器架构的AI以及高性能计算加速研究和设计方面还是很有价值。intel主要是在AVX扩展方面发力,集成了更宽的并行执行单元,这也是xeon系列的主要特点。
整个系统方面,仍然是典型的mesh结构,这个是大核多核心常见的总线结构。inel为了发挥多核心并行运算的能力,着重加强了memory controller的读写控制,更多的router,独立时钟,硬件内存加密,以及全新的IO虚拟化机制。这些优化的具体细节当然就无从得知了,不过从这些方面可以看出多核心的主要矛盾还是在互联和存储上,而这些部分更多的是依赖对系统和算法的理解、平衡和调度,主要依赖于工程化经验的积累。
处理器大核心和大系统设计,制约性能的最主要瓶颈就是存储延迟和功耗,可以看出intel在这方面花了比较多的精力。提供了更聪明的电源管理机制,更快的内核和总线频率切换,优化的能耗管理和控制可以更好的利用AVX的运算能力。具体内容可以参考anandtech的后几页slides。
另一个产品是基于willow cove的Tiger lake mobile client CPU。看介绍willow cove是sunny cove的下一代,那么这个产品线对应的应该是酷睿系列,题目中的mobile主要是为了主要体现其低功耗的特点,和intel低端处理器Tremont还是有很大区别的。这个主题干货不多,主要展示了其新工艺的SuperFin结构,内置新一代Xe graph核心,以及IO和power的优化。从willow cove的参数上来看,其相对于sunny cove的改变也比较小,主要是以新工艺提升频率和单位功耗的性能为目标,在IPC上的工作比较少,因此可以算作是半代升级。
从Tiger Lake的SOC系统结构可以看出,尽管是复杂的大核心,core所占的面积还是不大的,真正的大头是集成GPU,第二是coherence的存储,其他一些IO,multi-media等ASIC部分也占了不小的面积,对比下来core只剩不到20%左右的占比。但这20%左右的面积确是整个芯片的核心性能所在,也是最复杂的控制模块,而其他80%的面积都是为了提升这20%的性能所存在的。所以说处理器设计是IC设计皇冠上的明珠的说法并不为过,也很符合IC设计的2-8定律。
intel的老对头AMD在hotchip上展出的是自己消费级芯片锐龙的最新产品,RYZEN 4000,8核结构,面向低功耗的超薄本。之前AMD的处理器一直以低功耗控制差著称,因此在利润比较高的商务本上很难和intel的酷睿竞争。不过随着AMD在工艺上的反超,不知道这一代ryzen是否能够改变这一现状。
ryzen的核心仍然是二代ZEN架构,这是AMD翻身的得意之作。之前也分析过ZEN结构的特点,这里就不在赘述。这里主要介绍了成为RENOIR的SOC结构,其中包含8核心16线程,每4个core组成一个core complex,包含一个4MB的L3。单个核心相比上代产品大概能提高10%左右的IPC,再通过硬件双线程的设计,可以获得30%左右的IPC提升。对于功耗敏感的移动领域,单核的性能还是至关重要的,因为大多数轻量级的应用如果只调用一个核心就能满足的话,还是能很大程度的降低功耗损失。
RYZEN继承了AMD最新的VEGA GPU,提供了2倍的数据总线带宽,提高了25%的峰值时钟频率,以及77%的峰值存储带宽。一共可以提供1.79TFLOPS@FP32的运算能力。这相比独立GPU当然弱太多了,不过集成GPU的主要目的还是提供基本的视频和图像处理能力,够用就好。接下来的slides 介绍了AMD在总线,低功耗,以及multimedia上的一些更新,这里就不具体描述。
(图片来自thinkpad官网)
面向便携设备的处理器是一个需要兼顾性能和功耗的设计,需要在有限的功耗范围内提供较高的性能,人们总是希望自己的笔记本能脱离电源用更长的时间。虽然现在已经步入了多核心时代,但单核性能仍然是至关重要的因素,可以在轻量级应用时降低整个处理器的功耗。第二就是功耗控制,包括动态电压频率调节,多核心的低功耗切换,以及存储系统的功耗管理等。再次才是对多核心峰值性能,存储性能,显示性能的发掘。这个和桌面级处理器设计的优先级是有所不同的。在这个方面,intel一直是处于领先地位,而AMD在功耗管理上的问题总是被诟病。因此我对AMD在这个级别的处理器推出8核系统的必要性是有些怀疑的,虽然先进工艺可以带来一定程度的能耗节省,但芯片功耗更是一个系统性的工程,需要更多的工程经验,看看AMD是否能够在这一代改变人们通常的看法了。
从这几款处理器的设计思路也能明显看出消费级产品和服务器产品的主要区别。服务器级处理器拥有更多的核心,需要片上总线如mesh的支持,同时具有更大的缓存和更大的带宽,单核和多核的峰值性能都很关键;而消费级产品则更需要在成本和功耗上做平衡。因此对芯片规格的定义就是非常重要的一环,这里出了偏差,后边的设计可能就是南辕北辙,花的精力越多,偏离的越明显。这个值得每个IC工程师在项目之初仔细考虑。
(图片来自东方财富网)
不过总体来看,相比老对头intel,AMD最近可谓是春风得意,股价也是打了鸡血般的上涨。从历史上来看,intel一直是压制着AMD,尽管有短暂的反超,但intel总能在很短的时间里搬回局面,重新占据绝对的优势。但这次形势似乎有所不同,intel在先进工艺上的步履艰难给了AMD太多的空间,不得不说intel近些年来在其他方面如自动驾驶,人工智能,GPU等投入过于分散且收效甚微,以至于在其一直引以为豪的先进工艺上栽了跟头。虽然看起来短期内追上TSMC的脚步有些困难,但intel毕竟家大业大,赚钱能力还是一流的,积累仍然深厚,虽然现在处在低迷期,但还远不到看衰intel的时候。而且服务器领域的更新换代是比较慢的,即使AMD的产品非常优秀,切换过去也是个很长的时间,intel仍然有充裕的时间来调整和提高。同时芯片的PPA是一方面,整个系统的兼容性和稳定性也至关重要,这个方面AMD还有一定差距。我个人比较看好intel在异构多核上的研究,就是把CPU,GPU,ASIC,FPGA等不同功能模块组合在一起,建立起一个统一的软件平台,打通不同类型的处理器的编程方式,以更通用的方式来调度和操作。如果这个目标能够实现,intel就可以将旗下的几大处理器集大成在一起,成为一个强大的统一系统。在一些先进技术的研究方面,intel还是有自己独有的优势,而AMD通常是一个跟随者。但能否转化成产品和市场上的领先就要看intel怎么利用好自己技术上的先发优势了。
虽然这两个对手打得火热,但也许不久的将来,两家公司就需要联合在一起,对付另一个潜在的对手,就是ARM base的服务器级处理器。而前不久apple提出了在mac中使用arm处理器替换x86处理器的时间表,这个对这两位恐怕不是好消息,apple是一个有很强执行力的公司,同时其系统相对封闭,对兼容性的要求并没有windows那么高。因此一旦这次替换成功,对整个arm阵营都是一个很大的激励,会推动很多观望者加入进来,从而侵蚀当前x86的势力范围。下次我们来聊一聊Marvell在arm服务器设计的进展。
【参考资料/图片来源】https://www.anandtech.com/tag...
**更多干货,欢迎关注公众号:MikesICroom
回复“课程”获取斯坦福大学AI加速器课程资料**