狒话 · 2021年07月09日

三位一体,Milan进击

5月初,Mercury Research公布了2021年第一季度的x86 CPU市场份额,AMD在服务器市场获得了自2006年以来最高的单季增长率——2006年第二季度,AMD以26.2%的(x86)服务器CPU市场份额达到了历史上的最高点。

mercury-research-amd-intel-x86-server.jpg

有国外媒体分析,按照目前的增长趋势,大约只需要一年的时间,AMD可以重新达到25%左右的(x86服务器CPU)市场份额。

三代EPYC,延续创新

15年前的x86处理器在服务器市场上,远没有今天这么强的统治力。但正是当年AMD Opteron引领的技术转型,包括但不限于64位(AMD64)、多核、集成内存控制器……为x86 CPU战胜服务器市场上的众多强敌,打下了坚实的基础。

Opteron不仅助力美国互联网巨头们的数据中心发展,还见证了云计算的崛起——AWS赖以发家的S3(Simple Storage Service,简单存储服务)和EC2(Elastic Compute Cloud,弹性计算云),正是在2006年先后推出的。

Google-Millionth.jpg
Google在2008年7月9日上线其第100万台服务器——基于AMD CPU的四路平台

以EPYC重回服务器市场之后,统治全球和中国公有云市场的七大巨头,都已经是AMD的用户。预计在2021年内,基于EPYC处理器的云计算实例,类型将达到400个以上,大约是第三代EPYC推出之前的两倍。

IaaS-Instances.jpg

自新冠疫情以来,像云计算一样把分散于各地的人们联结起来的热门应用,如腾讯会议、Zoom、微软Teams等,也构建于AMD EPYC CPU之上。其中,历史最短的腾讯会议,在2020年春节过后迅速崛起,离不开腾讯云星星海SA2云服务器在8天内增加100万核的扩容支持,第二代EPYC处理器“核多任性”的优势展露无遗。作为腾讯云首款自研服务器,星星海SA2服务器一战成名。原本,“星星海”只是腾讯云自研服务器中AMD产品线的代号,在2020年的高光表现之后,现在已升级为腾讯云自研服务器的对外品牌。

TVP参观.jpg
腾讯云最具价值专家(TVP,Tencent Cloud Valuable Professional)们应邀参观大量部署星星海服务器的腾讯云数据中心(找找作者在哪里)

EPYC家族继承了Opteron的创新精神,在架构上不断演进、完善,提高单核和多核的计算能力。

L3 Cache一体,CCD性能提升

为了在制程工艺进步放缓的大背景下,让CPU拥有更强的核芯和更多的核芯数,同时提高制造的良率、降低成本,EPYC系列采用了多die组合的模块化设计。

从代号Naples的第一代EPYC,到代号Rome的第二代EPYC,架构上最大的变化是从4个同构的14nm CCD(Core Complex Die),变成8个7nm CCD环绕居中14nm IOD(I/O Die)的“8+1”异构布局:CCD增加一倍,所以核芯数从32到64;每CCD的L3 Cache(三级缓存)也增加一倍,所以总的L3 Cache从64MB跃升至256MB。

Multi die architecture.jpg

今年3月,AMD发布代号Milan的第三代EPYC(7003系列),继承了上一代8个CCD和1个IOD的Chiplet(小芯片)设计,主要的变化发生在CCD内部。

首先,CPU核芯更为强大,通过Load/Store、前端、微操作Cache、分支预测、执行引擎、Cache预取等多个环节的累积改进,每时钟周期指令(Instruction Per Clock,IPC)的性能提升达到19%。

其次,CCD更像一个整体了,为什么这么说呢?
前两代EPYC处理器,每个CCD都由2个CCX(Core Complex,核芯复合体)组成,每个CCX包括4个核芯及其共享的8MB(7001系列)或16MB(7002系列)L3 Cache。2个CCX之间通过片上的Infinity Fabric(IF On-Package,IFOP)互连,跨CCX访问L3 Cache会增加时延(latency),不利于有大量数据需要在更多核芯之间共享的应用。

CCX-CCD.jpg

EPYC 7003系列消除了CCD内部的壁垒(用某位AMD员工的话说就是“打通了隔断”),直接将CCX扩展到8个核芯,CCD(≈ CCX)内部的32MB L3 Cache形成一个整体,每个核芯直接访问的L3 Cache倍增,加速了核芯与L3 Cache的通信,可以有效降低内存延迟。

Cache Share.jpg

在TDP(Thermal Design Power,热设计功耗)不变的条件下,EPYC 7003系列的CPU加速频率比EPYC 7002系列有5~10%的提升;为单核性能优化的高频型号从24核扩展到32核,TDP也达到顶级的280W。

伴随着EPYC 7003系列的发布,腾讯云推出了基于自研星星海服务器的SA3实例。在SA2这代,腾讯云选择的48核定制款第二代EPYC处理器,基频(Base Frequency)达到2.6GHz,明显高于公开发售的48核型号(2.2~2.3GHz);SA3升级到64核第三代EPYC处理器,最大实例规格从SA2的180 vCPU、464GB内存提高到232 vCPU、940GB内存,分别提高近30%和一倍,可见腾讯云对其寄予的厚望。

SA3-SA2_logo.png
根据腾讯云官网的数据整理的SA3与SA2实例对比,可以看到SA3在主频基本保持不变的情况下,增加很多高规格实例,总的实例数量多出近50%

高性能计算(High Performance Computing,HPC)是计算皇冠上的明珠,也是AMD重点发力的领域之一。上月底刚刚公布了最新一期的TOP500榜单,不仅两套基于AMD EPYC 7002系列的超算系统继续稳居前10名,最新的AMD EPYC 7763更成就了唯一的新面孔(第5名)——而在强调能效的Green500榜单上,前10名中AMD EPYC也占有8席,其中2套系统基于EPYC 7763系列。

这,或许只是迈向新高的前奏。

3D V-Cache,再上层楼

本月初在Computex的主题演讲上,AMD CEO苏姿丰(Lisa Su)介绍了与台积电在3D封装技术上的合作,将Chiplet封装技术与芯片堆叠技术相结合,开发出3D芯片堆叠技术,实现3D V-Cache(3D垂直缓存)。展示的原型设计基于与EPYC 7003系列同样采用Zen 3架构的Ryzen 5000系列处理器,通过在一个CCD上方直接堆叠一个64MB的7nm SRAM,将L3 Cache容量原地增加2倍,达到96MB。3D缓存直接与Zen 3的CCD结合,通过硅通孔(Through Silicon Via,TSV)在堆叠的芯片间传递信号和电能,支持超过2TB/s的带宽。

AMD-3D-V-Cache.jpg
3D V-Cache真是直接在CCD的L3 Cache上方“盖楼”,两边核芯所在区域上方用结构硅填平。不难想见,这种3D Chiplet技术还有进一步的发展空间

采用这种混合结合的方法,TSV技术能够提供的互连密度是2D Chiplet的200多倍,是其他3D堆叠方案的15倍以上。不仅集成效率更高、密度更大,Die之间的接口采用铜到铜的直接结合,没有任何形式的焊接凸点,极大的改善了热设计、晶体管密度和互连间距,而且单位信号的能耗只有微凸点3D法的三分之一。

这个技术如果应用于EPYC 7003系列,每CPU最大L3 Cache容量将达到768MB,对访存密集型应用是重大利好——上面AMD的PPT里面,已写明为了“高性能计算”。苏姿丰表示,3D V-Cache将于今年年底前投入生产。

无独有偶,AMD与HPE旗下Cray合作的E级超算系统“Frontier”也将在今年晚些时候安装。据猜测,这套算力达到1.5 exaflops的超级计算机将采用定制的Milan芯片,核芯与EPYC 7003系列相同,但是改用新的I/O和内存芯片(IOD?),如果能加上3D V-Cache,无疑是如虎添翼。

推荐阅读
关注数
2835
内容数
57
云计算、基础设施、大数据领域的技术话题
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息