未来已来：ASIC云和行星级应用程序的数据中心

本文是大牛Michael B. Taylor博士今年7月份的新作（个人主页网址：
http://cseweb.ucsd.edu/~mbtaylor/）。
Taylor博士目前是西雅图华盛顿大学的保罗·艾伦计算机科学与工程学院和电气工程系的教授，也是Google的客座研究科学家，致力于数据中心加速器研究。在此之前的2005年至2016年，他是加州大学圣地亚哥分校计算机科学与工程系的终身教授。早在2016年，他的团队发表了有关ASIC云的第一篇论文。他们假设充满ASIC的数据中心将在不久的将来出现，并展示一种原型ASIC云架构，应如何设计它们以及如何节省TCO。他们在Google宣布其TPU之前就提出了神经网络ASIC云，并且还提出了将视频转码云用于YouTube的建议。该论文还被选为ACM重点研究论文（在全球所有计算机体系结构出版物中，平均每年只选两篇论文！）
笔者认为，ASIC云的出现是技术发展的必然趋势。
1、AI芯片的出现印证了专用定制的有效性。
在之前的文章中，笔者不止一次的提到，AI技术的疯狂传播并将主导整个社会主要归功于集成电路技术的发展。原因很简单，AI的算法很多年前就有了，但正是有人通过定制的AI芯片的方式，而不是采用CPU指令集实现的传统软件方式把AI算法芯片化实现了出来，导致效率提升几个数量级，最后给人们带来了完全不一样的体验，使人们认识到专用定制芯片的重要意义。注意，这里所说的专用定制是指完全性的定制化，而不是ASIP之类的仅对指令集进行优化的方式，不是CPU优化为DSP或者GPU的概念，而是已经完全没有了指令集的概念。是另外一种非冯.诺依曼的架构。这里面最具有说服力的一个例子，当属比特币挖矿技术的发展，从CPU到GPU，再到FPGA，最后到ASIC，一直到现在挖矿专用的ASIC云数据中心！详情见《The Evolution of Bitcoin Hardware》，Taylor大神的另外一篇文章。
2、为什么要ASIC云或者FPGA云
笔者近十几年积累了几十个有关网络交换FPGA及芯片相关的项目经验。尤其是最近两年，一些芯片的合作项目越来越多，逐渐催生了这样的一个想法。一个科学问题研究到一定阶段，一般都会遇到性能和规模化实验的问题。而传统的数据中心或者云平台或者超算中心能提供的服务是软件计算的服务，尤其是性能会受到严重的制约。该想法的目的就是要打造可提供FPGA级别验证的FPGA云平台，针对可芯片化或者FPGA验证的算法提供云验证平台，打造高性能、规模化和网络化的数据中心云平台。在实际应用场景中，FPGA或者ASIC化芯片去实现某种特定的算法，性能要比CPU和GPU高几十倍。一台价值几十万美金的刀片式服务器设备的运算能力在某些情况下与一片价值几千美金的FPGA相当。搭建FPGA云加速平台，可开展常规超算中心和数据中心无法实现或达到的计算性能，有助于自主知识产权的芯片快速研发，突破各个领域的卡脖子技术。该应用场景可有助于各种Chiplet堆叠后巨大规模芯片的FPGA验证，通过高效同步的FPGA云中心FPGA节点，实现纳秒级时延及同步精度的多片FPGA组合验证。等到FPGA验证成熟后，可进一步ASIC化，性能会得到进一步的提升，进而替换为ASIC云。这种思路可能会成为未来十年各个需要大规模并行计算提升性能等相关领域科研项目立项的一个重要思路。
3、可能会应用的领域及需求平台
随着AI等越来越多的算法逐渐的芯片化，硬件化，在信息技术领域逐渐的形成了一种各种算法都尝试芯片化的趋势。芯片化后的加速效果也越来越引起人们的广泛关注。在民用领域，大规模的图像、视频实时搜索、电磁计算加速、雷达信号处理加速等问题对专业化的计算加速平台需求越来越强烈。在国防领域，随着天地一体化组网的逐步实现，各种卫星星座布局也逐步展开，通信卫星星座、遥感探测卫星星座、北斗定位授时卫星星座等数据信息实时处理需求也越来越高。另外，还可以跨学科应用于基因排序、分子动力学模拟等领域。因此，从现在开始，着手研究一种高性能且灵活可定制的数据处理加速平台正当其时。而这种大规模平台的搭建，当仁不让就是需要SmartNIC的规模化组网。
好，不啰嗦了，附上Taylor博士的靓照一张，一起看一下他这篇文章吧。

行星级应用程序正在推动云计算的指数级增长，而数据中心专业化是这一趋势的关键推动力。已经部署了基于GPU和FPGA的云，以加速计算密集型工作负载。随着云服务在全球范围内扩展，基于ASIC的云是自然发展的过程。ASIC云是专用数据中心，由大型ASIC加速器阵列组成，可优化大型，大规模横向扩展计算的总拥有成本（TCO）。从表面上看，由于高NRE和ASIC不灵活，ASIC云似乎不太可能，但是大规模ASIC云已经部署到比特币加密货币系统中。本文从这些比特币ASIC云中汲取了教训，并将其应用于其他大规模工作负载，例如YouTube风格的视频转码和深度学习，显示了优于CPU和GPU的TCO。通过联合优化ASIC架构，DRAM，主板，电源，冷却和工作电压，它基于加速器属性派生出Pareto最优的ASIC Cloud服务器。最后，作者研究了ASIC NRE的影响以及何时构建ASIC云是有意义的。

介绍

在过去的十年中，在计算领域出现了两个平行的趋势。首先是将计算分为两部分：云计算和移动计算。第二个是暗硅技术15、3、4、2和暗硅感知设计技术13、14、10、16、11的兴起，例如专门化和接近阈值计算。由于极端的功率限制，专用硬件已存在于移动计算领域一段时间。但是，最近，出现在云数据中心中的专用硬件数量有所增加。例子包括百度用于分布式神经网络加速的基于GPU的云，用于Bing Search的基于Microsoft FPGA的云9，以及摩根大通（JP Morgan Chase）用于对冲基金投资组合评估的例子。12

在单个节点的级别上，我们知道ASIC可以在CPU，GPU和FPGA的能效和成本性能方面提供数量级的改进。

我们最近的论文8、6、7、17探索了ASIC云的概念，它们是由大型ASIC加速器阵列组成的专用数据中心。ASIC云不是ASIC超级计算机，它们可以通过单个紧密耦合的计算来扩大问题的规模。相反，ASIC云的目标是由许多独立但相似的工作组成的横向扩展工作负载，通常代表数百万或数十亿的最终用户。

随着越来越多的服务围绕云计算模式构建，我们看到了星球级工作负载的出现（想想Facebook对上传图片的人脸识别，或者苹果的Siri语音识别，或者国税局用神经网络进行税务审计），数据中心在许多用户之间进行相同的计算。这些向外扩展的工作负载可以轻松利用包含多个芯片阵列的ASIC服务器机架，这些芯片阵列依次连接片上网络上的复制计算加速器（RCA）阵列。这些工作量的巨大规模带来了经济上的合理性，足以支付ASIC开发和部署的非经常性工程（NRE）成本。随着工作量的增长，可以通过添加更多的ASIC服务器来在数据中心中扩展ASIC云，这与移动电话中的加速器3不同，其中加速器与处理器的比率固定为流片。

我们的研究在四个关键应用程序的背景下检查了ASIC云，这四个应用程序显示了ASIC云的巨大潜力，例如YouTube风格的视频转码，比特币和Litecoin挖掘以及深度学习。与CPU，GPU和FPGA相比，ASIC大大减少了硅面积和能耗。我们展示了如何通过优化的ASIC，定制的印刷电路板（PCB），定制设计的冷却系统和专用电源传输系统，以及定制的DRAM和I / O子系统来专门化ASIC服务器以最大化效率。定制ASIC电压是为了调整能效并最大程度降低总拥有成本（TCO）。数据中心本身也可以是专用的，可以优化机架级和数据中心级的散热和功率传输，以利用计算知识。我们开发了一些工具，这些工具以自下而上的方式考虑了ASIC云设计的各个方面，并提供了方法论，揭示了这些新颖系统的设计人员如何在现实世界的ASIC云中优化TCO。最后，我们提出了一条新规则，考虑了设计机器的工程费用（NRE），该规则解释了何时合理设计和部署ASIC云。

值得注意的是，本文的原始版本1,8在Google于2016年宣布首个Tensor Processing云之前就预测了机器学习ASIC云.5该论文还在2019年3月宣布Facebook的Mount Shasta视频转码ASIC云设计之前预测了视频转码云。

ASIC云架构

任何ASIC云的核心都是高能效，高性能，专门的复制计算加速器（RCA），它通过每个ASIC具有多个副本，每个服务器具有多个ASIC，每个机架具有多个服务器以及多个功能而倍增每个数据中心的机架数量如图1所示。来自数据中心外部的工作请求将以横向扩展的方式分布在这些RCA中。可以针对应用定制所有系统组件，以最大程度地降低总拥有成本。

每个ASIC使用定制的片上网络互连其RCA。ASIC的控制平面单元也连接到该网络，并调度从ASIC的片外路由器到RCA的传入工作。接下来，将封装好的ASIC安排在定制PCB上的通道中，并连接到桥接到PCB外接口（1-100 GigE，RDMA，PCI-e等）的控制器。在某些情况下，DRAM可能直接连接到ASIC。该控制器可以由FPGA，微控制器或Xeon处理器实现，并调度从PCB外接口到ASIC的远程过程调用（RPC）。根据应用程序的不同，它可能实现工作负载的不可加速部分，或者执行UDP / TCP-IP卸载。

每个通道都由管道封闭，并有专用风扇将空气吹过ASIC散热器。我们的模拟表明，与传统布局或交错布局相比，使用风道可获得更好的冷却性能。将PCB，风扇和电源封装在1U服务器中，然后将其组装到数据中心的机架中。根据ASIC的需求，为每台服务器定制PSU和DC / DC转换器。

设计ASIC云

如图2a所示，我们的ASIC Cloud Server配置评估器从Verilog加速器实现开始，或者从研究文献中详细评估加速器的属性。在ASIC服务器的设计中，我们必须决定应在PCB上放置多少个芯片，以及每个芯片应有多大（以mm2硅为单位）。每个芯片的大小决定了每个芯片上将有多少个RCA。在ASIC芯片的每个管道封闭通道中，每个芯片从进气风扇接收大约相同数量的气流，但是最下游的芯片接收最热的空气，其中包括来自其他芯片的废热。因此，热缩颈ASIC在后面，如图2b所示，在我们详细的计算流体动力学（CFD）仿真中显示。我们的模拟表明，将固定热源分成总输出热量相同的较小热源可以改善冷热区域的混合，从而降低温度。使用热优化技术，我们在RCA的属性，放置在ASIC中的RCA的数量以及服务器中的PCB上有多少个ASIC之间建立了基本的联系。鉴于这些特性，我们的散热器求解器确定了最佳的散热器配置。结果通过CFD仿真器验证。在标题为“设计空间评估”的侧栏中，我们展示了如何在整个设计空间中应用此评估流程，以确定TCO和Pareto最佳点，这些最佳点需要权衡$ op / s（加速器的硬件成本效率）和W per op / s（加速器的能量）效率）。

应用案例研究

为了探索各种加速器属性的ASIC云，我们检查了四个应用程序：比特币挖掘，Litecoin挖掘，视频转码和深度学习，它们跨越了多种属性，如图3所示。

图1 ASIC云的高级抽象体系结构。专用复制计算加速器（RCA）通过每个ASIC具有多个副本，每个服务器具有多个ASIC，每个机架具有多个服务器以及每个数据中心具有多个机架而倍增。服务器控制器可以是FPGA，微控制器或Xeon处理器。电力输送和冷却系统是根据ASIC需求定制的。如果需要，PCB上也将有DRAM。

图2 评估ASIC配置。（a）使用RCA属性和优化服务器散热器，芯片尺寸，电压和功率密度的流程评估服务器成本，每个服务器的哈希率和能效。（b）使用CFD工具对ASIC Cloud服务器进行热验证，以验证流量结果。离风扇最远的ASIC的温度最高，并且是固定电压和高能效下每个ASIC功率的瓶颈。

图3 加速器属性。我们探索了具有各种要求的应用程序。

这些应用中最成熟的也许是比特币挖掘。我们对ASIC云的灵感来自对比特币采矿云的深入研究4，这是现实生活中ASIC云的最早已知实例之一。图4显示了比特币挖矿工作负载的大规模扩展，2015年以32亿个GPU的性能运行。从CPU到GPU再到FPGA，比特币云已经迅速发展成为当今最先进的ASIC技术。比特币是一种非常逻辑密集的设计，具有高功率密度，不需要SRAM或外部DRAM。

Litecoin是另一种流行的加密货币挖掘系统，已部署到云中。与比特币不同，它是功耗低的SRAM密集型应用程序。

从一个视频转换为另一个视频的视频转码目前需要近30台高端Xeon服务器进行实时处理。由于每个手机以及每个物联网设备都可以轻松地成为视频源，因此它有可能成为不可思议的大型行星级计算。视频转码是一种外部存储器密集型应用，需要每个ASIC旁边的DRAM，以及较高的PCB外带宽。

最后，深度学习是计算密集型的，并且可能被地球上的每个人使用。深度学习通常对延迟敏感，因此我们的深度学习神经网络加速器具有严格的低延迟SLA。

对于我们的比特币和莱特币研究，我们开发了RCA，并使用Synopsys IC编译器和分析工具（例如PrimeTime）从UMC 28nm中的布局布线设计中获得了所需的参数，例如门数。对于深度学习和视频转码，我们从研究文献中设计的加速器中提取属性。

设计空间探索是依赖于应用程序的，并且经常存在其他约束。例如，对于视频转码应用，我们对这些DRAM占用的PCB面积进行建模，这些DRAM放置在它们所连接的ASIC的两侧，垂直于气流。随着DRAM数量的增加，由于空间原因，放置在通道中的ASIC数量会减少。我们对DRAM所需的更昂贵的PCB建模，具有更多的层和更好的信号/电源完整性。我们使用两个10-GigE端口作为网络密集型云的PCB外接口，并为内存控制器的面积和功率建模。

在所有热量约束都到位之后，我们针对两个常规关键指标（即，每运维成本和每运维功率）优化了ASIC服务器设计，然后应用了TCO分析。TCO分析包含了数据中心级别的约束，例如数据中心内部的电力交付成本，土地，折旧，利息以及能源本身的成本。使用这些工具，我们可以正确地权衡这两个指标，并找到ASIC云的总体最佳点（TCO最佳）。

我们的ASIC云基础设施探索了一个全面的设计空间，例如每个ASIC的DRAM，逻辑电压，每个ASIC的面积以及芯片数量。DRAM的成本和功耗开销很大，因此帕累托最优视频转码器设计可确保DRAM带宽饱和，并将芯片性能与DRAM数量联系起来。随着电压和频率的降低，面积会增加以满足性能要求。图5显示了每个通道5个ASIC和每个ASIC不同数量的DRAM的视频转码Pareto曲线。该工具由两层组成。顶层使用蛮力探索所有可能的配置，以便根据Pareto结果选择能源最佳，成本最佳和TCO最佳点。叶层由多种“专家解决方案”组成，这些解决方案可以计算服务器组件的最佳属性。例如，散热器的CFD模拟，DC-DC转换器分配，电路面积/延迟/电压/能量估算器以及DRAM属性仿真。在许多情况下，这些求解器会将其数据作为每个组件的备忘编号大表导出到蛮力求解器。

图4.专业化的演变，比特币加密货币挖矿云。数字是ASIC节点（以nm为单位），表示该技术上矿机的首次发布日期。难度是全球总比特币哈希吞吐量与初始采矿网络吞吐量（7.15 MH / s）的比率。在2015年11月之前的6年中，吞吐量增长了500亿倍，相当于世界哈希率约为5.75亿GH / s。

图5.视频转码的帕累托曲线示例。针对每个ASIC探索不同数量的DRAM和逻辑电压，以实现每个性能点的最佳TCO。电压从左到右增加。对角线显示每项性能的TCO相等，离原点越近，每项性能的TCO越低。该图为每通道5个ASIC。

图6 四个应用程序的ASIC Cloud优化结果。每个表都显示了能源最佳，TCO最佳和成本最佳的服务器属性。能源优化服务器使用较低的电压来提高能源效率。成本最佳的服务器使用更高的电压来提高硅效率。TCO最佳电压介于这两者之间，可平衡能量和硅成本。

结果

图6中显示了每种应用的能源最佳，TCO最佳和成本最佳设计的最佳服务器配置的详细信息。

例如，对于视频转码，成本最优的服务器打包了每个通道的最大DRAM数量36，从而使性能最大化。但是，增加每个ASIC的DRAM数量需要更高的逻辑电压（1.34V）和相应的频率，以在最大管芯面积约束内获得性能，从而导致较低的能源效率设计。因此，能量优化设计的每个ASIC和每个通道（24）具有较少的DRAM，尽管通过增加每个通道的ASIC可以获得一些性能，这可能是由于0.54V的较低功率密度所致。TCO最佳设计增加了每通道30个DRAM，以提高性能，但仍接近0.75V时的最佳能效，从而导致了芯片尺寸和其他两个最佳点之间的频率。

在图7中，我们比较了我们介绍的四个应用程序的CPU云，GPU云与ASIC云的性能。ASIC云的运算能力/性能比CPU Cloud TCO高出6270倍；704x; 和8695x分别用于比特币，莱特币和视频转码。比特币，莱特币和深度学习的ASIC Clouds的性能比GPU Cloud TCO分别高1057倍，155倍和199倍。

ASIC云的可行性:二对二规则

什么时候设计和部署ASIC云有意义？关键的障碍是开发ASIC服务器的成本，其中包括掩模成本（我们在此处考虑的28 nm节点的掩模成本约为150万美元，而最新的7nm节点的成本要高得多）和ASIC设计成本（包括这些成本）非经常性工程费用（NRE）。为了理解这种权衡，我们提出了二换二规则。如果在现有云上运行计算的每年成本（即TCO）超过NRE2倍，并且每次操作/秒的改进至少可以获得2倍TCO，那么采用ASIC Cloud很有可能为了省钱。图8显示了更广泛的盈亏平衡点。本质上，随着TCO越来越多地超过NRE，达到收支平衡所需的加速下降。结果，取决于计算的规模，几乎所有文献中提出的加速器（无论加速速度如何）都可以成为ASIC Cloud的候选者。我们的研究做出了关键的贡献，指出在ASIC云的部署中，NRE和规模比加速器的绝对加速更具决定性。ASIC云的主要障碍是控制NRE成本，因此它们适合于计算规模。在许多研究加速器中，TCO的改进是非常极端的（如图7所示），但是作者往往不必要地瞄准昂贵的最新一代工艺节点，因为它们更具尖端性。这种趋势使NRE呈指数增长，从而降低了经济可行性。更好的策略是针对仍能获得足够TCO改进的较旧节点。

图7 CPU云与GPU云与ASIC云的“死亡竞赛”。就每运营成本的总拥有成本而言，ASIC服务器大大优于最佳的非ASIC替代方案。

流片后的深刻理解:你的目标是TCO改善的8倍

二对二规则基于将ASIC之前的云的TCO与构建加速器的NRE进行比较得出的结果，检验了ASIC云的TCO改进需要达到的下限，并显示出数百倍的TCO 不需要改进。

我们随后发布的ASIC云发布后的经验提出了另一种方法来研究加速器的必要性问题。我们认为，在大多数情况下，开发新型ASIC云时，通常将目标TCO提高8倍是一个不错的选择。

在最现实的情况下，ASIC前的云TCO可能高达数亿或数十亿美元，远远超过了除最新节点（例如7nm）以外的所有ASIC的开发成本。实际上，前两次将使您的TCO减少一半，即10亿美元变成5亿美元。第二次两次只能节省2.5亿美元，这对第一次ASIC迭代很有用，但不是必需的。第二个两次是需要为设计的性能和能源效率的不确定性提供风险边际——原始软件是否会被更多地优化，使芯片相对不那么好，芯片是否会比预期的TCO改进少，等等。最后两次解决了ASIC之前的云硬件（例如GPU或CPU）也将改善的问题，并且在部署ASIC云系统时可能会改善两倍。

图8 二对二规则：低NRE时适度加速比高NRE时高加速。这些点是ASIC云的收支平衡点。

结论

我们的研究将原始比特币ASIC云概括为可应用于各种星球规模应用程序的架构模板。数据中心和硬件设计的共同知识和控制能力使ASIC Cloud设计人员可以选择最佳设计，从而按比例优化能源和成本，以优化TCO。我们展示了可用于设计TCO最佳云的方法，即使在当前的比特币ASIC云中也能回答长期存在的问题。我们的工作分析了NRE和规模对ASIC云的部署的影响，并将其与TCO的改进联系在一起，进而将其与云的能源和成本效率联系在一起。

我们的工作通过展示如何在系统级别而不是单个芯片级别检查加速器来推进研究实践。我们以面向跨层系统的方式评估ASIC Cloud芯片设计，服务器设计，最后评估数据中心设计。通过对数据中心和硬件设计的共同了解和控制，ASIC Cloud设计人员可以选择最佳设计，从而按比例优化能源和成本。我们开发了工具，并揭示了这些新颖系统的设计人员如何在现实世界的ASIC云中优化TCO。

我们制定了一条经验法则，即在什么时候可以使用ASIC Cloud，即“二对二”规则。ASIC云的主要障碍是控制NRE成本，因此它们适合于计算规模。在许多研究加速器中，TCO的改进是极端的，但作者还针对昂贵的最新一代工艺节点，因为它们更具前沿性。但是，这种习惯使NRE呈指数增长，从而降低了经济可行性。我们最近的工作6表明，一种更好的策略是通过针对仍具有每个运营收益TCO的旧节点来降低NRE成本。

展望未来，我们的工作表明，在硬件和软件的新的省力开发方法中，对减少ASIC设计的NRE的技术（例如RISC-V等开源IP）进行投资将使云提供商和硅代工厂都将从中受益。在开源后端CAD工具中也是如此。随着时间的流逝，掩模成本会自行下降，但是目前较老的节点（例如65 nm和40 nm）可以降低每op / s的TCO，而掩模成本只有一半，而性能和能效只有28、16、16之间的很小差异或7纳米。代工厂应该对ASIC Cloud的低压横向扩展设计模式感兴趣，因为在固定的环境能量限制内，它们导致的硅晶片消耗要比CPU多。

随着即将发生的行星级计算爆炸性增长，我们必须努力遏制全球数据中心对指数级增长的环境影响。ASIC Clouds承诺将帮助解决该问题。通过专门化数据中心，他们可以在环境确定的能量限制下进行更多的计算。未来是星球级的，专用ASIC将无处不在。