AI芯片的一些科普

来源：内容由半导体行业观察（ID：icbank）原创，谢谢。

人工智能芯片包括图形处理单元(GPU)、现场可编程门阵列(FPGA)和专门用于人工智能的特定应用集成电路(ASIC)。像中央处理器(CPU)这样的通用芯片也可以用于一些更简单的人工智能任务，但是随着人工智能的发展，CPU的用处越来越小。

与通用CPU一样，人工智能芯片通过集成大量越来越小的晶体管来提高速度和效率(也就是说，它们每消耗一单位能量就能完成更多的计算)，这些晶体管运行速度更快，消耗的能量也更少。但与CPU不同的是，AI芯片还有其他AI优化的设计特性。利用这些特性可以极大地加速AI算法所需的相同的、可预测的、独立的计算。包括并行执行大量计算，而不是像在CPU中那样按顺序执行；这些AI芯片在减少了相同计算所需的晶体管数量下，成功实现了计算精度需求较低的人工智能算法；加速内存访问，例如，将整个AI算法存储在一个AI芯片中；以及使用专门设计的编程语言来高效地转换AI计算机代码，以便在AI芯片上执行。

不同类型的人工智能芯片适用于不同的任务。GPU最常用于最初开发和改进AI算法；这个过程被称为“训练”。AI算法通常利用FPGA作为桥梁，被用于现实世界中的数据输入。这通常称为“推理”。ASIC则可以适用于训练或推理。

AI芯片方面的一些知识

面向AI应用的专用芯片的趋势是由两个因素驱动的。首先，半导体功能的关键改进已从制造转向设计和软件;其次，对人工智能等应用的需求不断增长，需要高度并行化，可预测的计算，这得益于专用芯片。深神经网络（DNN）-负责最近人工智能突破的人工智能算法符合这项法案。

DNN通常实现一种称为监督学习的机器学习，它涉及两个计算步骤：基于训练数据“训练” AI算法（即构建算法）和执行训练后的AI算法（即执行“推理”）以对新算法进行分类与训练阶段从数据中获取的知识相一致的数据。

特别地，训练步骤通常需要执行相同的计算数百万次。如第IV（B）节所述，提高的晶体管密度允许在单个芯片上使用更多类型的专用电路。AI芯片将这一点发挥到了极致—芯片上大多数或所有晶体管的布局均针对AI算法所需的高度可并行化，专门计算进行了优化。

尽管分析师对全球人工智能芯片市场规模存在广泛分歧,ru 2018年的估计值介于50亿至200亿美元之间，但他们一致认为，市场增长速度将快于非人工智能专用芯片。直到最近，少数设计CPU等通用芯片的公司主导了逻辑芯片设计市场。他们享受着规模经济，使他们能够再投资于强大的新CPU设计。然而，摩尔定律的放缓正在损害CPU生产商的规模经济；在摩尔定律驱动的CPU效率和速度增益克服专用芯片的好处之前，现在专用芯片的使用寿命更长。因此，CPU设计公司再投资于新设计以保持正在下降的市场支配地位。这一趋势降低了芯片设计初创公司的进入门槛，特别是那些专注于专业芯片的公司。

人工智能芯片是一种常见的专用芯片，具有一些共同的特点。人工智能芯片并行执行的计算量远远大于CPU。他们还以一种成功实现人工智能算法但减少晶体管数量的方式以低精度计算数字

需要相同的计算。它们还通过将整个人工智能算法存储在一个人工智能芯片中来加速内存访问。最后，人工智能芯片使用专门的编程语言来有效地翻译人工智能计算机代码，以在人工智能芯片上执行。

虽然通用芯片特别是CPU包括少量流行的设计，但人工智能芯片更加多样化。人工智能芯片在设计、适用的应用、不同人工智能任务的效率和速度、通用性和推理时的分类精度等方面有着广泛的差异、

由于其独特的特性，人工智能芯片在训练和推理AI算法方面比CPU快几十倍甚至几千倍。最先进的人工智能芯片比最先进的CPU更划算，因为它们在人工智能算法上的效率更高。一千倍于CPU效率的人工智能芯片所带来的改进相当于26年摩尔定律为CPU带来的改进。

先进的人工智能系统不仅需要AI专用芯片，还需要最先进的AI芯片。较早期的人工智能芯片——带有更大、更慢、更耗电的晶体管——会产生巨大的能源消耗成本，并可以迅速飙升至这种芯片无法承受的水平。正因为如此，如今使用较早期的AI芯片在成本和计算速度方面，都至少比最新的AI芯片大一个数量级。（成本增加，计算速度却更慢）

这些成本和速度的动态变化，推动着先进AI芯片的繁荣——如果没有最先进的AI芯片，则几乎不可能开发和部署最先进的AI算法。即使使用最先进的AI芯片，训练AI算法也可能花费数千万美元，并且需要数周才能完成。实际上，在顶级AI实验室中，总支出中有很大一部分用于与AI相关的计算。使用CPU等通用芯片，甚至使用较旧的AI芯片，进行这种训练将花费更长的时间才能完成，并且相关的支出也会更多，这使得对AI算法的研究和部署无法进行下去。类似地，使用较不先进或较不专业的芯片进行推理也可能会导致类似的成本超支，并且需要更长的时间。

人工智能芯片的工作原理

相对于CPU来说，人工智能芯片通过特定技术来提高效率和速度。有关通用AI芯片的自上而下视图和这些技术的图形表示，请参见图，这些技术将在下面的小节中详细描述。

通用人工智能芯片

（1）并行计算

与传统CPU相比，人工智能芯片提供的最重要的改进是并行计算能力，也就是说，人工智能芯片可以运行比CPU更多的并行计算。

对于DNN的计算是高度并行的，因为它们是相同的，并且不依赖于其他计算的结果。DNN训练和推理需要大量独立、相同的矩阵乘法运算，这反过来又需要执行许多乘法运算，然后求和，即所谓的“乘积” 运算。

人工智能芯片设计通常要在单芯片上具备大量的“乘法累加电路”(MAC)，以有效地在一个大规模并行架构上执行矩阵乘法操作。并行计算也使AI芯片能够比顺序计算更快地完成任务。在并行架构中连接的多个AI芯片可以进一步提高并行程度。虽然先进的CPU具有一定程度的并行体系结构，但AI芯片实现了更大的并行性。

并行处理操作使用几种技术，Data parallelism是最常见的并行形式，它将输入数据集分为不同的“批”，以便在每个批上并行执行计算。这些批次可以跨AI芯片的不同执行单元或并行连接的不同AI芯片。数据并行性适用于任何类型的神经网络。在各种各样的神经网络中，在训练期间使用数百到数千批的数据并行性在不增加所需计算总数的情况下实现了相同的模型精度。然而，更多的批次需要更多的计算来实现相同的模型精度。超过一定数量的批次（对于一些DNN来说，超过100万）增加的数据并行性需要更多的计算，而不会减少训练模型的时间，从而限制有用的数据并行性。

Model parallelism将模型分成多个部分，在这些部分，计算在AI芯片的不同执行单元上并行执行，或者在并行连接的不同AI芯片上并行执行。例如，单个DNN层包括许多神经元，一个分区可能包括这些神经元的子集，另一个分区包括相同神经元的不同子集。有一种替代技术可以并行地对不同神经网络层进行计算。

考虑到并行性的限制，通过更多的人工智能芯片并行扩展计算量并不是人工智能进步的可行策略，好的AI算法研究更加有意义，也是必要的，因为它允许更大程度的数据和模型并行，包括研究结合技术，以增加并行度。

（2）低精度计算

低精度计算，它牺牲了速度的数值精度和效率，特别适合人工智能算法。一个x-bit处理器由执行单元组成，每个执行单元都是用来操作由x-bit表示的数据的。晶体管存储一个bit，其值可以为1或0；因此，x-bit值允许2 x 不同的组合。下表显示了处理器数据类型的x的公共值。

数据类型

高位（Higher-bit）数据类型可以表示更广泛的数字范围(例如：一组较大的整数) 或在有限范围内的更高精度的数字(例如：在0到1之间的高精度十进制数)。幸运的是，在许多人工智能算法中，训练或推理也会执行，或者几乎同样地执行，如果一些计算是用8位或16位数据执行的，这些数据代表有限或低精度的数字范围。即使模拟计算也足以满足一些人工智能算法。这些技术工作的原因如下：

首先，经过训练的DNN通常不受噪声的影响，因此在推理计算中舍入数字不会影响结果；

第二，DNN中的某些数值参数事先已知的值仅在一个小的数值范围内，准确地说是可以用低位数存储的数据类型。

低位（Lower-bit）数据计算可以用包含较少晶体管的执行单元进行。这产生了两个好处。首先，如果每个执行单元需要更少的晶体管，芯片可以包括更多的并行执行单元。其次，低位计算更有效率，需要更少的操作.. 一个8位执行单元使用比16位执行单元少6倍的电路面积和6倍的能源。

（3）内存优化

如果AI算法的内存访问模式是可预测的，那么AI芯片可以优化这些可预测用途的内存数量、位置和类型。例如，一些AI芯片包括足够的

内存来存储整个AI算法。与片外存储器通信相比，片内存储器访问提供了更好的效率和速度改进。

当模型变得太大而无法存储在单个AI芯片上时，模型并行性成为一个特别有用的工具；通过分割模型，可以在并行连接的不同AI芯片上训练不同的部分。

相比之下，大多数CPU都是基于“冯诺依曼”设计，其中包括一个单一的中央总线——一个在CPU和存储程序代码和数据的单独内存芯片之间共享数据的通信系统。考虑到总线的带宽有限，CPU必须顺序地单独访问代码和数据，并经历一个“冯诺依曼瓶颈”，其中内存访问延迟阻止CPU通过高晶体管开关速度获得更快的速度。

冯·诺依曼设计对于通用计算是有用的，但AI芯片不需要冯诺依曼设计或经历冯诺依曼瓶颈。

（4）特定领域的语言

特定领域语言(Domain-specific languages ：DSL)为在专用芯片上运行的专用应用程序提供了效率增益。

程序员以人类理解的方式，使用计算机语言编写计算机代码(即计算机看得懂的指令)。计算机程序称为编译器（或解释器），然后将此代码转换为处理器直接可读和可执行的表单。不同的计算机语言在不同的抽象层次上运作。

例如，像Python这样的高级编程语言被简化为人类可访问性，但是Python代码在执行时往往相对较慢，因为将人类的高级指令转换为为特定处理器优化的机器代码的复杂性很高。相比之下，在较低抽象级别上操作的C类编程语言需要更复杂的代码（以及程序员的努力），但它们的代码执行效率往往更高，因为更容易转换成为特定处理器优化的机器代码。然而，这两个例子都是通用编程语言，其代码可以实现各种各样的计算，但不是专门为特定计算有效地转换成机器代码的。

相比之下，DSL是专门为专用芯片高效编程和执行的。一个值得注意的例子是谷歌的TensorFlow，它是DSL，它的代码在AI芯片上运行的效率比任何通用语言都高。有时，DSL的优点可以通过PyTorch 这样的专门代码库来实现：这些代码库将专门的AI处理器的知识打包在通用语言(例如Python在这种情况下)可以调用的函数中。

AI芯片类型

如上所述，人工智能芯片包括三类:图形处理器（GPU）、现场可编程门阵列（FPGA）和专用集成电路（ASIC）。

GPU最初是为得益于并行计算的图像处理应用而设计的。2012年，GPU开始被越来越多地用于训练人工智能系统，到2017年，GPU占据主导地位。GPU有时也用于推理。然而，尽管GPU允许可以比CPU有更大程度的并行，但它仍然是为通用计算而设计的。

最近，专用FPGA和ASIC在推理方面变得更加突出，因为与GPU相比，它们提高了效率。ASIC也越来越多地用于训练。FPGA包括逻辑模块（即每个模块包含一组晶体管）其互连可以在制造后由程序员重新配置以适应特定的算法，而ASIC包括为特定算法定制的硬连线电路。领先的ASIC通常比FPGA提供更高的效率，而FPGA比ASIC更易于定制，并随着人工智能算法的发展而促进设计优化。相比之下，随着新的人工智能算法的开发，ASIC正变得越来越过时。

考虑到每个任务对芯片的不同要求，可以使用不同的AI芯片进行训练和推理。

首先，不同形式的数据和模型的并行性适合于训练和推理。因为训练需要在与推理共享的步骤之上增加计算步骤。

其次，尽管训练实际上总是受益于数据并行，但推理通常不会。例如，可以一次对单条数据执行推断。然而，对于某些应用程序，可以并行地对许多数据执行推理，特别是当应用程序需要快速推断大量不同的数据时。

第三，根据应用的不同，训练和推理的效率和速度的相对重要性可能不同。对于训练，效率和速度对于人工智能研究人员高效、快速地迭代研究项目都很重要。

对于推理，高推理速度可能是必不可少的，因为许多人工智能应用部署在关键系统中（例如，自动车辆）。或者不耐烦的用户（例如，对图像进行分类的移动应用程序）需要快速、实时的数据分类。

另一方面，有效的推理速度可能存在上限。例如，推理不需要比用户对移动应用程序的反应时间更快。

推理芯片比训练芯片需要更少的研究突破，因为它们比训练芯片需要更少的计算优化。与GPU和FPGA相比，ASIC需要的研究突破更少。由于ASIC仅针对特定算法进行优化，设计工程师考虑的变量要少得多。

为了设计只用于一次计算的电路，工程师可以简单地将计算转化为针对该计算进行优化的电路。但是，要设计用于多种类型计算的电路，工程师必须预测哪种电路能够很好地完成各种任务。其中许多是事先未知的。

人工智能芯片的商业化依赖于其通用功能的程度。GPU早已广泛商业化，FPGA也是如此，只是程度较低。同时，由于高设计成本和专业化驱动的低容量，ASIC更难以商业化。然而，在通用芯片改进速度缓慢的时代，专用芯片相对更经济。因为在下一代CPU达到相同的加速比或效率之前，它具有更长的使用寿命。在当前CPU进步缓慢的时代，如果一个AI芯片的速度提高了10-100倍，那么只要1.5 - 8.3万的销量就足够让AI芯片变得经济。预计人工智能芯片市场规模的增长可能会创造规模经济，这将使越来越窄的人工智能ASIC有利可图。

人工智能芯片有不同的等级，功能有强有弱。在高端，服务器级人工智能芯片通常用于高端应用的数据中心，在封装后，比其他人工智能芯片更大。中端是消费者常用的PC级AI芯片。在低端，移动人工智能芯片通常用于推理，并集成到系统级芯片中，该芯片还包括一个CPU。移动系统芯片需要小型化才能适合移动设备。在每一个级别，人工智能芯片市场份额的增长都是以牺牲非人工智能芯片为代价的。

超级计算机与人工智能的相关性有限，但正在不断增强。最常见的是，服务器级芯片分布在数据中心，可以按顺序执行，也可以在称为“网格计算”的设置中并行执行。超级计算机采用服务器级芯片，将它们物理地放在一起并连接在一起，并增加了昂贵的冷却设备以防止过热。这种设置提高了速度，但大大降低了效率，对于许多需要快速分析的应用程序来说，这是一种可接受的折衷方案。目前很少有人工智能应用能证明更高速度的额外成本是合理的。但大型人工智能算法的训练或推理有时非常缓慢，以至于只能使用超级计算机作为最后的手段。因此，尽管CPU传统上一直是超级计算芯片的首选，但人工智能芯片现在正在占据越来越大的份额。2018年，GPU承担了全球新增超级计算机计算能力的大部分。

先进AI芯片的价值

领先的节点AI芯片对于高性价比、快速训练和推理AI算法越来越必要。这是因为它们相对于最先进的CPU表现出效率和速度的提升和尾随节点AI芯片。而且，效率转化为芯片成本（芯片生产成本的总和）的总体成本效益。（即设计、制造、组装、测试和封装成本）。最后，许多计算密集型AI算法的训练和推理的成本和速度瓶颈，使得AI开发者和用户需要最先进的AI芯片来保持在AI研发和部署方面的竞争力。

最先进的AI芯片的效率转化为成本效益。

效率转化为整体成本效益。对于trailing nodes，芯片运营成本（由于能耗成本）主导着芯片生产成本，并迅速膨胀到难以管理的水平。即使对于先进节点，运营成本也与生产成本类似，这意味着需要继续优化以提高效率。

表2给出了一个CSET芯片生产和运行成本模型的结果，该模型针对的是与Nvidia P100 GPU类似规格的服务器级5nm芯片相同数量的90 - 5nm节点。这意味着5纳米以上的芯片需要更大的表面积。对于5nm以上的节点，该模型可以等效地解释为生产多个芯片，这些芯片的晶体管计数为一个5nm芯片。该模型采用无晶圆厂设计公司的视角，在2020年设计芯片，从台积电代工，然后在自己的服务器上运行芯片。这与谷歌等公司的做法类似。谷歌在内部设计TPU，将制造外包给台积电，然后在谷歌服务器上运行自己的TPUs，向外部客户提供人工智能应用程序或云计算服务。

费用细分如下。代工厂支付的代工销售价格包括资金消耗(即建厂和收购中小企业的成本)、材料、人工、代工研发和利润率。无晶圆厂的公司还会额外增加芯片设计成本。制造完成后，外包的半导体和测试公司对芯片进行组装、测试和封装(ATP)。代工销售价格、芯片设计成本、ATP成本之和等于每片芯片的生产总成本。无晶圆厂的公司在操作芯片时也会产生能源成本。我们根据每千瓦时0.07625美元的电力成本来估算能源成本。

表2:不同节点的芯片成本，等效晶体管数量为5nm

首先，在不到两年的时间内，运营一款先进节点的AI芯片（7或5nm）的成本超过生产所述芯片的成本，而运行尾部节点AI芯片（90或65nm）的累积电力成本是生产这种芯片的成本的三到四倍。图2显示了连续使用长达三年的总芯片成本:每个芯片的总生产成本在第0年增加。随后每年增加使用该芯片的年度能源成本。这些结果表明，在计算生产和运营时，先进节点AI芯片的成本效益是落后节点AI芯片费用的33倍。同样，由于先进节点AI芯片的效率比先进节点CPU高出一到三个数量级（表1），我们预计，在计算产量和OPE时，先进节点AI芯片的成本效益也比先进节点CPU高出1到3个数量级。

图2:不同节点的AI芯片随时间变化的成本

其次，生产和运行5nm芯片的成本需要8.8年才能达到运行7nm芯片的成本。8.8年后，7nm和5nm芯片更便宜。因此，只有当预期使用5nm节点芯片8.8年时，用户才有动力更换现有的7nm节点芯片（假设它们不会发生故障）。图2显示了90 nm和5 nm之间的节点间比较。

我们发现，这些成本变得相等的时间段增加了，在7nm与5nm的比较中，成本急剧增加。公司通常会在运营三年后更换服务器级别的芯片，这与最近引入新节点的时间框架是一致的，依赖先进节点芯片的公司在新推出的节点芯片一上市就立即购买。然而，如果公司开始购买5nm节点芯片，他们可能期望更长时间地使用这些芯片。这将构成一个市场预测，即摩尔定律正在放缓，3nm节点可能在很长一段时间内不会推出。

图3:节点转换经济性

计算密集型人工智能算法受到芯片成本和速度的瓶颈制约。

人工智能公司在人工智能相关计算上花费的时间和金钱已经成为人工智能发展的瓶颈。鉴于先进节点AI芯片比落后节点AI芯片或先进节点CPU更具成本效益且速度更快，因此这些AI实验室需要先进节点AI芯片来继续推进AI进展。

第一，人工智能实验室DeepMind领先的人工智能实验，如AlphaGo、AlphaGo Zero、AlphaZero和AlphaStar的训练成本。估计每项费用为500万至1亿美元。一个成本模型显示，AlphaGo Zero的训练成本为3500万美元。人工智能实验室OpenAI报告称，在2017年2800万美元的总成本中，有800万美元用于云计算。将这些计算成本乘以30，用于trailing node AI芯片，或甚至更多用于先进节点CPU，会使这种实验在经济上变得不可行。一些人工智能公司的计算成本增长如此之快，可能很快就会达到成本上限。从而需要最高效的人工智能芯片。

其次，领先的人工智能实验可能需要几天甚至一个月的时间进行训练。虽然部署了关键的人工智能系统，但通常需要快速或实时推理。通过使用trailing node的AI芯片或引导节点的CPU来增加这些时间，将使得AI研发所需的迭代速度和部署的关键人工智能系统慢得令人无法接受。一家芯片速度较慢的公司可以尝试通过并行使用大量速度较慢的芯片来支付巨大的能源成本以提高速度。但这一策略可能会失败，原因有二。首先，正如附录A 的A节所讨论的，领先的实验需要人工智能研究人员调整人工智能算法，以支持更多的数据和模型并行性。人工智能研究人员可以在有限的程度上做到这一点。但如果试图并行使用比目前领先的人工智能实验所使用的更多数量的人工智能芯片，可能会面临困难。另一方面，即使在算法上可行，这种并行也需要互补的软件和网络技术来实现。并行扩展数百或数千个GPU是极其困难的，如果扩展更大数量trailing node的GPU，可能会比以及当前的能力。

新的Cerebras晶圆级引擎芯片为网络技术提供了一个有趣的潜在解决方案。它是第一个晶圆级芯片，比其他任何人工智能芯片的表面积都大得多。这意味着可以在单个芯片上实现很大程度的并行性，减少多个芯片之间对先进网络技术的需求。

对这一分析的警告是，最近的一些人工智能突破并不需要大量的计算能力。此外，正在进行的研究是开发需要最少训练的人工智能算法（例如"几次射击"学习技术）。对于这些人工智能算法，将小成本或速度乘以大数字仍可能产生小成本或速度。

美国和中国的AI芯片竞争

最先进的AI芯片对于高级AI系统是必不可少的。美国及其盟国在生产与AI芯片相关的半导体领域中具有竞争优势。美国公司主导着AI芯片设计，其中包括用于设计芯片的电子设计自动化（EDA）软件。中国的AI芯片设计公司落后于美国，他们需要依靠美国EDA软件来设计其AI芯片。

美国，中国台湾和韩国公司控制着大多数可以制造最先进的AI芯片的晶圆代工厂（“ fabs”），尽管一家中国公司最近获得了一小部分市场占有率。但是，中国的AI芯片设计公司大都将制造外包给了非中国大陆的fab，因为它们的产能更大，而且制造质量更高。

领先的节点AI芯片的成本效益和速度从政策的角度来看很重要。美国公司主导了人工智能芯片的设计，而中国公司在人工智能芯片设计上远远落后，依赖美国EDA软件设计人工智能芯片，需要美国和盟国的中小企业和晶圆厂根据这些设计制造人工智能芯片。最先进的人工智能芯片的价值，加上它们的供应链集中在美国及其盟国，为美国及其盟国提供了一个杠杆点，以确保人工智能技术的有益开发和采用。

美国公司NVIDIA和AMD垄断了全球GPU设计市场，而中国最大的GPU公司景嘉微电子开发的GPU速度非常慢。同样，美国公司Xilinx和英特尔主导了全球FPGA市场，但中国领先的FPGA公司还有很长的一段距离。

在人工智能ASIC市场，特别是推理市场，分布着较多厂商，因为ASIC和推理芯片更容易设计，进入门槛较低。与GPU和FPGA不同，活跃在AI领域的公司，如谷歌、特斯拉和亚马逊，已经开始为自己的AI应用设计专用的AI芯片了。谷歌的TPU是一个典型例子。英特尔也在开发性能强大的专用AI芯片，并声称这些ASIC的效率和速度分别实现了10,000x和1,000x的提升。

而在专用AI芯片领域具有竞争力的中国公司包括燧原、百度、阿里巴巴、腾讯、华为海思、寒武纪、云天励飞和地平线等。中国研究人员还制作了用于高端研究的ASIC。然而，它们在很大程度上仅限于推理，不过，华为最近宣布研发出了一款人工智能训练ASIC。

可以看到，美国人工智能芯片设计公司的产品都在台积电（TSMC）、三星或英特尔制造，而制程都比较先进，以7nm、10 nm和16 nm为主。还有一点值得注意，美国GPU芯片使用的先进制程节点比FPGA和ASIC的要多，之所以如此，很可能是因为GPU的通用性强，具有更高的销售量，从而可以摊平更先进制程的设计和制造成本。

专家对AI芯片使用先进制程节点的必要性存在分歧。EDA公司的一位高管说：“每个想做AI的人都需要7nm及更先进制程的性能、功率效率等因素。与此同时，香港应用科学技术研究所的一位半导体研究员则持不同观点：“对于人工智能芯片，如果使用28nm制程工艺技术，而不是10nm或14nm技术，则制造成本就会低得多，如果使用先进制程，你就需要从零开始，花很多精力在数学模型、物理层和计算语言的研究上，而所有这些都需要投资，只有少数晶圆厂能够制造接近最先进的AI芯片，如下图所示，全球只有大约8.5%的晶圆厂产能可以用来制造接近最先进的AI芯片，目前，只有很少一部分产能可以制造最先进的AI芯片（图中蓝色部分），而用于制造最先进人工智能芯片的实际产能百分比很难计算，并且在逐年变化。

其次，中国AI芯片设计公司中，GPU和FPGA使用的是非先进制程节点，而ASIC既使用了先进节点，也使用了非先进节点。尽管中国在这些非先进节点上具有一定的本地制造能力，但中国的AI芯片设计公司仍然大多将这些制程节点芯片外包给了台积电，这可能反映了台积电的制造工艺更可靠。

这是因为中国大陆的先进半导体设备生产水平比较有限。另外，中国的人工智能芯片设计公司也依靠美国EDA软件。因此，中国仍然要依赖美国及其盟友才能实现AI芯片生产。

中国已经在人工智能推理方面取得了巨大成功，因为中国拥有大量受过良好教育的工程师，他们非常适合在特定芯片上实现极佳性能的劳动密集型设计任务。然而，考虑到中国相对年轻的人工智能芯片设计行业，中国公司尚未掌握实现GPU和FPGA更大优化空间和更高复杂性所需的隐性知识（know-how）。

中国在AI芯片供应链的关键环节能力不足，包括芯片设计、EDA软件、半导体制造设备和晶圆厂，这意味着美国及其盟国在生产领先的AI芯片方面保持竞争优势。正如第七节所讨论的，领先的人工智能芯片对于开发和部署先进的、与安全相关的人工智能系统来说，具有战略价值。因此，保持这一优势对美国及其盟国至关重要。

此外，美国，荷兰和日本公司共同控制着晶圆厂使用的半导体制造设备（SME）的市场。但是，这些优势可能会消失，尤其是在中国努力建设先进芯片产业的情况下。鉴于最先进的AI芯片对安全性的重要性，美国及其盟国必须在生产这些芯片时保护其竞争优势。

推荐阅读

目录