内容来源：2022年11月12日，由边缘计算社区主办的全球边缘计算大会·上海站圆满落幕。我们非常荣幸邀请到了上海矩向科技有限公司CEO黄朝波黄总来分享，黄总发表了主题为《超异构融合：边缘计算腾飞的契机》精彩演讲。
分享嘉宾：矩向科技黄朝波
整理编辑：东北大学郑童
出品：边缘计算社区

黄朝波：今天，很荣幸到这里跟大家分享我们对边缘计算和超异构融合的一些看法。首先给大家介绍一下今天分享的内容，分五个部分。第一部分先介绍一些计算和算力的相关概念，然后介绍一下目前计算架构面临的各种挑战，第三部分介绍计算会从异构走向超异构，以及行业TOP公司的一些相关趋势案例，接下来介绍为什么现在发展超异构计算，而不是过去也不是未来，最后介绍超异构融合如何助力边缘计算的发展。

1、微观计算和宏观算力

第一个就是大家非常熟悉的冯诺依曼架构。说个笑话，怎么把大象装进冰箱？第一步打开冰箱门，第二步把大象放进去，第三步把冰箱门关上。其实计算也是一样，系统由输入、计算、输出三部分组成。

图1-冯诺依曼架构

冯诺依曼架构由控制器、运算器、存储器、输入设备和输出设备五部分组成。所有各类处理引擎都依然遵循冯诺依曼架构的指导思想。

第二个是我们非常熟悉的摩尔定律。上世纪八九十年代，CPU的性能每18个月性能就会翻倍，这就是著名的摩尔定律。

图2-摩尔定律

2015年之后，随着CPU性能走到极限，目前大概每年只能提升3%左右，要想性能翻倍需要20年时间。基于CPU这样的处理器性能的摩尔定律已经失效，但是换一个视角来看，因为我们的计算，我们的业务，我们的场景需求不断推升我们对性能要求的时候，性能的要求是永无止境的。因此，摩尔定律作为一个行业的KPI是永远有效的，它促使行业一直往前发展。如果一个公司或产品能够做得比摩尔定律好，就能够生存，如果做得比摩尔定律差，则只能走向消亡。

第三讲一下什么是软件，什么是硬件。指令是软件和硬件的媒介。指令集之下的CPU、GPU、各种加速器是硬件；指令集之上的程序，数据集，文件等是软件。我们可以依据指令的复杂度，把处理器从左往右排一个序。最左边是CPU，最右边是ASIC。最左边最灵活，性能相对来说最差；最右边最不灵活，性能相对来说最好。我们把CPU上的运行称之为软件运行，其他处理器加速引擎上运行的称之为硬件加速运行。

再看一下性能和算力的关系，性能是相对微观的概念，算力是宏观的概念，性能和算力本质上是统一的。所以我们给了一个非常粗略的计算公式，实际的总算力等于单个处理器性能乘以处理器数量再乘以利用率。要想实现算力的提升，仅仅提升单芯片的能力是不够的。还需要让芯片大规模落地，与此同时芯片所组成的算力系统要有非常高的利用率才可以。也基于此，这三个参数形成了我们对算力优化的三个层次，也就是微观、中观和宏观。微观层次要提升性能有三种方法，工艺提升、Chilpet直接封装，还有系统架构和微架构的创新。中观层次，芯片层次怎么去支撑芯片大规模落地，怎么去大规模复制这样一个系统。再往更上面是宏观，怎么驾驭算力，算力如何形成一个非常大、用户好用的算力资源池子，用户能够充分利用算力资源池形成各方面加速化的应用，都是些非常有挑战的事情。

接下里，我们来看万物互联。我们可以把它说得简单一点，只有三个层次，云、边、端。这里把网络忽略了，网络是另外一个相对更复杂的话题。终端是我们物理世界和虚拟世界的一个交互点，所有的东西都通过终端去连接。云端相当于我们的大脑，进行集中式的决策分析。边缘端是代理层，代理云端为终端去提供服务。

图3：计算节点的分类

我们把计算的节点按照上图3来划分。终端大概有四个层次的节点，最简单的是小规模MCU层次，其不需要安装操作系统。往上是高性能MCU，需要RTOS。再往上就像手机、Pad、平板电脑，需要运行操作系统来跑我们各种各样的应用。再往上，我们需要让很多系统共同地运行同一个平台，目前最典型的场景就是自动驾驶，形成多域融合的一种架构。在云端，服务器会有很多分类，通用的，异构的，存储的，网关的等等。这里需要提一个概念——用户运行环境。因为底层的基础设施做好之后，用户的东西需要在上面运行。当然，边缘也分为两个层次，一个是近云的边缘和近终端的边缘。两者最大的区别就是是否支持多租户运行，是否是多个不同混合系统的运行。

2、计算架构的发展现状和面临的挑战

接下来介绍第二部分，目前计算的架构的现状和我们面临的挑战。我们大家都知道，最开始处理器CPU是单核的，宏观来看指令都是串行执行的，后来有了多核，所以有了并行计算。同构的并行也不够，因为它的性能还是存在一些问题，就有了异构并行。异构并行目前有三个典型的类型，一个是基于GPU的异构，一个是基于FPGA的异构，一个是基于DSA的异构。异构计算目前更多地应用在弹性的应用层次异构的场景，弹性体现在哪里？首先体现在一个硬件的加速引擎，能在很多场景，很多领域去用。另外一个弹性的点是指一个硬件的加速引擎，我可以给用户A用，可以给用户B用，也可以给用户C用，可以是分时的甚至是同时的，对弹性要求非常高。当然，异构可以是独立的异构芯片也可以是集成的异构处理器。

图4-GPU服务器

异构的案例最经典的就是用于AI场景、各种大数据分析的GPU服务器。异构还有很多其他典型的案例，比如国防科大的天河巨型机，首次把异构计算用在超算领域；还有各种AI处理器。现在的GPU的优势是它的灵活性非常地好。在目前最典型的AI场景来说，GPU是最合适的计算平台。它的劣势在哪里呢？它的性能效率还不是最优的，还有更优的，但是更优的也有它的问题所在，所以GPU目前是最合适的。

基于此，目前遇到的最大的问题其实是CPU的问题，是从CPU性能瓶颈开始引发的连锁反应。这里提一个复杂计算的概念，通俗易懂地讲，复杂计算就是需要支持虚拟化，需要支持多租户多系统运行的计算场景。在我们的工作中发现，在云计算、边缘计算以及超级终端的复杂计算场景，对灵活性的要求远高于对性能的要求。举个最直接的例子，如果CPU的性能够用，大家绝对不喜欢用各种加速。CPU通用灵活性是最好的，但是如果CPU性能不够，就不得不去运行各种加速。实践证明了在提升性能的同时，一定不能损失系统的灵活性。言下之意就是目前很多芯片的优化方案，特别是AI芯片等加速芯片的优化方案损失了灵活性，这也是目前行业的痛点之所在。

总结一下异构计算存在的问题。刚提到的复杂计算矛盾点在于，一方面系统越复杂越需要灵活性，另一方面对性能要求越高，反而要定制的专用的加速器。矛盾的本质核心在哪里呢？我们认为是在单一的处理器无法兼顾性能和灵活性，要么是优先考虑灵活性，要么优先考虑性能，两者之间很难做到兼顾，只能去平衡它。要想兼顾它，怎么办？是要多异构混合，也就是大家相互协同。举一个案例，我们的异构计算核心的整个特征是由异构的处理器决定的。GPU性能不够，DSA的灵活性差了一些，FPGA功耗和成本高，ASIC在复杂计算场景完全不可用，还有计算孤岛的问题。

图5：服务器的架构演进示意图

如图5所示，最开始都在CPU里面算，除了性能之外没有其他问题。后来有了各种加速，最后发现CPU成为问题的瓶颈。最后有了DPU，部分解决了问题，因为DPU可以做I/O的加速。但是DPU没有本质地解决问题，需要整个系统更充分地互联，每个处理器跟别的处理器都能够更加充分高效地交互。在后面我们会给出一个答案。

3、计算从异构走向超异构及相关趋势案例

第三部分，给出我们的观点，计算需要从异构走向超异构。与此同时，我们也介绍了一下英特尔和英伟达相关趋势的案例。

第一步，我们首先在思考，为什么超异构这件事情能够成立呢？

①因为现在计算超大的规模，因为有了规模之后很多东西会沉淀下来。②复杂的系统其实是由分层分块的东西组成，分层分块之后，底层相对更加通用一些。③这里就会呈现出二八定律。

基于此，我们把系统分为三个层次，一个是最底层的基础设施层，一个是上层的应用层。基础设施层是相对最确定的，应用层是相对最不确立的。中间的就是应用层可以剥离出来的可加速的部分。我们分为这三个层次。

图6：超异构计算有机整体

计算就开始从异构走向超异构。我们再来看计算的四个阶段。第一个阶段是单系统串行，第二个阶段是同构并行，第三个阶段是异构并行，第四个阶段是超异构并行。图3是一个示意图，把这些东西充分地互联在一起。每一个处理引擎之间都是可以点对点互联的、充分的数据交互的。

接下来看一下案例，超异构这个概念是英特尔提出来的。我们在网上找到的最早的资料是2019年Intel中国研究院院长宋继强先生提出来的，但是目前Intel还没有超异构相关的产品出来，或者说目前都是偏组件的产品。其提出XPU和oneAPI，XPU包括CPU、GPU、FPGA和其他的加速器，然后在XPU上通过oneAPI把应用跨不同的平台去运行。

再就是Intel所做的IPU基础设施处理器，对应英伟达的DPU。它的最核心特点是支持P4可编程包处理DSA、RoCEv2，在IPU基础上做了一个IPDK框架，它是一个完全open的接口，完全开源的框架，因此形成了一个超异构的生态，非常有价值。基于此Intel跟Linux基金会成立了OPI联盟。这里面有一个非常重要的点，如果超异构由底层的DSA中间的GPU和上层的CPU共同组成的话，其中CPU生态和GPU生态已经存在，最关键的点在于底下的DSA，即基础设施层生态。因此，谁把握了这个生态，谁就是未来最大的赢家。我们对Intel的超异构进行了分析。首先其各类引擎是成熟的，只是缺乏整合。接下来怎么把这个东西整合成一个超异构，跨平台已经有了XPU和OneAPI，可编程是Intel提出的可编程网络，我们把这个概念扩展一下，网络可编程、计算可编程、存储可编程，一切皆可编程，这是Intel的整体战略。

对于英伟达的一些做法，其在9月份刚刚发布了Thor芯片，终端的自动驾驶芯片，达到了2000 TFLOPS算力，这个算力非常恐怖，能把多个域控制器的能力集中到一起，单芯片解决问题。在自动驾驶终端目前最大的趋势是从数以百颗的ECU到数十颗的DCU，再到功能融合的超级单芯片，该趋势很明显。图7为Atlan架构示意图，Thor是Atlan的升级版。大家可以清晰地看到里面就是CPU、GPU和DPU共同组成的，而且这个架构和云端的架构一模一样，区别只是规格有所不一样而已。这不是一个SOC，SOC是单系统，而Thor是多系统混合的平台，而且它的算力灵活性、弹性能力远高于SOC。NVIDIA在数据中心目前已经有CPU加GPU的集成芯片，也将有DPU加GPU的集成芯片，在终端已经完成了整合的过程，在数据中心这个事情也是可预见的。

图7：Atlan架构示意图

最后讲一下英伟达目前对未来走势的看法，这个观点是很多英伟达多位技术专家的看法整理而来。他们认为计算和网络不断融合，计算的许多挑战需要网络的协同，网络同时也是计算机，其加入到计算集群成为计算的一部分。数据是在网络中流动，计算设备是网络中的一个数据处理的节点而已，这样所有设备都是DPU。以DPU为基础，不断融合CPU和GPU的能力，就变成了我们所认为的超异构处理器。这个观点说明，英雄所见都是略同的。

4、为什么是现在

我们从几个大的背景来说明为什么是现在来做这件事。

第一个就是新应用层出不穷，前几年的自动驾驶、区块链，现在的元宇宙，AI已经是很多年前的概念了。两年一个新热点，已有的热点仍在不断演进。也因此，系统对我们而言，一直处于变化中。面对变化，我们需要开发高度灵活的，并且还需要性能数量级提升的芯片系统。

再然后就是算力需求永无止境，永远不会有够用的时候。任何时候，都是硬件制约了软件的想象力。Intel一位VP说，元宇宙需要千倍的算力提升。这里举两个案例，一个是VR头盔，如果要实现沉浸感的16K效果，需要280Gbps的带宽，目前的网络、计算、存储基础设施都无法处理这么高的数据量。还有一个就是智能AI，现在AI模型越来越大，单个AI的算力要求也是迅猛增加，并且元宇宙对数字人的数量要求也很庞大，这对算力的要求是及其恐怖的，目前的算力基础设施还很难达到。

还有工艺和封装的进步，像最新的Chiplet技术，可以让计算规模成数量级的提升。Chiplet和超异构可以说是天生一对，超异构需要成规模提升的算力，刚好Chiplet提供了这样的能力。反过来，Chiplet需要更高的价值去变现，现在Chiplet只能百分比或者线性地提升性能，而超异构可以指数级地提升性能，让Chiplet价值最大化。。

还有超异构驾驭的问题，异步编程很难，超异构编程是难上加难。可以利用软件融合方便地提高灵活性、可编程及易用性、产品弹性。通过软硬件融合驾驭超异构，可以实现超异构的顺利落地。

5、超异构融合，助力边缘计算腾飞

最后，呼应我们今天的主题，边缘计算。这里谈一下我们对边缘计算的看法，可能有不对之处，请大家多指正。我们认为边缘计算和CDN很像，区别在于CDN是只读的。边缘计算不是，数据到本地之后需要计算，然后再同步的云端，导致的数据一致性和冲突问题会非常恐怖。

还有云网边端融合挑战，一切皆服务，未来云端也好，边缘端也好，终端也好，网络端也好，微服务都可以随意运行。这样，计算的资源就形成庞大的统一计算池。云网边端，面临的算力是异质的，架构形态不一样、尺寸也不一样，这些都是需要去打通的。

总结一下边缘计算的特征。边缘计算是典型的复杂计算场景，其需要支持轻量的IaaS，需要支持容器，更关键的是边缘计算是一个Serverless，并且服务具有显著的可移动性，比如无论汽车开到哪里，提供的服务都一定是跟以前一模一样。还有一个更核心的问题，就是边缘侧对性能和成本更加敏感。

基于此，我们认为服务器的架构演进，如图8，复杂计算场景，其架构演进趋势是：从合到分，再从分到合。最终要形成的是网状的超异构算力。图的右边是详细的服务器架构演进，左边是一个示意图。未来，数据中心会重新走向融合型单芯片解决方案，即超异构处理器。

图8：服务器的架构演进

那么，超异构芯片大概有哪些功能，通俗地来说就是现在的DPU、GPU和CPU功能的集合。如图9所示，最底下是一些服务，上面是虚拟化的管理、弹性存储、弹性网络还有安全。再往上弹性计算，AI，其他的加速。这就是支撑VM、容器、函数计算的一个平台，并且计算过程中，一些敏感性能的东西也能够放到底下的弹性加速里面对它进行加速。