首发：GiantPandaCV
作者：ybai62868

【GiantPandaCV导语】

这篇文章为大家介绍了一下面向低功耗AI芯片上的神经网络设计，随着这几年神经网络和硬件（CPU,GPU,FPGA,ASIC）的迅猛发展，深度学习在包括互联网，自动驾驶，金融，安防等很多行业都得到了广泛的应用。然而当我们真正在实际部署深度学习应用的时候，许多场景例如无人驾驶对设备在功耗，成本，散热性等方面都有额外的限制，导致了无法大规模应用深度学习解决方案。感兴趣的同学可以了解一下有关如何面向AI芯片来设计神经网络。

一、目前算法和硬件co-design的一个大背景

从硬件方面来看，我们都知道，深度神经网络中的计算都是大量的稠密型运算。那么，当前的硬件发展其实已经很难满足这些稠密型的运算需求了。那么，设计低功耗，低成本，高性能的硬件计算部署平台就成为了当务之急。
对于算法来说，其实在某些公开的数据集上，已经有很多非常不错的算法了，但是这些算法仅仅是针对特定数据集（疯狂刷点...）而在真实的业务场景下，这些算法有时候就并不一定能表现的非常出色。这个时候，我们就要去设计那些不仅是针对一些public数据集能够表现的比较comparable的，同时在一些特定的业务场景下，也要能够表现令人满意的算法。

二、当前AI芯片的发展状况

总的来说，目前的硬件家族可以被分为两个大类。

一大类是以通用需求为主的：CPU, GPU

另一大类以特殊用途为主的：FPGA, ASIC

先有一个大体的宏观概念。然后在看看看算法和这些硬件是怎么结合的。

早期的代码都是跑在CPU上的，比如说，我们知道的LeNet，那会GPU并不像现在这么盛行。直到ImageNet的冠军Alex把网络跑到了GPU上。这个时候，大家都开始使用GPU作为自己的训练平台。其实，CPU并不能非常高效的去运行我们需要的神经网络。因为CPU的运行方式是以串行为主，并且CPU上有很多操作都是为了优化多级缓存，更加偏向的是对于数据IO处理的的能力。而这些方面的设计对于神经网络来说都是多余的。

那么，什么样的硬件结构设计才能更加满足神经网络的特性呢？

其实，这个问题上，超哥讲的很好。究竟什么样的硬件结构更加适合神经网络，还得从神经网络自身的特性来分析。

就拿我们熟悉的全连接层来讲，比如说，现在第i层的神经元和第i+1层的神经元之间是以全连接的方式沟通的，那么沟通每个神经元的运算实际上是非常简单的乘法和加法。那么在网络进行一次前向运算的过程中，硬件上能够支持乘法和加法的运算单元越多，那么此时就能够承载下更深的网络。
对于同一层上的不同神经元来说，我们需要他们能够相互独立的完成各自的运算，从这点来看，神经网络具有大规模的并行性。
不论是在网络进行前向计算还是反向计算的过程中，都会产生很多的中间计算结果。而这些中间结果并不是每个都会被复用，要能放下在网络运算过程中产生的中间结果，就需要我们的硬件有足够的带宽。对于一个理想的设备来说，它应该有比较大的片上存储，并且带宽也要足够。这个时候，对于属于的图片信息（以视觉任务为主）和网络的权重才能有足够的空间来做存储。就是说要它充分的利用片上资源，减少片外的访存。
其实，在我们对一个网络进行train和inference的过程中，网络本身对于计算精度并没有我们想象的那么敏感。那么，为了能够存下更多的权重（deep的网络），我们可以使用那些比较简单的数据类型，比如说，int8，fp16。因此，这些年来，大家对于CPU+（GPU, FPGA, TPU, ASIC）这些硬件所组成的异构计算平台。

第一种组合：CPU+GPU

其实，在我们平时做实验，训练模型的过程中，用的最多的就是CPU+GPU这样的组合。

借助现有的非常成熟的深度学习框架（mxnet，pytorch，tensorflow等），我们就能非常方便和容易的完成开发。

优点：编程容易，运算力和吞吐量大。

缺点：GPU的功耗高，延迟大，部署实际的AI产品，没人会用服务器级别的GPU。

第二种组合：CPU+FPGA

这种组合方式的功耗相比CPU+GPU就要低很多。但是，对于FPGA的开发难度则会大很多。

优点：功耗低，方便落地

缺点：编程开发难度大，需要学习专用的硬件语言来支持相应的设备

第三种组合：CPU+ASIC

ASIC指的的是按照产品需求不同而定制化的特殊规格集成电路，由特定使用者要求和特定电子系统的需要而设计，制造。也就是说，ASIC在特定功能上进行了专项强化，可以根据需要进行复杂的设计，从而实现更高的处理速度和更低的功耗。那么，ASIC的生产成本就会更高！

那么其实，可以对上面讲的这些硬件进行一个归类，CPU,GPU叫做通用性芯片。ASIC叫做定制化芯片，而FPGA叫做半定制化芯片。

Google的TPU就是采用了定制化芯片的设计。

其中TPUv1采用了大量的乘法单元，有256x256个8位乘法器。片上有28MB的缓存，能够存储网络的参数和输入。同时，TPU上的数据和指令

说白了，就是将训练好的model拿来定点化做inference。

TPUv2支持了train的功能，并且也能够使用fp进行训练。

讲了这三种组合，其实如果就拿inference来说，FPGA才是合适的硬件。

各种硬件用于前向推理的优缺点

现在来看，要想设计一款适合深度神经网络的芯片，我们需要其具备什么特性呢？

支持主流的视觉任务（inference），不仅仅要支持int8，还要支持fp。
high performance，low engergy，low cost
方便开发和支持主流的DL框架

这里要提的就是地平线自己设计的BPU，它也属于ASIC的范畴。并且支持主流的CV任务。

BPU最大的特点就是设计了弹性的Tensor Core，它能够将那些对于image来说所需要的op硬件化，这些op包括CNN中常见的（卷积，池化等），从而非常高效的去执行这些操作。中间通过一个叫做数据路由桥（Data Routing Bridge）的结构从片上来读取数据，负责数据的传输和调度。同时，整个数据存储资源和计算资源都可以通过编辑器输出的指令来执行调度，从而方便实现各种算法，各种model的结构，和各种不同的任务。