罗风 · 2021年04月22日

人工智能的芯片江湖(3)-独孤求败

对物理化学领域的世界顶尖科研工作者来说,梦里三生三世,十里桃花,皆是诺贝尔奖的一颦一笑;那么,对计算机领域大神们,则是知否知否,应该如何通过图灵大师的问答;

2017年  国际计算机学会(Association for Computing Machinary,ACM)提名斯坦福大学前校长约翰·L·轩尼诗(John L. Hennessy)以及加州大学伯克利分校退休教授大卫·A·帕特森(David A. Patterson)为2017年度ACM图灵奖获得者;

图灵奖项名单一出来,几乎所有人都认为,Hennessy和Patterson实至名归;作为计算机体系结构的两尊大神,也是芯片江湖的独孤求败;如果给这两个人写一个墓志铭,那么就是:

一:创办了一个门派(RISC),

二:撰写了一本秘籍(计算机体系架构-量化研究方法)

当年,在整个江湖,(从大型机到个人计算机)中使用的CISC(Complex Instruction Set Computing,复杂指令集计算)体系结构,在那个时候,复杂指令集(CISC)是主流的指令集架构。然而,随着RAM技术的发展,RAM速度越来越快,成本越来越低,因此在处理器上集成指令缓存成为可能。RISC的出现可谓水到渠成。研究发现计算机执行大多数程序时CISC指令集中绝大多数指令都只在极少的时间才被用到,因此专门为这些指令设计硬件并不划算。相反,使用精简指令集(RISC)可以大大简化硬件的设计,从而使流水线设计变得简化,同时也让流水线可以运行更快。

轩尼诗(Hennessy)和帕特森(Patterson)的提出RISC使整个业界认识到,原来处理器还可以这么玩。定长的指令结构,尽可能单周期的操作(也有多周期的操作),简洁的操作码和操作符,更简单的访问存储的结构,RISC带来更高的运行频率,看起来就像贝多芬的协奏曲一样和谐;

他们不但是理论的开创者,也是产业化的先锋,他们创办了MIPS,MIPS后来被Silicon Graphics收购,其处理器与斯坦福大学James Clark开发的定制图形相结合,为好莱坞在上世纪80年代末和90年代所依赖的高性能图形工作站提供了动力。

如今,师承他们衣钵的ARM一统嵌入式处理器的天下;如今形成了处理器移动端/嵌入式的ARM(RISC)和PC端/服务器端的intel(CISC)两强相争,楚河汉界的局面;(后续专门介绍RISC和CISC的恩怨情仇,此不展开);实际上intel的CISC指令集已经借鉴RISC的思想,在微码结构上也采用的RISC;

另一个使这两位大使的封神之路,是这本武林秘籍的出版;第一部《计算机体系结构:定量方法》(ComputerArchitecture:A QuantitativeApproach);他们两人开始合作,创建了一个系统的定量方法来设计更快,更低的功耗和降低复杂性的微处理器;计算机体系结构学科的里程碑式教科书。现已出版第六版,为几代架构师确立了经久不衰的量化研究方法。

WeChat Image_20210422104956.jpg

Hennessy和Patterson的一生事业都钟情于计算机体系结构,致力于一个更为简洁和解决问题的体系结构;先是RISC;Patterson 老爷子近年来参与和领导的RISCV 又进一步,将整个指令集开源,可以调动更多的智慧和厂家来参与到开源的处理器架构中来,简洁,开源;

四十年间,处理器性能以每年1.4倍的速度指数上升,目前性能相比于四十年前改进了约一百万倍。在处理器架构角度,最大的进步包括位宽(由八位进化到了六十四位),指令级并行度(从最初每条指令需要4-10个时钟周期执行到现在每周期可以同时执行超过4条指令,这是10-20倍的改善),以及多核架构(由单核演化到32核)。从性能角度,时钟频率从3MHz进化到4GHz。这一切都是因为集成电路生产工艺进化为基础的。摩尔定律使得处理器晶体管数持续上升,但是因为晶体管功耗和晶体管面积缩小的速度基本相同,因此在前40年间芯片单位面积的功耗基本不变。

随着摩尔定律的趋于终结,功耗墙,存储墙,频率墙,如今的处理器应对新问题的越来越力不从心,而又不能给处理器保温杯里泡枸杞(泡冷水还有些用);面对AI的新应用,Hennessy和Patterson又开始给业界提出了DSA(Domain Specific Architecture,领域定制架构),与通用处理器不同的是,DSA专门解决一类问题;用马克思主义哲学的话,就是解决主要矛盾;而CPU就是眉毛胡子一把抓,什么都干,什么都干不好;

例如在AI芯片领域,卷积或矩阵的乘法,池化,非线性操作,取权重等操作,那就专门设计类似的指令来做,不用使用传统的RISC ,LOAD,MOV,OP,STORE等每次只能计算很少数据的低效处理方式;

GOOGLE的TPU就是一种DSA,TPU的指令集共计有十多条指令,主要的五条指令包括

  1. 读内存:将数据从CPU的内存中读取到TPU的Unified  Buffer上。
  2. 读权重: 将weight从内存中读取到TPU的 Weight FIFO 上。
  3. 卷积/矩阵乘:  执行卷积或矩阵乘法操作。
  4. 非线性/池化 :执行人工神经网络中的非线性操作和Pooling操作。
  5. 写内存 :将结果从Unified Buffer写回CPU内存。

从给出的五条指令可以看出,TPU的指令集设计和通用处理器有很大的不同。指令需要显示指定数据在内存和片上buffer之间搬移的过程。而执行指令(矩阵乘法)直接指定了Buffer的地址,指令上并不能看到一系列通用寄存器。这是因为TPU本质上还是一个专用的处理芯片,其高性能和高效能都是建立在失去一定灵活性的前提下的。为了获得更高的性能;

WeChat Image_20210422105013.jpg

从另一个意义上说,GPU也是一种DSA,这个本身为图像处理而存储在处理器,就是应用在图像领域的领域定制架构,而CUDA就是一种非常重要的DSL(领域定制语言);

Hennessy和Patterson早年提出并致力于RISC的发展和推广,当CPU在面临今天AI处理上的捉襟见肘,他们并不抱残守缺,提出提出DSA架构,通过DSA的思想,解决人工智能芯片领域的高能效,高性能的需求;GOOGLE的TPU正可以实践DSA的架构,正所谓:重剑无锋,大巧不工;

恰恰像一个轮回,当年的Hennessy和Patterson提出了RISC建立一个新的时代,如今的DSA架构,则更像CISC;一个指令可以完成更多的操作,但早已不是旧时模样;如今的Hennessy和Patterson在体系结构上早已超脱了RISC和CISC的束缚,达到了“不滞於物,草木竹石均可为剑。自此精修,渐进於无剑胜有剑之境”。

作者:歪睿老哥
来源:https://mp.weixin.qq.com/s/hcWP8D0CLfKxIYMAdQG7nw
作者微信公众号
qrcode_verilog-2001_1.jpg

相关文章推荐

更多IC设计技术干货请关注IC设计技术专栏。
推荐阅读
关注数
20474
内容数
1311
主要交流IC以及SoC设计流程相关的技术和知识
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息