赵加文 · 2020年05月19日

程序是如何在 CPU 中运行的(三)

前言

在之前的两篇文章中,在 程序是如何在 CPU 中运行的(一)中讲述了一条一条指令和数据是如何在 CPU 中被运行的,在 程序是如何在 CPU 中运行的 (二)中以 PC 寄存器为中心,从汇编语言的角度阐述了程序是如何在 CPU 中有序执行的,该篇文章讲述流水线机制在 CPU 中的应用。

相关概念

在进入流水线的讲解之前,有必要知道两个概念,一个是指令周期,一个是时钟周期。

  • 指令周期:指令周期的意思从其名称就能看出来,就是运行一条指令的时间,笔者在该系列文章的第一篇中说到一条指令的运行能够大致分为三个阶段:取指 -> 译码 -> 执行,也就是说这三个阶段执行的总的时间就是指令周期,也可以用下面这样的一张图表示,循环的执行取指,译码,执行的周期就称之为指令周期。

指令周期

  • 时钟周期:时钟周期就是我们 CPU 的主频,也就是晶振带来的每一次“滴答”,就是时钟周期时间。

了解了这两个概念之后,我们首先来看单指令周期处理器。

单指令周期处理器

在引入流水线机制之前,先来看看单指令周期处理器,之所以称之为单指令周期处理器,是因为这样机制的处理器在运行一条指令的时候,从取指到译码到执行,不能有第二条指令的加入,也就是说如果前后有两条指令需要运行,那第二条指令的运行必须等待第一条指令运行完毕之后才能得到运行。
前文所述一条指令大致可以分为三个阶段执行,而这个过程的执行,至少都需要一个时钟周期,因为在取指的时候我们的 PC 指针寄存器在一个时钟周期的驱动下递增,从而实现下一条指令的取指,同样的,为了尽可能地提高 CPU 效率,我们也希望指令的运行能够在一个时钟周期内完成,既然所有的指令的运行都在一个时钟周期内运行,但是指令各有不同,有的指令执行的时间长,有的指令执行的时间短,因此,为了兼顾所有指令都能够得到运行,那么时钟周期就应该满足执行时间最长的指令的运行,下面展示了三条不同的指令在一个时钟周期内所占的时间。
单指令周期处理器
通过上图我们可以明显的看到采用单指令周期机制的弊端,时钟周期受到最长执行时间指令的影响,而对于执行时间较短的指令来说,又会有大部分时间处于啥也干不了的状态,浪费了资源,这样的机制虽然使得每一条指令都在一个时钟周期内就执行完毕了,但是也降低了 CPU 的主频,因为如果太高的话,有些复杂的指令就不能执行完。
基于此,也就有了流水线技术的出现。

流水线设计

流水线的概念来源于工业制造领域,可以以汽车装配为例子来解释流水线的工作方式,假设装配一辆汽车需要四个步骤:冲压 -> 焊接 -> 涂装 -> 总装,最简单的方式就是先装配一辆汽车,装配完一辆之后,在装下一辆,这样的方式就类似我们上述讲的单指令周期处理器的工作方式。所以为了使得工作效率提高,人们提出了流水线的工作方式,也就是说当第一辆汽车装配到第二道工序(焊接)的时候,第二辆汽车开始第一道工序(冲压),这样也就不会使得第一辆汽车装配完了之后才装配第二辆汽车,大大地提高了工作效率。
那么 CPU 又是如何以流水线机制运行的呢?我们在前文一直在涉及到一个概念,就是说一条指令的运行大致可以分为三个阶段:取址 ->译码 -> 执行,在这里我们将其再进行细分,因为在整个的执行过程中,还包括从寄存器或者内存中读取数据,通过 ALU 进行计算,再将结果写回到寄存器或者内存中,所以,也就是说一条指令的运行也可以细分为五个阶段,如下图所示:
指令执行过程
这细分的各个步骤就像汽车装配的各个工序,在单指令周期中,必须等一条指令运行完上述所有的步骤之后,才进行下一条指令的运行,但是引入流水线之后,当第一条指令执行到第二个步骤(译码)的时候,第二条指令就可以执行第一个步骤(取指)了,详细地运行步骤如下图所示:
流水线执行示意图
通过上图可以很清楚地看到指令流水线的执行过程,这里要指出的一点是由于上图将一条指令的执行过程拆分成了五个步骤来执行,所以上述所示的流水线也被称之为五级流水线,在图中我们可以看到取指和译码两个步骤不是紧挨着的,这是因为译码这个步骤执行的时间要短于取指执行的时间,所以在执行译码之前要等待一会儿。另外,图中,笔者用红色箭头标注了一个时钟周期所对应的指令,可以看到在这个时钟周期里运行着五条指令的不同阶段。因此,对于五级流水线的定义也可以是这样的:五级的流水线,就表示我们在同一个时钟周期里面,同时运行五条指令的不同阶段。至此,关于流水线的基本概念就介绍完了,下面,我们来看一下,使用流水线相和单指令周期运行同样的指令的差异。

单指令周期和流水线的比较

首先,我们看这样一个例子,我们顺序执行三条指令:

  1. 一条整数的加法,需要 200ps
  2. 一条整数的乘法,需要 300ps
  3. 一条浮点数的乘法,需要 600ps

根据前文所述,单指令周期处理器的时钟周期取决于执行时间最长的指令,在这里也就是 600 ps,那么在单指令周期下三条指令的执行过程是这样的:
单指令周期执行示意图
通过上图我们可以看到收到最长执行时间指令的影响,现在的时钟周期为 600ps,并且由于是单指令周期,指令的执行必须执行完第一条之后才能执行第二条,因此,执行完三条指令的时间是 1800 ps。
我们接下来看有流水线技术后,指令的执行时间是多少,为了使得图更加直观,这里采用6级流水线,时钟周期定为 100 ps,执行示意图如下:
流水线执行示意图
通过上图可以看到流水线技术的引入使得指令的运行不必等待上一条指令完全执行完才执行下一条指令,从花费的时间上看 6 级流水线执行三条指令花费了 800 ps,而单指令周期处理器却花费了 1800 ps,可见差距是巨大的。

嵌入式处理器流水线

上述便是关于单指令周期和流水线的大致内容,那在嵌入式中常用的处理器又是怎么一回事呢,我们拿我们经常接触的 ARM Cortex M3 的处理器来说,下图是笔者在权威指南中看到的一张图:
Cortex-M3 的三级流水线
从图中我们可以看到,Cortex-M3处理器是三级流水线,在指令的运行过程中,处理器将其分为 取指 -> 译码 -> 执行 三个步骤。而我们常见的 51 单片机在运行时是没有流水线的,也可以理解为单流水线。

总结

上述就是关于流水线技术和单指令周期的相关内容,当然这只是很小的一部分,真实的处理器上的流水线远远不止如此,还会涉及到其他的处理,比如分支预测,乱序执行等等,详细系统的知识还得学习计算机组成原理的相关内容,这次的分享就到这里啦~

最后,如果您觉得我的文章对您有所帮助,欢迎关注我的个人公众号:wenzi嵌入式软件
公众号名片

推荐阅读
关注数
46
内容数
16
分享嵌入式软件相关的知识,主要包含单片机,C语言,RTOS的相关内容
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息