story · 2020年06月19日

Verilog设计与逻辑综合实例解析(低功耗)

Low Power

低功耗是当今大多数芯片的关键要求。 芯片的功耗越大,设备就会越热,运行速度越慢。并且在高温下,芯片的可靠性会降低
本文讨论如何在RTL级对功耗进行优化。

在RTL编码期间可以有哪些方法降低功耗?

在芯片逻辑转换期间,CMOS电路中的任何开关活动都会产生瞬时电流,因此增加了功耗。

设计中最常见的存储元件是同步触发器,它的输出会在输入数据和时钟改变时改变。 因此,如果输入数据和时钟只有在需要时才存在或者触发就可以减少

电路信号开关活动,降低功耗。 以下总结了一些降低功耗的机制:

1、减少输入数据的切换。

2、减少触发器的时钟切换。

3、减小芯片面积,因为可以减少门/触发器的开关切换。

以下深入讨论在RTL级降低功耗的实现问题:

如何减少触发器的输入数据切换来降低功耗?

对于相对于时钟很少更新的触发器来说,应该仅在合适的时候更新触发器,避免触发器输出没有必要的更新。

这可以通过使能触发器实现,如下图所示:
619.jpg

实现使能触发器的Verilog RTL的示例如下:

module enable_ff(
  clk ,
  sel ,
  reset_n ,
  in1 ,
  out1 );
  input clk ,reset_n,sel ,in1 ;
  outpu out1 ; 
  reg out1 ;
  always@(posedge clk or negedge reset_n) begin
         if(!reset_n)begin
         out1<= 1’b0 ;
  end
  else if(sel) begin
         out1<= in1 ;
  end
  else out1 <= out1 ;
  end 
endmodule

通过遵循上述的编码风格来降低功耗是不够的,因为它有一个缺点:

尽管使用使能触发器可以减少数据切换,但是它引入了额外的逻辑到触发器的D输入,可能会增加关键路径的延迟。

另一个副作用是,会增加芯片的面积。

时钟门控如何减少功耗?

时钟门控是节省功耗最常用的机制。这种技术通过以下方式减少触发器输出的切换:

1、无需在寄存器中重新加载相同的值

2、降低时钟网络功耗。

时钟门控最常用的方法是使用锁存器和一个门,如下图:
619.bmp

clk处于低电平时,锁存器被使能。如果输入控制信号为高,则Q在时钟低电平时为高电平,并保持不变直到下一个clk的低电平。

电路中的锁存器输出很容易满足触发器的建立时间要求。当输入控制信号为低电平时,会阻止了clk的传播。这使得门控时钟网络没有任何转换活动。

一个简单的Verilog代码可以描述上述逻辑,如下:

module gated_ff(in1 , cntrl_in , clk ,reset_n , out1 ) ;
    input cntrl_in , in1 ,reset_n;
    output out1 ;
    wire gated_clk ;
    reg d_latch , out1 ;
    always@(cntrl_in , clk ) begin
        if(!clk) d_latch <= cntrl_in;
    end
    assign gated_clk = d_latch & clk ;
    always@(posedge clk or negedge reset_n) begin
        if(reset_n) begin
          out1 <= 1’b0 ;
    end
    else begin
           out1 <= in1 ;
    end
    end
endmodule

在大型设计中门控时钟都是通过综合工具完成的,无需手动实现。

此外,门控元件AND门可以根据使能的逻辑电平和触发器边沿触发类型改变。

锁存器时钟门控有哪些副作用,如何去修复?

虽然使用锁存器时钟门控是一种很好的降低功耗方法,但是它引入了**可测试性问题。**因为使用锁存器门控时钟时,时钟信号现在仅受输入控制信号的控制。在测试时,如果此信号为低,则时钟信号无法传播。

要解决上述问题,需要添加其他逻辑增强可测试性。一种方法时钟是在锁存器的输入端引入一个控制逻辑,使锁存器在扫描测试期间处于“使能”状态。如下图所示:
619.jpg
一个简单的Verilog代码可以描述上述逻辑,如下:

module gated_ff (in1 , scan_en ,clk , reset_n , cntrl_in , out1) ; 
  input scan_en , in1 ,clk ,reset_n , cntrl_in ;
  output out1 ;
  wire  gated_clk ,latch_en ;
  reg d_latch , out1 ;
  assign latch_en = scan_en | clk ;
  always@(cntrl_in , latch_en ) begin
         if(latch_en)d_latch <= cntrl_in ;
  end
  assign gated_clk = d_latch & clk ;
  always@(posedge gated_clk or negedge reset_n) begin
         if(!reset_n)out1 <= 1’b0 ;
         else out1<= in1 ;
  end
endmodule

在大型设计中,上述逻辑可以通过综合工具完成的,无需手动实现。

在RTL设计阶段还有其他的低功耗设计技术么?

1、高频信号通过尽可能少的逻辑。一些必要的逻辑在高频下运行,其余逻辑可以相对较低的频率下运行。

2、仅使用必要数量的触发器来存储数据值,即如果仅使用32位寄存器的4位,则不需要剩下的28位寄存器。通常,未使用的触发器会综合工具优化掉

3、使用芯片片选信号。来自CPU的地址不断变化,不会一直指向所有的模块。在这种情况下,最好在各个模块根据地址译码生成一个片选信号,以减少不必要的信号切换。

4、状态机选择格雷码而不是二进制编码:由于格雷码转换只有一位发生变化,因此触发器切换以及它所驱动的逻辑的切换都会减少。但是,格雷码比二进制编码需要更多的触发器。

5、使用多路复用器而不是片上三态总线,因为三态总线可能会发生总线竞争,此时会导致内部总线短路。多路复用器的选择避免了总线竞争,但会增加逻辑门的数量。三态总线还需要内部上拉电阻和更高的电流驱动。

除RTL级外,有哪些系统级技术,影响芯片的功耗?

1、降低工作电压:功耗和电压的平方成正比,在较低的电压下工作是一种降低功耗的方法。许多工艺厂商都有专为低功耗而设计的库。

2、降低工作频率:功耗和频率成正比。设计可以考虑在较低的频率下工作,然后增加总线宽度,以维持数据速率要求。例如, 100MHz的32位总线的数据传输与50MHz的64位总线相同。

3、降低走线的电容。

在后端分析阶段,可以采用哪些降低功耗的技术?

功耗和时序敏感的逻辑走线更短。因为走线电容是长度,宽度和阻抗的函数,长的走线路径通常具有更高的电容。由于动态功耗与电容成比例,即电容越低,功耗越低。所以,相互通信的逻辑块placement需要彼此相互接近

本文转载自公众号:芯片数字实验室
原文链接:
https://mp.weixin.qq.com/s/-UUNkquRhc8LGs4rhKP9zA
未经作者同意,请勿转载!

推荐阅读
想了解更多内容,欢迎关注芯片数字实验室专栏
推荐阅读
关注数
12320
内容数
221
前瞻性的眼光,和持之以恒的学习~
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息