徽州骆驼 · 7月12日

IAR 编译优化等级详解

目录

1.编译时优化器何时介入

2.编译优化等级汇总

3.优化项解读

3.1 代码移动

3.2 函数内联

3.3 循环交换

3.4 循环展开

3.5 公用表达式消除

3.6 链接阶段的优化

4 小结

大家好,这里是快乐的肌肉。

最近在迁移工程到IAR编译器上,发现编译优化等级变成了Low\Medium\High等,这与之前GCC优化等级-O1\2\3等有什么不同呢?

因此简单总结一下。

1.编译时优化器何时介入

首先回顾一下编译原理,编译器首先通过解析器把C代码生成中间代码,紧接着将中间代码通过代码生成器生成汇编代码,然后由汇编器Assmber将汇编代码转换成目标机器码,最后通过链接器Linker将所有的目标机器码链接成elf格式等的可执行二进制代码文件,如下图:

image.png

而所谓的优化也就是在每个过程中例如中间代码生成、汇编代码生成、机器码链接等等进行size、运行速度等不同方向上的优化, 如下图所示:

image.png

2.编译优化等级汇总

这里将GCC和IAR的优化等级进行汇总。

以GCC的优化等级为例,具体的优化内容主要包括:

  • O0:几乎不优化,目的是减少编译时间,保证代码调试顺畅;
  • O1:编译器优化代码大小和执行时间,但是不执行任何需要大量编译时间的优化。简单的包括分支优化、堆栈调整、常量合并等等
  • O2:执行大部分优化,但不会考虑时间和空间互换的优化,它在O1等级基础上增加了新的优化项,包括函数对齐、窥视孔优化等;
  • 03:在O2基础上,新增函数克隆、循环交换等;
  • Os:专门为大小进行优化,该优化方式采用了O2除增加几个代码大小(如函数对齐等)的全部优化项;
  • Ofast:采用O3全部优化项,为运行时间做优化;
  • Og:提升调试体验,在保持快速编译和良好调试体验的同时提供合理的优化级别;比O0好一点

在IAR的编译优化选项里,总共提供了4个优化等级:None、Low、Medium、High;针对High等级又分为了不同子优化选项:Balanced、Size、Speed,如下图:

image.png

经测试,

None、Low只会做无用代码、冗余标签、冗余分支消除等优化,适合调试;

Medium主要优化代码逻辑、公共子表达式消除等,如下图:

image.png

High则几乎勾选了所有优化项,如下:

image.png

向量化仅在 High -> Speed有效。

经IAR Help文档总结每个等级优化项如下:

image.png

所以接下来,我们来逐步解析上述优化项具体含义。

3.优化项解读

3.1 代码移动

代码移动,移除了循环中不变表达式和公共子表达式的求值,以避免重复求值。这种优化在中等及以上优化级别执行,通常会减少代码大小和执行时间。例如代码

uint8 a=100;
while(a>0)
{
    b= x+y;
    if(a % b == 0)
    print(“a= %d;b=%d”,a,b);
    a--;
}

这种情况很明显,b=x+y,只需要在最开始计算一次就可以了,如果我们静态代码review不仔细,编译器就会帮我们把b=x+y移出循环,以减少程序计算和内存访问次数;当然这个只在Medium及以上优化等级出现。

3.2 函数内联

调Vector代码的时候,经常遇到local inline的函数调不了,有时候发现即使去掉inline修饰,仍然打不了断点,现在想可能就与这个优化等级有关。

所谓函数内联,就是编译时把已知的函数集成展开到调用者的函数体中,以消除调用的开销,但可能会增加code size。

一般来说,要看内联是否成功,需要把hex、elf等反汇编出来,如下图:

image.png

3.3 循环交换

更改循环顺序,利用循环体里的cache使用效率,同时允许进一步循环优化,例如向量运算的时候,代码如下:

for (int i = 0; i < N; i++)
    for (int j = 0; j < N; j++)
        for (int k = 0; k < N; k++)
            c[i][j] = c[i][j] + a[i][k]*b[k][j];

开启循环交换优化后,代码优化如下:

for (int i = 0; i < N; i++)
    for (int k = 0; k < N; k++)
        for (int j = 0; j < N; j++)
            c[i][j] = c[i][j] + a[i][k]*b[k][j];

可以看到,k和j进行了交换,为啥会做这种优化?这是因为涉及到cache的空间局部性原理,我们来看:

在原代码里数组b[k][j]的访问顺序为b[ k ][ j ] -> b[ k+1 ][ j ]...,而数据是按字节顺序存储的,这个访问顺序和存储顺序不一致,导致了空间局部性差,因此编译器在优化时将k和j进行交换,使得b[k][j]的访问顺序变成了b[k][j] -> b[k][j+1]...。

这在矢量运算里可以有效提高cache命中率和使用性能。

3.4 循环展开

循环展开意味着循环的代码体是重复的,循环的迭代次数可以在编译时确定。循环展开通过在几个迭代中平摊循环开销来减少循环开销。
这种优化对于较小的循环最为有效,在较小的循环中,循环开销可能占整个循环主体的很大一部分。

3.5 公用表达式消除

这个我最开始还没看懂是啥意思。

其实就是在编译器优化阶段,消除了程序了重复计算的一些表达式,例如代码:

y = a*b +c;
z = a*b/d;

a*b属于上述两个等式共同表达式,只需要计算一次即可,变为如下:

tempVar = a*b;
y = tempVar +c;
z = tempVar/d;

看起来很简单,但如果是计算公式非常复杂,这个优化就比较有效果了。

同样的,这个优化选项也只在medium以上有效。

3.6 链接阶段的优化

在IAR里的Linker里同样提供了一些优化选项,如下图所示:

image.png

inline small routines:内联小函数,对小函数的调用替换为函数的本体,无法打断点的定位方向又增加一个;

Merge duplicate sections:合并相同内容的只读段,保留副本,从而将对任何重复段的所有引用重定向到保留的段。

4 小结

可以看到,在IAR里这些编译优化选项基本都是针对代码性能进行优化,其中循环展开和函数内联会增加代码大小。

所以在量产阶段到底应该用什么样的优化选项,这个需要好好琢磨一下。

从MCU的Flash容量来看,对于工程项目来说优化代码大小肯定是首先考虑的,这样可以节省硬件成本;

从软件开发角度来看,对于调用频率很高的代码段甚至是源文件可以进行单独性能优化,在IAR源文件里提供了这样的配置方式:

image.png

  • 在一些低功耗应用,例如IBS每几分钟唤醒CPU检查汽车小电瓶有没有馈电,然后CPU重新回到深度睡眠状态。这时候IBS的功耗 = CPU深度睡眠的静态功耗 + 任务运行的动态功耗之和。一般来说,动态功耗在mA级别,因此如果对于功耗要求特别高的应用,把唤醒后要执行的任务进行性能优化,也可以减少功耗。
作者:快乐的肌肉
来源:汽车MCU软件设计

推荐阅读:

更多汽车电子干货请关注汽车电子与软件专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。
推荐阅读
关注数
5681
内容数
415
汽车电子与软件行业的相关技术报道及解读。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息