目录
1.编译时优化器何时介入
2.编译优化等级汇总
3.优化项解读
3.1 代码移动
3.2 函数内联
3.3 循环交换
3.4 循环展开
3.5 公用表达式消除
3.6 链接阶段的优化
4 小结
大家好,这里是快乐的肌肉。
最近在迁移工程到IAR编译器上,发现编译优化等级变成了Low\Medium\High等,这与之前GCC优化等级-O1\2\3等有什么不同呢?
因此简单总结一下。
1.编译时优化器何时介入
首先回顾一下编译原理,编译器首先通过解析器把C代码生成中间代码,紧接着将中间代码通过代码生成器生成汇编代码,然后由汇编器Assmber将汇编代码转换成目标机器码,最后通过链接器Linker将所有的目标机器码链接成elf格式等的可执行二进制代码文件,如下图:
而所谓的优化也就是在每个过程中例如中间代码生成、汇编代码生成、机器码链接等等进行size、运行速度等不同方向上的优化, 如下图所示:
2.编译优化等级汇总
这里将GCC和IAR的优化等级进行汇总。
以GCC的优化等级为例,具体的优化内容主要包括:
- O0:几乎不优化,目的是减少编译时间,保证代码调试顺畅;
- O1:编译器优化代码大小和执行时间,但是不执行任何需要大量编译时间的优化。简单的包括分支优化、堆栈调整、常量合并等等
- O2:执行大部分优化,但不会考虑时间和空间互换的优化,它在O1等级基础上增加了新的优化项,包括函数对齐、窥视孔优化等;
- 03:在O2基础上,新增函数克隆、循环交换等;
- Os:专门为大小进行优化,该优化方式采用了O2除增加几个代码大小(如函数对齐等)的全部优化项;
- Ofast:采用O3全部优化项,为运行时间做优化;
- Og:提升调试体验,在保持快速编译和良好调试体验的同时提供合理的优化级别;比O0好一点
在IAR的编译优化选项里,总共提供了4个优化等级:None、Low、Medium、High;针对High等级又分为了不同子优化选项:Balanced、Size、Speed,如下图:
经测试,
None、Low只会做无用代码、冗余标签、冗余分支消除等优化,适合调试;
Medium主要优化代码逻辑、公共子表达式消除等,如下图:
High则几乎勾选了所有优化项,如下:
向量化仅在 High -> Speed有效。
经IAR Help文档总结每个等级优化项如下:
所以接下来,我们来逐步解析上述优化项具体含义。
3.优化项解读
3.1 代码移动
代码移动,移除了循环中不变表达式和公共子表达式的求值,以避免重复求值。这种优化在中等及以上优化级别执行,通常会减少代码大小和执行时间。例如代码
uint8 a=100;
while(a>0)
{
b= x+y;
if(a % b == 0)
print(“a= %d;b=%d”,a,b);
a--;
}
这种情况很明显,b=x+y,只需要在最开始计算一次就可以了,如果我们静态代码review不仔细,编译器就会帮我们把b=x+y移出循环,以减少程序计算和内存访问次数;当然这个只在Medium及以上优化等级出现。
3.2 函数内联
调Vector代码的时候,经常遇到local inline的函数调不了,有时候发现即使去掉inline修饰,仍然打不了断点,现在想可能就与这个优化等级有关。
所谓函数内联,就是编译时把已知的函数集成展开到调用者的函数体中,以消除调用的开销,但可能会增加code size。
一般来说,要看内联是否成功,需要把hex、elf等反汇编出来,如下图:
3.3 循环交换
更改循环顺序,利用循环体里的cache使用效率,同时允许进一步循环优化,例如向量运算的时候,代码如下:
for (int i = 0; i < N; i++)
for (int j = 0; j < N; j++)
for (int k = 0; k < N; k++)
c[i][j] = c[i][j] + a[i][k]*b[k][j];
开启循环交换优化后,代码优化如下:
for (int i = 0; i < N; i++)
for (int k = 0; k < N; k++)
for (int j = 0; j < N; j++)
c[i][j] = c[i][j] + a[i][k]*b[k][j];
可以看到,k和j进行了交换,为啥会做这种优化?这是因为涉及到cache的空间局部性原理,我们来看:
在原代码里数组b[k][j]的访问顺序为b[ k ][ j ] -> b[ k+1 ][ j ]...,而数据是按字节顺序存储的,这个访问顺序和存储顺序不一致,导致了空间局部性差,因此编译器在优化时将k和j进行交换,使得b[k][j]的访问顺序变成了b[k][j] -> b[k][j+1]...。
这在矢量运算里可以有效提高cache命中率和使用性能。
3.4 循环展开
循环展开意味着循环的代码体是重复的,循环的迭代次数可以在编译时确定。循环展开通过在几个迭代中平摊循环开销来减少循环开销。
这种优化对于较小的循环最为有效,在较小的循环中,循环开销可能占整个循环主体的很大一部分。
3.5 公用表达式消除
这个我最开始还没看懂是啥意思。
其实就是在编译器优化阶段,消除了程序了重复计算的一些表达式,例如代码:
y = a*b +c;
z = a*b/d;
a*b属于上述两个等式共同表达式,只需要计算一次即可,变为如下:
tempVar = a*b;
y = tempVar +c;
z = tempVar/d;
看起来很简单,但如果是计算公式非常复杂,这个优化就比较有效果了。
同样的,这个优化选项也只在medium以上有效。
3.6 链接阶段的优化
在IAR里的Linker里同样提供了一些优化选项,如下图所示:
inline small routines:内联小函数,对小函数的调用替换为函数的本体,无法打断点的定位方向又增加一个;
Merge duplicate sections:合并相同内容的只读段,保留副本,从而将对任何重复段的所有引用重定向到保留的段。
4 小结
可以看到,在IAR里这些编译优化选项基本都是针对代码性能进行优化,其中循环展开和函数内联会增加代码大小。
所以在量产阶段到底应该用什么样的优化选项,这个需要好好琢磨一下。
从MCU的Flash容量来看,对于工程项目来说优化代码大小肯定是首先考虑的,这样可以节省硬件成本;
从软件开发角度来看,对于调用频率很高的代码段甚至是源文件可以进行单独性能优化,在IAR源文件里提供了这样的配置方式:
- 在一些低功耗应用,例如IBS每几分钟唤醒CPU检查汽车小电瓶有没有馈电,然后CPU重新回到深度睡眠状态。这时候IBS的功耗 = CPU深度睡眠的静态功耗 + 任务运行的动态功耗之和。一般来说,动态功耗在mA级别,因此如果对于功耗要求特别高的应用,把唤醒后要执行的任务进行性能优化,也可以减少功耗。
作者:快乐的肌肉
来源:汽车MCU软件设计
推荐阅读:
更多汽车电子干货请关注汽车电子与软件专栏。欢迎添加极术小姐姐微信(id:aijishu20)加入技术交流群,请备注研究方向。