IAR 编译优化等级详解

1.编译时优化器何时介入

2.编译优化等级汇总

3.优化项解读

3.1 代码移动

3.2 函数内联

3.3 循环交换

3.4 循环展开

3.5 公用表达式消除

3.6 链接阶段的优化

4 小结

大家好，这里是快乐的肌肉。

最近在迁移工程到IAR编译器上，发现编译优化等级变成了Low\Medium\High等，这与之前GCC优化等级-O1\2\3等有什么不同呢？

因此简单总结一下。

1.编译时优化器何时介入

首先回顾一下编译原理，编译器首先通过解析器把C代码生成中间代码，紧接着将中间代码通过代码生成器生成汇编代码，然后由汇编器Assmber将汇编代码转换成目标机器码，最后通过链接器Linker将所有的目标机器码链接成elf格式等的可执行二进制代码文件，如下图：

而所谓的优化也就是在每个过程中例如中间代码生成、汇编代码生成、机器码链接等等进行size、运行速度等不同方向上的优化，如下图所示：

2.编译优化等级汇总

这里将GCC和IAR的优化等级进行汇总。

以GCC的优化等级为例，具体的优化内容主要包括：

O0：几乎不优化，目的是减少编译时间，保证代码调试顺畅；
O1：编译器优化代码大小和执行时间，但是不执行任何需要大量编译时间的优化。简单的包括分支优化、堆栈调整、常量合并等等
O2：执行大部分优化，但不会考虑时间和空间互换的优化，它在O1等级基础上增加了新的优化项，包括函数对齐、窥视孔优化等；
03：在O2基础上，新增函数克隆、循环交换等；
Os：专门为大小进行优化，该优化方式采用了O2除增加几个代码大小(如函数对齐等)的全部优化项；
Ofast：采用O3全部优化项，为运行时间做优化；
Og：提升调试体验，在保持快速编译和良好调试体验的同时提供合理的优化级别；比O0好一点

在IAR的编译优化选项里，总共提供了4个优化等级：None、Low、Medium、High；针对High等级又分为了不同子优化选项：Balanced、Size、Speed，如下图：

经测试，

None、Low只会做无用代码、冗余标签、冗余分支消除等优化，适合调试；

Medium主要优化代码逻辑、公共子表达式消除等，如下图：

High则几乎勾选了所有优化项，如下：

向量化仅在 High -> Speed有效。

经IAR Help文档总结每个等级优化项如下：

所以接下来，我们来逐步解析上述优化项具体含义。

3.优化项解读

3.1 代码移动

代码移动，移除了循环中不变表达式和公共子表达式的求值，以避免重复求值。这种优化在中等及以上优化级别执行，通常会减少代码大小和执行时间。例如代码

uint8 a=100；
while(a>0)
{
    b= x+y;
    if(a % b == 0)
    print(“a= %d；b=%d”,a,b);
    a--；
}

这种情况很明显，b=x+y，只需要在最开始计算一次就可以了，如果我们静态代码review不仔细，编译器就会帮我们把b=x+y移出循环，以减少程序计算和内存访问次数；当然这个只在Medium及以上优化等级出现。

3.2 函数内联

调Vector代码的时候，经常遇到local inline的函数调不了，有时候发现即使去掉inline修饰，仍然打不了断点，现在想可能就与这个优化等级有关。

所谓函数内联，就是编译时把已知的函数集成展开到调用者的函数体中，以消除调用的开销，但可能会增加code size。

一般来说，要看内联是否成功，需要把hex、elf等反汇编出来，如下图：

3.3 循环交换

更改循环顺序，利用循环体里的cache使用效率，同时允许进一步循环优化，例如向量运算的时候，代码如下：

for (int i = 0; i < N; i++)
    for (int j = 0; j < N; j++)
        for (int k = 0; k < N; k++)
            c[i][j] = c[i][j] + a[i][k]*b[k][j];

开启循环交换优化后，代码优化如下：

for (int i = 0; i < N; i++)
    for (int k = 0; k < N; k++)
        for (int j = 0; j < N; j++)
            c[i][j] = c[i][j] + a[i][k]*b[k][j];

可以看到，k和j进行了交换，为啥会做这种优化？这是因为涉及到cache的空间局部性原理，我们来看：

在原代码里数组b[k][j]的访问顺序为b[ k ][ j ] -> b[ k+1 ][ j ]...，而数据是按字节顺序存储的，这个访问顺序和存储顺序不一致，导致了空间局部性差，因此编译器在优化时将k和j进行交换，使得b[k][j]的访问顺序变成了b[k][j] -> b[k][j+1]...。

这在矢量运算里可以有效提高cache命中率和使用性能。

3.4 循环展开

循环展开意味着循环的代码体是重复的，循环的迭代次数可以在编译时确定。循环展开通过在几个迭代中平摊循环开销来减少循环开销。
这种优化对于较小的循环最为有效，在较小的循环中，循环开销可能占整个循环主体的很大一部分。

3.5 公用表达式消除

这个我最开始还没看懂是啥意思。

其实就是在编译器优化阶段，消除了程序了重复计算的一些表达式，例如代码：

y = a*b +c;
z = a*b/d;

a*b属于上述两个等式共同表达式，只需要计算一次即可，变为如下：

tempVar = a*b;
y = tempVar +c;
z = tempVar/d;

看起来很简单，但如果是计算公式非常复杂，这个优化就比较有效果了。

同样的，这个优化选项也只在medium以上有效。

3.6 链接阶段的优化

在IAR里的Linker里同样提供了一些优化选项，如下图所示：

inline small routines：内联小函数，对小函数的调用替换为函数的本体，无法打断点的定位方向又增加一个；

Merge duplicate sections：合并相同内容的只读段，保留副本，从而将对任何重复段的所有引用重定向到保留的段。

4 小结

可以看到，在IAR里这些编译优化选项基本都是针对代码性能进行优化，其中循环展开和函数内联会增加代码大小。

所以在量产阶段到底应该用什么样的优化选项，这个需要好好琢磨一下。

从MCU的Flash容量来看，对于工程项目来说优化代码大小肯定是首先考虑的，这样可以节省硬件成本；
从软件开发角度来看，对于调用频率很高的代码段甚至是源文件可以进行单独性能优化，在IAR源文件里提供了这样的配置方式：
在一些低功耗应用，例如IBS每几分钟唤醒CPU检查汽车小电瓶有没有馈电，然后CPU重新回到深度睡眠状态。这时候IBS的功耗 = CPU深度睡眠的静态功耗 + 任务运行的动态功耗之和。一般来说，动态功耗在mA级别，因此如果对于功耗要求特别高的应用，把唤醒后要执行的任务进行性能优化，也可以减少功耗。

作者：快乐的肌肉
来源：汽车MCU软件设计

推荐阅读：

更多汽车电子干货请关注汽车电子与软件专栏。欢迎添加极术小姐姐微信（id:aijishu20)加入技术交流群，请备注研究方向。

1.编译时优化器何时介入

2.编译优化等级汇总

3.优化项解读

3.1 代码移动

3.2 函数内联

3.3 循环交换

3.4 循环展开

3.5 公用表达式消除

3.6 链接阶段的优化

4 小结

推荐阅读

目录