RA8 Cortex-M85 Helium入门指南（2）

前篇回顾

RA8 Cortex-M85 Helium入门指南（1）

Helium指令集

这里介绍的是Helium的汇编语言指令集，虽然大部分程序员不会直接使用这些指令，而是通过C语言或者高级语言编程实现，但是了解汇编语言指令集，可以有如下收获：

在优化C代码时，为了确定其是否被充分地矢量化，能够审视编译器的输出以及熟悉指令集是非常有帮助的。
当调试不能正常工作的代码时，通过阅读反汇编代码去理解每一行发生了什么，对于寻找代码的问题是非常有用的。
了解指令集可能有助于编写高效的代码，甚至节省功耗，尤其是在使用原语函数的情况下。

Helium指令结构和其他Cortex-M处理器中的VFP（浮点）指令结构是相似的。

Helium指令格式如下：

Helium指令都是以字母V开始的，然后跟着如下符号，符合中的{}是可选的，<>是必须出现的：

mod：指令修饰符，可能没有，也可能是Q（saturating）饱和，H（halving）减半，D（doubling）加倍，R（rounding）四舍五入中的一个。
op：具体操作，例如ADD（相加），SUB（相减），CMP（比较）等。
shape：有些指令中，可以选择性的指定L（long）或N（narrow），这是 “形态” 相关的修饰符。
L：Long表示输入元素在操作前会被扩宽。1个8位的元素可能会被扩宽为16位或32位，或者1个16位元素被扩宽为32位。
N：Narrow表示输入元素在操作前会被压缩。
extra：有些指令中的特定修饰符，可能是T（top），B（bottom），A（accumulate），X（exchange）或者V（across）中的一个。
cond：此处指定的条件仅适用于VPT（Predication）模块。可能是T（Then）或者E（Else）。
.dt：数据类型，可能是F（float）浮点，I（integer）整数，S（signed）有符号，U（unsigned）无符号。
dst：目标寄存器，可以是通用寄存器（R）或者矢量寄存器（Q）。
src：源寄存器，可以是通用寄存器（R）或者矢量寄存器（Q）。
rot：旋转，用于一些操作复数的指令。

下面给出一条指令示例展示：

VLDRW.U32 Q0, [R0]

该指令中的首字母是V，表示这是一条Helium（或是Neon，或者浮点）指令，LDR表示寄存器从内存加载内容，W表示按字大小操作，<mod>，<shape>，<extra>都为空，数据类型是U32，无符号32位整数。加载的目标是128位寄存器Q0（矢量寄存器），源是标量寄存器R0指向的内存地址。该指令表示将从R0存储的地址中加载4个32位宽的数据到Q0寄存器中。

Helium指令分类如下：

Helium编程方式

Helium编程方式目前来说，一共4种。

矢量库
自动矢量化
原语函数（intrinsics）编程
汇编指令编程

矢量库

目前，ARM CMSIS DSP和NN是已经对Helium优化好的Helium矢量库。使用矢量库来进行Helium编程，是最简单的方法。

CMSIS DSP是数字信号处理函数库，具有针对8位整数，16位整数，32位整数和32位浮点数的不同函数，提供了丰富的函数，包括基本数学函数，复数数学函数，滤波器函数，变换函数，矩阵操作函数，电机控制函数，插值函数，统计函数等。该库包含了这些函数的Helium优化版本，并不断更新迭代中。
CMSIS NN是神经网络函数库，以最小的内存开销针对Cortex-M处理器优化的软件内核，同样地，这些函数也可以利用Helium得到最优性能。

CMSIS矢量库中的函数代码有3个C预处理器定义来选择Helium版本。

#define ARM_MATH_HELIUM
#define ARM_MATH_MVEI       //支持整型Helium
#define ARM_MATH_MVEF       //支持浮点型Helium

比如CMSIS DSP中的 arm_clip_f32函数，可以看到该函数已经使用了Helium原语函数。

比如CMSIS NN中的arm_nn_lstm_update_cell_state_s16函数，可以看到该函数使用了Helium原语函数。

当使用矢量库的时候，不同编译器中的MVE设置

Keil MDK 5（5.38以上版本）

在图标“Options for target”中选择“Target”页面中的“Vector Extensions”,通过下拉列表选择

“Not Used”（不使用helium，即宏ARM_MATH_HELIUM没有被定义，使用标量相关函数）。
“Integer”（宏ARM_MATH_HELIUM和ARM_MATH_MVEI被定义，使用整型Helium）。
“Integer + Floating Point” （宏ARM_MATH_HELIUM，ARM_MATH_MVEI和ARM_MATH_MVEF被定义，使用整型和浮点型Helium）。

IAR EWARM（v9.40.1以上版本）

自动矢量化

自动矢量化就是编译器在C/C++代码中自动检测到可以使用Helium指令并执行优化的过程。优化后的代码在速度和尺寸方面可能与手工优化的汇编代码或包含原语函数的C代码一样高效，这只需要很少的时间去编写和调试代码，而且无须对目标微架构有详细了解。C代码也更有可移植性。

如下面的代码，这是一种很常见的普通写法，一个for循环里面做一些逻辑判断处理。

通过使用自动矢量化后的反汇编代码如下，红色框部分的代码里面已经出现了Helium的汇编指令。

自动矢量化和编译器的优化等级设置有关，当Arm Complier 6和LLVM编译器的优化等级为-O2或者更高时，自动矢量化默认使能，在MDK Arm Complier 6中可以使用“-fno-vectorize”选项可以禁止自动矢量化。当优化等级为-O1时，自动矢量化默认禁止，使用“-fvectorize”选项可以使能自动矢量化，当优化等级为-O0时，自动矢量化总是被禁止。其他编译器的行为可能不同，具体可以查阅对应的文档。