Tengine armv8.2 with ncnn serializer

ncnn的模型结构+Tengine的速度，试试？
作者:圈圈虫

背景

自从arm家Cortex-A系列的armv8.2发布以来，让端侧AI推理框架开源社区比较感兴趣的也就两个点：

针对FP16计算的FMLA指令；
针对Int8计算的SDOT指令。

毕竟在CNN网络中，耗时占比最大的Operator依然是计算量繁重的Convolution乘加计算。今天暂时不讨论Int8计算的改进，让我们先来看看armv8.2架构上fp16计算单元有何神秘的地方？（说得好像大家不知道一样……）

苦哈哈的虫叔，唯一的armv8.2平台

上表中的数据为通过一个简单的Perf-test小程序，粗暴的获取高通675芯片上大小核心的不同精度峰值算力。从表中得知采用Int8 SDOT、FP16相比FP32的NEON矢量计算峰值算力分别有4倍、2倍的性能提升。看来arm的CPU也能单核上0.1Tops的算力啦……O(∩\_∩)O哈哈~

《arm-solutions-brief-machine-learning-at-the-edge-for-devices》

有理有据

为了验证测试程序是否正确，我们可以打开arm官方的软件优化手册《Arm Cortex-A55 Software Optimization Guide》求证。

好看的封面.jpg

FMLA

SDOT

看来是对的，FMLA与SDOT的Execution Throughput（吞吐率）一样了！

实践

既然这样，那么实际在推理框架中，是否能采用全部FP16计算呢？原则上是可以的，但是为了更好的保证精度，Tengine开源版本在实现时，采用Hybrid-FP16策略，即仅仅在计算核心模块（im2col+sgemm）采用FP16，而从整个网络的计算图外部观察，每个Node的输入/输出Tensor数据类型依然保持原有FP32精度

（图片）Float32 -> Cast -> Float16 -> Sgemm\_FP16 -> Float16 -> Cast -> Float32

当然，有同学就要质疑：这样做还有加速效果吗？答案是肯定的：