RK1808-AI开发手记（二）人脸姿态估计porting（python）

首发：知乎
作者：张新栋

之前跟大家简单介绍过基于RK1808设备去开发和调试的基本流程，大家如果感兴趣的话，可以参考RK1808-AI开发手记（一）开篇。本文我们选取一个简单的例子来跟大家一起走一下这个流程，我们这里选取end-to-end的人脸姿态估计器来作为porting的样例。本文主要有4个讨论点，分别为：1、人脸姿态估计简介 2、上位机数值验证 3、网络模型量化 4、RK1808数值验证，大部分基于graph-level的开发流程与本文的开发流程相似。

一、人脸姿态估计简介

模型设计和算法训练部分都比较基础，输入为64x64的人脸patch，核心的特征提取部分采用的是类似resnet的网络结构，只堆叠了4-5层。网络的模型总大小为1.4MB，下图为该模型的网络结构可视化（PS：为了最高效的使用NPU，尽量还是别用DW-CONV了）：

姿态估计网络可视化

二、上位机数值验证

我们基于上述网络，freeze导出了一版pb文件，下面我们在上位机上对网络进行数值验证。数值验证核心代码：

输出的数值对应人脸角度的pitch、yaw、roll三维欧拉角，测试图例如下：

对应的ground-truth为：0.162081,-0.784058,0.013938

上位机输出的算法预测数值为：0.146407，-0.7542514，0.00680137

三、网络模型量化

含NPU的设备内置int8运算的ip单元，一般都会提供post-train quantization toolbox给用户进行模型转换。同样的，瑞芯微也提供了对应的工具链，已于github上开源，rknn-toolkit。在进行算法网络量化的时候，一般只需要注意如下几点：

1、提供的calibration dataset尽量与训练数据同分布，或者干脆在训练数据中采样部分数据用于calibration。一般提供1k张左右的图例进行post-train quantization就可以得到不错的数值精度。关于量化的一些杂谈，之前的文章也有跟大家讨论过，可以参考谈谈MNN的模型量化（一）数学模型。

2、在NPU的项目中（rk、allwin、k210等），尽量在网络设计的时候干掉DW-CONV，该op在NPU中并没有进行很好的适配，且该op在int8下的量化数值精度经常翻车（high-level偶尔翻车，low-level大概率翻车）。我一般都会采用resnet-like的module进行小型化，速度和性能一般都要优于基于mobilenet结构的。

我们将使用瑞芯微提供的rknn-toolkit进行模型量化，下面为量化的核心代码：

我们在dataset.txt文件中提供了参与量化的图片名，跟进上图的简单代码片就可以对fp32的pb模型进行int8的量化操作。我们可以用瑞芯微提供的rknn-toolkit对量化后的rknn模型进行可视化，量化完的模型大小约为原模型的1/4，392kb。

四、RK1808数值验证

我们采用瑞芯微提供的rknn-toolkit得到了量化后的网络模型，后面我们将采用瑞芯微提供的runtime-library进行模型数值精度验证。这一步的必须的，不管是基于graph-level还是op-level的runtime-sdk，都建议大家做数值验证这一步，否则随着项目的推进，不可能的因素将堆叠的越来越多。跟RK1808的设备链接和数据传输，我这边就不赘述啦（如果是计算棒的话，可以用ssh和scp）。瑞芯微提供了native和python的两套runtime调用，我这边为了方便，采用了python接口进行数值精度的验证（后续也会有native-cpp的demo哒）。下面请看数值验证的脚本代码（该脚本为在rk1808的环境中运行的），在rk1808的python环境下单帧推理时间约为4ms：