AVH 动手实践 (二) | 在 Arm 虚拟硬件上部署 PP-OCR 模型 - 极术社区

https://mp.weixin.qq.com/s/dQHSvLTpQV4QNvkpQ9j9fQ

本期课程，小编将以计算机视觉领域光学字符识别 (OCR) 任务中的文本识别任务为目标，带领大家动手完成从模型训练优化到深度学习应用部署的整个端到端的开发流程。你不仅会了解到如何使用 PaddleOCR 工具套件完成英文识别模型的训练与适配，还会了解到如何使用深度学习编译器 TVM 编译飞桨 (PaddlePaddle) 模型并将其直接部署在含有 Arm Cortex-M55 处理器的 Arm Corstone-300 虚拟硬件上。

百度与 Arm 的此次合作，填补了 PaddlePaddle 模型在 Arm Cortex-M 硬件上的适配空白，同时也增加了 Cortex-M 硬件上支持的深度学习模型的数量，为开发者提供了更多的选择。

项目概述

经典的深度学习工程是从确认任务目标开始的，我们首先来简单地介绍一下 OCR 中的文本识别任务以及本期部署实战课程中我们所使用的工具和平台。

1.1 文本识别任务

文本识别是 OCR 的一个子任务，其任务为识别一个固定区域的文本内容。在 OCR 的两阶段方法里，它接在文本检测后面，将图像信息转换为文字信息。在卡证票据信息抽取与审核、制造业产品溯源、政务医疗文档电子化等行业场景中应用广泛。

图 1：英文文本识别案例 (图片来源：ICDAR2015)

1.2 PP-OCRv3

如下图所示，PP-OCRv3 的整体框架示意图与 PP-OCRv2 类似，但较 PP-OCRv2 而言，针对检测模型和识别模型进行了进一步地优化。例如：文本识别模型在 PP-OCRv2 的基础上引入 SVTR，并使用 GTC 指导训练和模型蒸馏。

图 2：PP-OCRv3 系统框图

更多关于 PP-OCRv3 的特征及优化策略，可查看 PP-OCRv3 arXiv 技术报告[5]。

1.3 Arm 虚拟硬件 (Arm Virtual Hardware, AVH)

作为 Arm 物联网全面解决方案的核心技术之一，AVH 很好地解决了实体硬件所面临的难扩展、难运维等痛点。AVH 提供了简单便捷并且可扩展的途径，让 IoT 应用的开发摆脱了对实体硬件的依赖并使得云原生开发技术在嵌入式物联网、边缘侧机器学习领域得到了应用。尤其是在芯片紧张的当今时代，使用 AVH 开发者甚至可以在芯片 RTL 之前便可接触到最新的处理器 IP。

目前 AVH 提供两种形式供开发者使用。一种是托管在 AWS 以及 AWS China 上以亚马逊机器镜像 AMI 形式存在的 Arm Corstone 和 Cortex CPU 的虚拟硬件，另外一种则是由 Arm 以 SaaS 平台的形式提供的 AVH 第三方硬件。本期课程我们将使用第一种托管在 AWS 以及 AWS China 上以亚马逊机器镜像 AMI 形式存在的 Corstone 和 Cortex CPU 的虚拟硬件。

由于目前 AWS China 账号主要面向企业级开发者开放，个人开发者可访问 AWS Marketplace 订阅 AVH 相关服务。参考下图步骤创建 AVH AMI 实例。

图 3：AVH AMI 创建步骤

(访问 AWS Marketplace[6] 订阅 AVH)

端到端部署流程

接下来小编将重点向大家展示从模型训练到部署的全流程，本期课程所涉及的相关代码已在 GitHub 仓库开源，欢迎大家下载体验！

https://github.com/PaddlePaddle/PaddleOCR/tree/dygraph/deploy/avh

(位于 PaddleOCR 的 dygraph 分支下 deploy 目录的 avh 文件目录中)

图 4：端到端部署流程示意图

2.1 模型训练

PaddleOCR 模型使用配置文件 (.yml) 管理网络训练、评估的参数。在配置文件中，可以设置组建模型、优化器、损失函数、模型前后处理的参数，PaddleOCR 从配置文件中读取到这些参数，进而组建出完整的训练流程，完成模型训练。在需要对模型进行优化时，可以通过修改配置文件中的参数完成配置 (完整的配置文件说明可以参考文档：配置文件内容与生成[7])，使用简单且便于修改。

为实现与 Cortex-M 的适配，在模型训练时我们需要修改所使用的配置文件[8]。去掉不支持的算子，同时为优化模型，在模型调优部分使用了 BDA (Base Data Augmentation)，其包含随机裁剪，随机模糊，随机噪声，图像反色等多个基础数据增强方法。相关配置文件可参考如下代码。


# Example: PP-OCRv3/en_PP-OCRv3_rec.yml

Global:

  debug: false

  use_gpu: true

  epoch_num: 500

  log_smooth_window: 20

  print_batch_step: 10

  save_model_dir: ./output/rec

  save_epoch_step: 3

  eval_batch_step: [0, 2000]

  cal_metric_during_train: true

  pretrained_model:

  checkpoints:

  save_inference_dir:

  use_visualdl: false

  infer_img: doc/imgs_words/ch/word_1.jpg

  character_dict_path: ppocr/utils/en_dict.txt

  max_text_length: &max_text_length 25

  infer_mode: false

  use_space_char: true

  distributed: true

  save_res_path: ./output/rec/predicts_ppocrv3_en.txt


Optimizer:

  name: Adam

  beta1: 0.9

  beta2: 0.999

  lr:

    name: Cosine

    learning_rate: 0.001

    warmup_epoch: 5

  regularizer:

    name: L2

    factor: 3.0e-05


Architecture:

  model_type: rec

  algorithm: SVTR

  Transform:

  Backbone:

    name: MobileNetV1Enhance

    scale: 0.5

    last_conv_stride: [1, 2]

    last_pool_type: avg

  Neck:

    name: SequenceEncoder

    encoder_type: reshape

  Head:

    name: CTCHead

    mid_channels: 96

    fc_decay: 0.00002


Loss:

  name: CTCLoss


PostProcess:

  name: CTCLabelDecode


Metric:

  name: RecMetric

  main_indicator: acc


Train:

  dataset:

    name: LMDBDataset

    data_dir: MJ_ST

    ext_op_transform_idx: 1

    transforms:

    - DecodeImage:

        img_mode: BGR

        channel_first: false

    - RecAug:

    - CTCLabelEncode:

    - RecResizeImg:

        image_shape: [3, 32, 320]

    - KeepKeys:

        keep_keys:

        - image

        - label

        - length

  loader:

    shuffle: true

    batch_size_per_card: 128

    drop_last: true

    num_workers: 4

Eval:

  dataset:

    name: LMDBDataset

    data_dir: EN_eval

    transforms:

    - DecodeImage:

        img_mode: BGR

        channel_first: false

    - CTCLabelEncode:

    - RecResizeImg:

        image_shape: [3, 32, 320]

    - KeepKeys:

        keep_keys:

        - image

        - label

        - length

  loader:

    shuffle: false

    drop_last: false

    batch_size_per_card: 128

    num_workers: 4

(上下滑动查看完整代码）

我们使用网上开源英文数据集 MJ+ST 作为训练测试数据集，并通过以下命令进行模型训练。模型训练周期与训练环境以及数据集大小等均密切相关，大家可根据自身需求进行配置。


# Example training command

python3 tools/train.py -c configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml -o \

            Global. save_model_dir=output/rec/ \

            Train.dataset.name=LMDBDataSet \

            Train.dataset.data_dir=MJ_ST \

            Eval.dataset.name=LMDBDataSet \

            Eval.dataset.data_dir=EN_eval \

2.2 模型导出

模型训练完成后，还需要将训练好的文本识别模型转换为 Paddle Inference 模型，才能使用深度学习编译器 TVM 对其进行编译从而获得适配在 Cortex-M 处理器上运行的代码。可以参考以下命令导出 Paddle Inference 模型。


# Example exporting model command

python3 tools/export_model.py \

            -c configs/rec/PP-OCRv3/en_PP-OCRv3_rec.yml -o \

            Global.pretrained_model=output/rec/best_accuracy.pdparams \

            Global.save_inference_dir=output/rec/infer

Inference 模型导出后，可以通过以下命令使用 PaddleOCR 进行推理验证。为便于各位开发者可直接体验和部署，大家可以通过 https://paddleocr.bj.bcebos.com/tvm/ocr_en.tar 链接直接下载我们训练完成并导出的英文文本识别 Inference 模型。


# Example infer command

python3 tools/infer/predict_rec.py --image_dir="path_to_image/word_116.png" \

--rec_model_dir="path_to_infer_model/ocr_en" \

--rec_char_dict_path="ppocr/utils/en_dict.txt" \

--rec_image_shape="3,32,320"

我们使用与后续部署中相同的图进行验证，如下图所示。预测结果为如下，与图片一致且具有较高的置信度评分，说明我们的推理模型已经基本准备完毕了。

Predicts of /Users/lilwu01/Desktop/word_116.png:('QBHOUSE', 0.9867456555366516)

图 5：word_116.png

2.3 模型编译

为实现在 Cortex-M 上直接完成 PaddlePaddle 模型的部署，我们需要借助深度学习编译器 TVM 来进行相应模型的转换和适配。TVM 是一款开源的深度学习编译器, 主要用于解决将各种深度学习框架部署到各种硬件设备上的适配性问题。

如下图所示，他可以接收由 PaddlePaddle 等经典的深度学习训练框架编写的模型并将其转换成可在目标设备上运行推理任务的代码。

图 6：编译流程示意图

(了解 TVM 更多信息，请访问 https://tvm.apache.org)

我们使用 TVM 的 Python 应用程序 tvmc 来完成模型的编译。大家可参考如下命令对 Paddle Inference 模型进行编译。通过指定 --target=cmsis-nn,c 使得模型中 CMSIS NN[9] 库支持的算子会调用 CMSIS NN 库执行，而不支持的算子则会回调到 C 代码库。



# Example of Model compiling using tvmc

python3 -m tvm.driver.tvmc compile \

         path_to_infer_model/ocr_en/inference.pdmodel \

    --target=cmsis-nn,c \

    --target-cmsis-nn-mcpu=cortex-m55 \

    --target-c-mcpu=cortex-m55 \

    --runtime=crt \

    --executor=aot \

    --executor-aot-interface-api=c \

    --executor-aot-unpacked-api=1 \

    --pass-config tir.usmp.enable=1 \

    --pass-config tir.usmp.algorithm=hill_climb \

    --pass-config tir.disable_storage_rewrite=1 \

         --pass-config tir.disable_vectorize=1 \

    --output-format=mlf \

    --model-format=paddle \

    --module-name=rec \

    --input-shapes x:[1,3,32,320] \

    --output=rec.tar

更多关于参数配置的具体说明，大家可以直接输入 tvmc compile --help 来查看。编译后的模型可以在 –output 参数指定的路径下查看 (此处为当前目录下的 rec.tar 压缩包内)。

2.4 模型部署

参考图 3 所示的 AVH AMI 实例 (instance) 创建的流程并通过 ssh 命令远程登录到实例中去，当看到如下所示的提示画面说明已经成功登入。

图 7：AVH AMI 成功登录界面

成功登入后大家可以切换到 “/opt/VHT” 以及 “/opt” 目录下查看当前版本 AVH AMI 所支持的 Corstone 和 Cortex CPU 虚拟硬件。下图为部分 1.2.3 版本 AVH AMI 所支持的 AVH 列表。本期部署课程中所使用的正是 Corstone-300 虚拟硬件 (VHT_Corstone_SSE-300_Ethos-U55)，其内含有 Cortex-M55 处理器，Arm Ethos-U55 处理器及一些基本外设。更多关于 Corstone-300 虚拟硬件的相关信息，欢迎访问 Arm 开发者社区的技术文档[10]进行查看。

图 8：1.2.3 版本 AVH AMI 所支持的 AVH 部分示意图

2.1-2.3 中所述的模型训练、导出、编译等步骤均可以选择在本地机器上完成或者在 AVH AMI 中完成，大家可根据个人需求确定。为便于开发者朋友更直观地体验如何在 AVH 上完成 PaddlePaddle 模型部署，我们为大家提供了部署的示例代码来帮助大家自动化的完成环境配置，机器学习应用构建以及在含有 Cortex-M55 的 Corstone-300 虚拟硬件上执行并获取结果。

登入 AVH AMI 实例后，可以输入以下命令来完成模型部署和查看应用执行结果。run_demo.sh[11] 脚本将会执行以下 6 个步骤来自动化的完成应用构建和执行，执行结果如图 10 所示。


$ git clone https://github.com/PaddlePaddle/PaddleOCR.git

$ cd PaddleOCR

$ git pull origin dygraph

$ cd deploy/avh

$ ./run_demo.sh

图 9：部署流程示意图 (run_demo.sh 脚本中定义)

不难看出，该飞桨英文识别模型在含有 Cortex-M55 处理器的 Corstone-300 虚拟硬件上的推理结果与 2.2 章节中在服务器主机上直接进行推理的推理结果高度一致，说明将 PaddlePaddle 模型直接部署在 Cortex-M55 虚拟硬件上运行良好。

图 10：Corstone-300 (含 Cortex-M55)

虚拟硬件运行结果

总结

本期课程，小编带领大家学习了如何将 PP-OCRv3 中发布的英文识别模型 (完成算子适配后) 部署在 Corstone-300 的虚拟硬件平台上。在下期推送中，我们将以计算机视觉领域的目标检测任务 (Detection) 为目标，一步步地带领大家动手完成从模型训练优化到深度学习应用部署的整个端到端的开发流程，敬请期待下一期内容：AVH 动手实践 (三) | 在 Arm 虚拟硬件上部署 PP-PicoDet 模型。

往期回顾

AVH 动手实践 (一) | 在 Arm 虚拟硬件上部署 PaddlePaddle 模型（点击阅读）

在后续系列课程中，我们也将向大家展示更多在 AVH 第三方硬件平台上进行开发的有趣实例。欢迎各位开发者扫描下方二维码或点击“阅读原文”即刻注册 AVH 第三方硬件平台，抢先体验 AVH 为你的嵌入式开发之旅所带来的极致便捷体验！大家也可扫码访问极术社区 AVH 专栏了解更多应用案例。