在Android中使用TFLite c++部署 - 极术社区 - 连接开发者与智能计算生态

之前的文章中，我们跟大家介绍过如何使用NNAPI来加速TFLite-Android的inference（可参考使用NNAPI加速android-tflite的Mobilenet分类器）。
首发：https://zhuanlan.zhihu.com/p/71648953
作者：张新栋

不过之前介绍的文章，在进行模型加载和推断使用的是官方提供的预编译好的Jar文件，业务代码都通过Java进行编写。如果你想使用C++在native层进行业务代码的编写，你也可以参考本文的实现思路。跟之前专栏中介绍的框架一样，我们首先需要进行框架的编译 — TFLite的库函数编译。我们先下载最新版本master分支的tensorflow源码。

git clone https://github.com/tensorflow/tensorflow

在下载好源码以后，我需要进入tensorflow文件夹目录下，然后进行配置。在此之前，你还需要确保NDK和Bazel安装的正确性，本文采用的NDK为ndk-r17c，bazel采用的版本为 0.24.1。

cd tensorflow
./configure

配置完毕后，你还需要在该目录下的WORKSPACE文件中添加ndk的环境，直接在文件的末尾加入如下参数即可，

android_ndk_repository(
    name = "androidndk", # Required. Name *must* be "androidndk".
    api_level = 21,
)

本文在RK3288开发板进行验证，Android系统为5.1版本。所以为了兼容，这里采用的APP\_PLATFORM为21，对应于api\_level为21。下面，我们开始进行TFLite的模型编译。

bazel build -c opt --crosstool_top=//external:android/crosstool              \
--host_crosstool_top=@bazel_tools//tools/cpp:toolchain --cxxopt="-std=c++11" \
--fat_apk_cpu=armeabi-v7a --config=android_arm                               \
//tensorflow/lite:libtensorflowlite.so

这里面有几个参数需要注意，一个是--fat\_apk\_cpu和--config。在Android平台中一般fat\_apk\_cpu可取arm64-v8a或armeabi-v7a，config可选为android\_arm64或android\_arm。更详细的配置大家可参考/tensorflow/lite/build\_def.bzl该文件。

编译好的模型libtensorflowlite.so会保存在/tensorflow/bazel-bin/tensorflow/lite文件夹中，下面我们开始配置依赖环境，进行C++业务代码的编写。配置环境大家可参考如下mk脚本，注意将环境变量替换成你本机的环境变量。需要注意的地方，引入tensorflow的头文件路径的同时，也需要引入flatbuffer的头文件路径。

LOCAL_PATH := $(call my-dir)

OpenCV_BASE = /Users/xindongzhang/armnn-tflite/OpenCV-android-sdk/
TFLITE_BASE = /Users/xindongzhang/Desktop/tflite-cpp/jni/tensorflow
FLATBUFFER_BASE = /Users/xindongzhang/armnn-tflite/flatbuffers/

include $(CLEAR_VARS)
LOCAL_MODULE := TFLITE
LOCAL_SRC_FILES := $(TFLITE_BASE)/bazel-bin/tensorflow/lite/libtensorflowlite.so
include $(PREBUILT_SHARED_LIBRARY)


include $(CLEAR_VARS)
OpenCV_INSTALL_MODULES := on
OPENCV_LIB_TYPE := STATIC
include $(OpenCV_BASE)/sdk/native/jni/OpenCV.mk
LOCAL_MODULE := tflite_ssd

LOCAL_C_INCLUDES += $(OPENCV_INCLUDE_DIR)
LOCAL_C_INCLUDES += $(TFLITE_BASE)/tensorflow
LOCAL_C_INCLUDES += $(TFLITE_BASE)
LOCAL_C_INCLUDES += $(FLATBUFFER_BASE)/include

LOCAL_SRC_FILES :=                        \
                main.cpp                  

LOCAL_LDLIBS := -landroid -llog -ldl -lz -fuse-ld=gold
LOCAL_CFLAGS   := -O2 -fvisibility=hidden -fomit-frame-pointer -fstrict-aliasing \
-ffunction-sections -fdata-sections -ffast-math -ftree-vectorize -fPIC -Ofast    \
 -ffast-math -w -std=c++14
LOCAL_CPPFLAGS := -O2 -fvisibility=hidden -fvisibility-inlines-hidden            \
-fomit-frame-pointer -fstrict-aliasing -ffunction-sections -fdata-sections       \
-ffast-math -fPIC -Ofast -ffast-math -std=c++14
LOCAL_LDFLAGS  += -Wl,--gc-sections
LOCAL_CFLAGS   += -fopenmp
LOCAL_CPPFLAGS += -fopenmp
LOCAL_LDFLAGS  += -fopenmp
LOCAL_ARM_NEON := true

APP_ALLOW_MISSING_DEPS = true

LOCAL_SHARED_LIBRARIES :=                             \
                        TFLITE             

include $(BUILD_EXECUTABLE)

接下来是C++业务代码，跟在java中的调用逻辑是一样的，先加载模型，然后进行解析；输入数据时候要根据训练时的预处理方式，进行对等的预处理操作；最后执行inference，取出结果，如有后处理，再进行相应的后处理。

    std::string model_file = "./detect.tflite";
    std::string image_file = "./322353.jpg";

    int INPUT_SIZE = 300;
    cv::Mat raw_image = cv::imread(image_file, 1);
    cv::Mat image;  
    cv::resize(raw_image, image, cv::Size(INPUT_SIZE, INPUT_SIZE));
    image.convertTo(image, CV_32FC3);
    image = (image * 2.0f / 255.0f) - 1.0f;

    std::unique_ptr<tflite::FlatBufferModel> model;
    tflite::ops::builtin::BuiltinOpResolver resolver;
    std::unique_ptr<tflite::Interpreter> interpreter;

    TfLiteTensor* input_tensor     = nullptr;
    TfLiteTensor* output_locations = nullptr;
    TfLiteTensor* output_classes   = nullptr;
    TfLiteTensor* output_scores    = nullptr;
    TfLiteTensor* num_detections   = nullptr;

    model = tflite::FlatBufferModel::BuildFromFile(model_file.c_str());
    tflite::InterpreterBuilder(*model, resolver)(&interpreter);
    interpreter->AllocateTensors();

    input_tensor = interpreter->tensor(interpreter->inputs()[0]);
    interpreter->SetNumThreads(1);

    // preprocessing
    float* dst = input_tensor->data.f;
    const int row_elems = image.cols * image.channels();
    for (int row = 0; row < image.rows; row++) {
        const uchar* row_ptr = image.ptr(row);
        for (int i = 0; i < row_elems; i++) {
            dst[i] = row_ptr[i];
        }
        dst += row_elems;
    }
    // run inference
    interpreter->Invoke();

    // get output 
    output_locations = interpreter->tensor(interpreter->outputs()[0]);
    output_classes   = interpreter->tensor(interpreter->outputs()[1]);

最后

在完成上述过程后，既可以在Android中使用C++进行TFlite模型的部署。目前TFLIte在嵌入式端的竞争力虽然不是很强，但是开发的活跃度依旧很高，推出了许多新的特性，如xla、int8、量化、fp16，以及配套的离线量化、压缩脚本，后续本专栏会持续关注TFlite在嵌入式端的进展。欢迎大家留言讨论、关注本专栏，谢谢大家。

推荐阅读

专注嵌入式端的AI算法实现，欢迎关注作者微信公众号和知乎嵌入式AI算法实现专栏。

更多嵌入式AI相关的技术文章请关注极术嵌入式AI专栏