之前的文章中,我们跟大家介绍过如何使用NNAPI来加速TFLite-Android的inference(可参考使用NNAPI加速android-tflite的Mobilenet分类器)。
首发:https://zhuanlan.zhihu.com/p/71648953
作者:张新栋
不过之前介绍的文章,在进行模型加载和推断使用的是官方提供的预编译好的Jar文件,业务代码都通过Java进行编写。如果你想使用C++在native层进行业务代码的编写,你也可以参考本文的实现思路。跟之前专栏中介绍的框架一样,我们首先需要进行框架的编译 — TFLite的库函数编译。我们先下载最新版本master分支的tensorflow源码。
git clone https://github.com/tensorflow/tensorflow
在下载好源码以后,我需要进入tensorflow文件夹目录下,然后进行配置。在此之前,你还需要确保NDK和Bazel安装的正确性,本文采用的NDK为ndk-r17c,bazel采用的版本为 0.24.1。
cd tensorflow
./configure
配置完毕后,你还需要在该目录下的WORKSPACE文件中添加ndk的环境,直接在文件的末尾加入如下参数即可,
android_ndk_repository(
name = "androidndk", # Required. Name *must* be "androidndk".
api_level = 21,
)
本文在RK3288开发板进行验证,Android系统为5.1版本。所以为了兼容,这里采用的APP\_PLATFORM为21,对应于api\_level为21。下面,我们开始进行TFLite的模型编译。
bazel build -c opt --crosstool_top=//external:android/crosstool \
--host_crosstool_top=@bazel_tools//tools/cpp:toolchain --cxxopt="-std=c++11" \
--fat_apk_cpu=armeabi-v7a --config=android_arm \
//tensorflow/lite:libtensorflowlite.so
这里面有几个参数需要注意,一个是--fat\_apk\_cpu和--config。在Android平台中一般fat\_apk\_cpu可取arm64-v8a或armeabi-v7a,config可选为android\_arm64或android\_arm。更详细的配置大家可参考/tensorflow/lite/build\_def.bzl该文件。
编译好的模型libtensorflowlite.so会保存在/tensorflow/bazel-bin/tensorflow/lite文件夹中,下面我们开始配置依赖环境,进行C++业务代码的编写。配置环境大家可参考如下mk脚本,注意将环境变量替换成你本机的环境变量。需要注意的地方,引入tensorflow的头文件路径的同时,也需要引入flatbuffer的头文件路径。
LOCAL_PATH := $(call my-dir)
OpenCV_BASE = /Users/xindongzhang/armnn-tflite/OpenCV-android-sdk/
TFLITE_BASE = /Users/xindongzhang/Desktop/tflite-cpp/jni/tensorflow
FLATBUFFER_BASE = /Users/xindongzhang/armnn-tflite/flatbuffers/
include $(CLEAR_VARS)
LOCAL_MODULE := TFLITE
LOCAL_SRC_FILES := $(TFLITE_BASE)/bazel-bin/tensorflow/lite/libtensorflowlite.so
include $(PREBUILT_SHARED_LIBRARY)
include $(CLEAR_VARS)
OpenCV_INSTALL_MODULES := on
OPENCV_LIB_TYPE := STATIC
include $(OpenCV_BASE)/sdk/native/jni/OpenCV.mk
LOCAL_MODULE := tflite_ssd
LOCAL_C_INCLUDES += $(OPENCV_INCLUDE_DIR)
LOCAL_C_INCLUDES += $(TFLITE_BASE)/tensorflow
LOCAL_C_INCLUDES += $(TFLITE_BASE)
LOCAL_C_INCLUDES += $(FLATBUFFER_BASE)/include
LOCAL_SRC_FILES := \
main.cpp
LOCAL_LDLIBS := -landroid -llog -ldl -lz -fuse-ld=gold
LOCAL_CFLAGS := -O2 -fvisibility=hidden -fomit-frame-pointer -fstrict-aliasing \
-ffunction-sections -fdata-sections -ffast-math -ftree-vectorize -fPIC -Ofast \
-ffast-math -w -std=c++14
LOCAL_CPPFLAGS := -O2 -fvisibility=hidden -fvisibility-inlines-hidden \
-fomit-frame-pointer -fstrict-aliasing -ffunction-sections -fdata-sections \
-ffast-math -fPIC -Ofast -ffast-math -std=c++14
LOCAL_LDFLAGS += -Wl,--gc-sections
LOCAL_CFLAGS += -fopenmp
LOCAL_CPPFLAGS += -fopenmp
LOCAL_LDFLAGS += -fopenmp
LOCAL_ARM_NEON := true
APP_ALLOW_MISSING_DEPS = true
LOCAL_SHARED_LIBRARIES := \
TFLITE
include $(BUILD_EXECUTABLE)
接下来是C++业务代码,跟在java中的调用逻辑是一样的,先加载模型,然后进行解析;输入数据时候要根据训练时的预处理方式,进行对等的预处理操作;最后执行inference,取出结果,如有后处理,再进行相应的后处理。
std::string model_file = "./detect.tflite";
std::string image_file = "./322353.jpg";
int INPUT_SIZE = 300;
cv::Mat raw_image = cv::imread(image_file, 1);
cv::Mat image;
cv::resize(raw_image, image, cv::Size(INPUT_SIZE, INPUT_SIZE));
image.convertTo(image, CV_32FC3);
image = (image * 2.0f / 255.0f) - 1.0f;
std::unique_ptr<tflite::FlatBufferModel> model;
tflite::ops::builtin::BuiltinOpResolver resolver;
std::unique_ptr<tflite::Interpreter> interpreter;
TfLiteTensor* input_tensor = nullptr;
TfLiteTensor* output_locations = nullptr;
TfLiteTensor* output_classes = nullptr;
TfLiteTensor* output_scores = nullptr;
TfLiteTensor* num_detections = nullptr;
model = tflite::FlatBufferModel::BuildFromFile(model_file.c_str());
tflite::InterpreterBuilder(*model, resolver)(&interpreter);
interpreter->AllocateTensors();
input_tensor = interpreter->tensor(interpreter->inputs()[0]);
interpreter->SetNumThreads(1);
// preprocessing
float* dst = input_tensor->data.f;
const int row_elems = image.cols * image.channels();
for (int row = 0; row < image.rows; row++) {
const uchar* row_ptr = image.ptr(row);
for (int i = 0; i < row_elems; i++) {
dst[i] = row_ptr[i];
}
dst += row_elems;
}
// run inference
interpreter->Invoke();
// get output
output_locations = interpreter->tensor(interpreter->outputs()[0]);
output_classes = interpreter->tensor(interpreter->outputs()[1]);
最后
在完成上述过程后,既可以在Android中使用C++进行TFlite模型的部署。目前TFLIte在嵌入式端的竞争力虽然不是很强,但是开发的活跃度依旧很高,推出了许多新的特性,如xla、int8、量化、fp16,以及配套的离线量化、压缩脚本,后续本专栏会持续关注TFlite在嵌入式端的进展。欢迎大家留言讨论、关注本专栏,谢谢大家。
推荐阅读
专注嵌入式端的AI算法实现,欢迎关注作者微信公众号和知乎嵌入式AI算法实现专栏。
更多嵌入式AI相关的技术文章请关注极术嵌入式AI专栏