AI 开放平台

提供适配不同硬件平台的AI模型,探索更多端侧场景应用

基于AX650N部署MiniCPM-V 2.0

爱芯元智: AX650N

1. MiniCPM-V介绍

1.1 MiniCPM-V 2.0特性

  • 领先的OCR和多模态理解能力。MiniCPM-V 2.0显著提升了OCR和多模态理解能力,场景文字理解能力接近Gemini Pro,在多个主流评测基准上性能超过了更大参数规模(例如17-34B)的主流模型。
  • 可信行为。MiniCPM-V 2.0是第一个通过多模态RLHF对齐的端侧多模态大模型。该模型在Object HalBench达到和GPT-4V相仿的性能。
  • 任意长宽比高清图像高效编码。MiniCPM-V 2.0可以接受180万像素的任意长宽比图像输入(基于最新的LLaVA-UHD技术),这使得模型可以感知到小物体、密集文字等更加细粒度的视觉信息。
  • 高效部署。MiniCPM-V 2.0可以高效部署在大多数消费级显卡、个人电脑以及移动手机等终端设备。
  • 双语支持。MiniCPM-V 2.0提供领先的中英双语多模态能力支持。该能力通过VisCPM[ICLR'24]论文中提出的多模态能力的跨语言泛化技术实现。

1.2 多模态“小钢炮”

MiniCPM-V 2.0与参数规模更大的多模态大模型相比,也表现出优秀的成绩,不愧是业界“小钢炮”。

MiniCPM-V 2.0与其它多模态大模型对比

2. 芯片介绍

2.1 AX650N

爱芯元智第三代高能效比智能视觉芯片AX650N。集成了八核Cortex-A55 CPU,高能效比NPU,支持8K@30fps的ISP,以及H.264、H.265编解码的 VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI输入,千兆Ethernet、USB、以及HDMI 2.0b输出,并支持32路1080p@30fps解码内置高算力和超强编解码能力,满足行业对高性能边缘智能计算的需求。通过内置多种深度学习算法,实现视觉结构化、行为分析、状态检测等应用,高效率支持基于Transformer结构的视觉大模型和语言类大模型。提供丰富的开发文档,方便用户进行二次开发。

ax650N开发板

3. 上版部署

我们已实现“命令行”和“UI”两种示例,其中“命令行”版本已上传到网盘中,欢迎试用。

3.1 命令行版本

测试图片:

input

测试结果:

result

3.2 性能统计

项目描述输入
图片大小280 x 280
Image Encoder0.8s
Input Prompt96 tokens
Prefill Time0.4s
Decoder5 tokens/s

4. 结束语

随着大语言模型小型化的快速发展,越来越多有趣的多模态AI应用将逐渐从云端服务迁移到边缘侧设备和端侧设备。我们会紧跟行业最新动态,适配更多的端侧大模型,欢迎大家持续关注。