🎯 本系列文章的核心价值:经过深入研究和实践,在星睿O6 ARM开发板上成功部署了完整的智谱AI大模型生态系统,包括文本生成、视觉理解、代码生成等多个维度的AI能力,其中包括智谱AI最新发布的开源多模态大模型GLM-4.6V-Flash。做为ARM环境最全面的一次智谱AI大模型部署测试,这为边缘AI应用提供了完整的参考方案。
经过查阅资料和深入学习,我在星睿O6开发板上成功部署了智谱AI系列大模型,包括文本生成大模型、视觉大模型,以及代码生成大模型。在学习研究的过程中,我做了详细的笔记和实践记录,经过系统整理,成为本系列文章,旨在为开发者和AI爱好者提供完整的参考。
📋 系列内容概览
通过本系列文章,您将了解到:
🛠️ 第一阶段:开发环境准备
- 第一篇:星睿O6与智谱AI大模型概览
- 第二篇:在PC上搭建llama.cpp推理环境
- 第三篇:在PC上搭建chatglm.cpp推理环境
🚀 第二阶段:环境迁移与部署
- 第四篇:将llama.cpp环境部署至星睿O6
- 第五篇:将chatglm.cpp环境部署至星睿O6
💻 第三阶段:大模型实战运行
- 第六篇:在星睿O6上运行智谱AI文本大模型(基于llama.cpp)
- 第七篇:在星睿O6上运行智谱AI文本大模型(基于chatglm.cpp)
- 第八篇:在星睿O6上运行智谱AI视觉大模型
- 第九篇:为llama.cpp与chatglm.cpp部署Web服务与OpenAI兼容API
🔧 第四阶段:专项能力扩展
- 第十篇:在星睿O6上部署CodeGeeX2实现智能代码生成
本文是第一篇:星睿O6与智谱AI大模型概览
🌟 星睿O6:强大的ARM AI开发平台
通过瑞莎官方文档,可以了解到星睿O6是一款非常强大的ARM开发平台。
📖 官方介绍
瑞莎星睿 O6 是一款基于此芯 P1 SoC 的高性能 Mini-ITX(170mm x 170mm) 主板,集成了强大的 12 核 CPU 架构、Arm Immortals™ G720 MC10 GPU 和 30 TOPS 算力的 NPU。
该产品具备丰富的 I/O 接口,包括四路显示输出、双 5GbE 网络 和 PCIe Gen4 扩展,专为 AI 推理、图形处理、视频编解码和多屏显示等高性能应用场景设计,是 AI 开发工作站、边缘计算节点和高性能个人计算应用的理想选择。
🔥 技术亮点
Armv9架构优势:星睿O6采用的Armv9架构相比传统Armv8具有更强的AI计算能力,支持SVE2(可扩展向量扩展2)和I8MM(int8矩阵乘法)等新指令集,为大模型推理提供硬件加速支持。
NPU专用算力:30 TOPS的NPU算力专门用于AI推理任务,可以显著提升大模型运行效率,降低CPU和GPU负载。
多显示输出:四路显示输出支持多屏工作环境,便于AI开发过程中的可视化操作和监控。
🤖 智谱AI:领先的中文大模型技术
清华大学自主研发的AI大模型GLM (General Language Model) 是一款强大的预训练语言模型,由清华大学孵化的智谱AI (Zhipu AI) 公司推出和迭代,以其自回归填空(Autoregressive Blank Model) 架构为特色,支持复杂自然语言理解、解决推理问题,并在智能客服、聊天机器人、虚拟主播等领域有广泛应用,其后续的 GLM-4、GLM-4.5 等版本持续在性能和智能体应用上不断突破,是中国大模型领域的领先代表之一。
📊 GLM系列模型特点
GLM-Edge系列:专为边缘计算优化的轻量级模型,支持int4/int8量化,适合在资源受限的设备上运行。
GLM-4系列:全功能大模型,支持文本生成、多模态理解(GLM-4V)和代码生成等能力。
GLM-4.6系列:最新版本,在保持高性能的同时进一步优化了推理效率。
🖥️ 我的运行测试环境
硬件环境
- 开发板:瑞莎星睿 O6,Armv9架构,12核CPU,16GB内存
- PC: Lenovo ThinkServer T100C,i9-10900,64GB内存
操作系统
- 开发板:Debian GNU/Linux 12
- PC:Ubuntu 24.04.3 LTS
软件环境
- python 3.11
- llama.cpp(通用大模型推理框架)
- chatglm.cpp(专为GLM系列优化的推理框架)
网络连接
SSH连接:
ssh orion-o6(星睿O6开发板)ssh ssh-ohos-new(PC开发环境)
工作目录
- 开发板:~/Projects
- PC:/data/home/honestqiao/Projects/orion-o6/
🎯 实测过的大模型
经过实际测试验证,以下模型在星睿O6上运行稳定:
deepseek-ai系列
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B:文本大模型,llama.cpp- 特点:轻量级推理,适合基础文本生成任务
ZhipuAI系列
GLM3系列
chatglm3-6b:文本大模型,llama.cpp+chatglm.cpp- 特点:经典对话模型,生态成熟
GLM-Edge系列
glm-edge-1.5b-chat:文本大模型,llama.cppglm-edge-4b-chat:文本大模型,llama.cppglm-edge-v-2b:视觉小模型,llama.cppglm-edge-v-5b:视觉大模型,llama.cpp- 特点:专为边缘设备优化,支持量化推理
GLM4系列
glm-4-9b-chat:文本大模型,chatglm.cppglm-4-9b-chat-hf:文本大模型,llama.cppglm-4v-9b:视觉大模型,chatglm.cpp- 特点:高性能对话模型,推理质量优秀
GLM4.6系列
GLM-4.6V-Flash:多模态大模型,llama.cpp- 特点:最新多模态模型,支持图像理解和Function Calling
CodeGeeX2系列
CodeGeeX2-6B:代码生成大模型,chatglm.cpp- 特点:专注代码生成,支持多种编程语言
🏗️ 技术架构优势
llama.cpp vs chatglm.cpp
llama.cpp:
- 通用性强,支持多种开源模型格式
- 社区活跃,更新频繁
- 适合需要模型兼容性的场景
chatglm.cpp:
- 专为GLM系列优化
- 对话体验更流畅
- 内存使用更高效
量化技术应用
在星睿O6这样的ARM设备上,量化技术至关重要:
- Q4_K_M量化:平衡性能和内存使用
- INT4量化:最大内存节省,适合大模型
- INT8量化:性能和精度的折中方案
📚 参考资料
星睿O6官方资料
智谱AI
核心框架
- ggml-org/llama.cpp: LLM inference in C/C++
- li-plus/chatglm.cpp: C++ implementation of ChatGLM-6B & ChatGLM2-6B & ChatGLM3 & GLM4(V)
辅助工具
- mostlygeek/llama-swap: Reliable model swapping for any local OpenAI/Anthropic compatible server
- Page Assist - 本地 AI 模型的 Web UI - Chrome 应用商店
🔮 后续内容预告
在接下来的9篇文章中,我们将深入探讨:
- 环境搭建:从零开始在PC和星睿O6上配置开发环境
- 模型部署:将大模型从开发环境迁移到生产环境
- 实战应用:在真实场景中运行各种类型的AI大模型
- Web服务:构建可访问的API服务
- 专项功能:代码生成等专门应用场景
🚀 准备好了吗?让我们开始这段精彩的AI边缘部署之旅!
通过这个完整的路径,可以了解在星睿O6这样的ARM架构设备上部署和运行大模型的全过程。