【星睿O6评测】从零玩转智谱AI全栈大模型之1-星睿O6与智谱AI大模型概览

🎯 本系列文章的核心价值：经过深入研究和实践，在星睿O6 ARM开发板上成功部署了完整的智谱AI大模型生态系统，包括文本生成、视觉理解、代码生成等多个维度的AI能力，其中包括智谱AI最新发布的开源多模态大模型GLM-4.6V-Flash。做为ARM环境最全面的一次智谱AI大模型部署测试，这为边缘AI应用提供了完整的参考方案。

经过查阅资料和深入学习，我在星睿O6开发板上成功部署了智谱AI系列大模型，包括文本生成大模型、视觉大模型，以及代码生成大模型。在学习研究的过程中，我做了详细的笔记和实践记录，经过系统整理，成为本系列文章，旨在为开发者和AI爱好者提供完整的参考。

📋 系列内容概览

通过本系列文章，您将了解到：

🛠️ 第一阶段：开发环境准备

第一篇：星睿O6与智谱AI大模型概览
第二篇：在PC上搭建llama.cpp推理环境
第三篇：在PC上搭建chatglm.cpp推理环境

🚀 第二阶段：环境迁移与部署

第四篇：将llama.cpp环境部署至星睿O6
第五篇：将chatglm.cpp环境部署至星睿O6

💻 第三阶段：大模型实战运行

第六篇：在星睿O6上运行智谱AI文本大模型（基于llama.cpp）
第七篇：在星睿O6上运行智谱AI文本大模型（基于chatglm.cpp）
第八篇：在星睿O6上运行智谱AI视觉大模型
第九篇：为llama.cpp与chatglm.cpp部署Web服务与OpenAI兼容API

🔧 第四阶段：专项能力扩展

第十篇：在星睿O6上部署CodeGeeX2实现智能代码生成

本文是第一篇：星睿O6与智谱AI大模型概览

🌟 星睿O6：强大的ARM AI开发平台

通过瑞莎官方文档，可以了解到星睿O6是一款非常强大的ARM开发平台。

📖 官方介绍

星睿 O6 | Radxa Docs

瑞莎星睿 O6 是一款基于此芯 P1 SoC 的高性能 Mini-ITX（170mm x 170mm）主板，集成了强大的 12 核 CPU 架构、Arm Immortals™ G720 MC10 GPU 和 30 TOPS 算力的 NPU。
该产品具备丰富的 I/O 接口，包括四路显示输出、双 5GbE 网络和 PCIe Gen4 扩展，专为 AI 推理、图形处理、视频编解码和多屏显示等高性能应用场景设计，是 AI 开发工作站、边缘计算节点和高性能个人计算应用的理想选择。

🔥 技术亮点

Armv9架构优势：星睿O6采用的Armv9架构相比传统Armv8具有更强的AI计算能力，支持SVE2（可扩展向量扩展2）和I8MM（int8矩阵乘法）等新指令集，为大模型推理提供硬件加速支持。

NPU专用算力：30 TOPS的NPU算力专门用于AI推理任务，可以显著提升大模型运行效率，降低CPU和GPU负载。

多显示输出：四路显示输出支持多屏工作环境，便于AI开发过程中的可视化操作和监控。

🤖 智谱AI：领先的中文大模型技术

智谱AI · 魔搭社区

清华大学自主研发的AI大模型GLM (General Language Model) 是一款强大的预训练语言模型，由清华大学孵化的智谱AI (Zhipu AI) 公司推出和迭代，以其自回归填空（Autoregressive Blank Model）架构为特色，支持复杂自然语言理解、解决推理问题，并在智能客服、聊天机器人、虚拟主播等领域有广泛应用，其后续的 GLM-4、GLM-4.5 等版本持续在性能和智能体应用上不断突破，是中国大模型领域的领先代表之一。

📊 GLM系列模型特点

GLM-Edge系列：专为边缘计算优化的轻量级模型，支持int4/int8量化，适合在资源受限的设备上运行。

GLM-4系列：全功能大模型，支持文本生成、多模态理解（GLM-4V）和代码生成等能力。

GLM-4.6系列：最新版本，在保持高性能的同时进一步优化了推理效率。

🖥️ 我的运行测试环境

硬件环境

开发板：瑞莎星睿 O6，Armv9架构，12核CPU，16GB内存
PC: Lenovo ThinkServer T100C，i9-10900，64GB内存

操作系统

开发板：Debian GNU/Linux 12
PC：Ubuntu 24.04.3 LTS

软件环境

python 3.11
llama.cpp（通用大模型推理框架）
chatglm.cpp（专为GLM系列优化的推理框架）

网络连接

SSH连接：
- ssh orion-o6 （星睿O6开发板）
- ssh ssh-ohos-new （PC开发环境）

工作目录

开发板：~/Projects
PC：/data/home/honestqiao/Projects/orion-o6/

🎯 实测过的大模型

经过实际测试验证，以下模型在星睿O6上运行稳定：

deepseek-ai系列

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B：文本大模型，llama.cpp
- 特点：轻量级推理，适合基础文本生成任务

ZhipuAI系列

GLM3系列

chatglm3-6b：文本大模型，llama.cpp+chatglm.cpp
- 特点：经典对话模型，生态成熟

GLM-Edge系列

glm-edge-1.5b-chat：文本大模型，llama.cpp
glm-edge-4b-chat：文本大模型，llama.cpp
glm-edge-v-2b：视觉小模型，llama.cpp
glm-edge-v-5b：视觉大模型，llama.cpp
- 特点：专为边缘设备优化，支持量化推理

GLM4系列

glm-4-9b-chat：文本大模型，chatglm.cpp
glm-4-9b-chat-hf：文本大模型，llama.cpp
glm-4v-9b：视觉大模型，chatglm.cpp
- 特点：高性能对话模型，推理质量优秀

GLM4.6系列

GLM-4.6V-Flash：多模态大模型，llama.cpp
- 特点：最新多模态模型，支持图像理解和Function Calling

CodeGeeX2系列

CodeGeeX2-6B：代码生成大模型，chatglm.cpp
- 特点：专注代码生成，支持多种编程语言

🏗️ 技术架构优势

llama.cpp vs chatglm.cpp

llama.cpp：

通用性强，支持多种开源模型格式
社区活跃，更新频繁
适合需要模型兼容性的场景

chatglm.cpp：

专为GLM系列优化
对话体验更流畅
内存使用更高效

量化技术应用

在星睿O6这样的ARM设备上，量化技术至关重要：

Q4_K_M量化：平衡性能和内存使用
INT4量化：最大内存节省，适合大模型
INT8量化：性能和精度的折中方案

📚 参考资料

星睿O6官方资料

智谱AI

核心框架

辅助工具

🔮 后续内容预告

在接下来的9篇文章中，我们将深入探讨：

环境搭建：从零开始在PC和星睿O6上配置开发环境
模型部署：将大模型从开发环境迁移到生产环境
实战应用：在真实场景中运行各种类型的AI大模型
Web服务：构建可访问的API服务
专项功能：代码生成等专门应用场景