HonestQiao · 6 天前 · 北京

【星睿O6评测】从零玩转智谱AI全栈大模型之1-星睿O6与智谱AI大模型概览

🎯 本系列文章的核心价值:经过深入研究和实践,在星睿O6 ARM开发板上成功部署了完整的智谱AI大模型生态系统,包括文本生成、视觉理解、代码生成等多个维度的AI能力,其中包括智谱AI最新发布的开源多模态大模型GLM-4.6V-Flash。做为ARM环境最全面的一次智谱AI大模型部署测试,这为边缘AI应用提供了完整的参考方案。

经过查阅资料和深入学习,我在星睿O6开发板上成功部署了智谱AI系列大模型,包括文本生成大模型、视觉大模型,以及代码生成大模型。在学习研究的过程中,我做了详细的笔记和实践记录,经过系统整理,成为本系列文章,旨在为开发者和AI爱好者提供完整的参考。

001.jpg

📋 系列内容概览

通过本系列文章,您将了解到:

🛠️ 第一阶段:开发环境准备

  • 第一篇:星睿O6与智谱AI大模型概览
  • 第二篇:在PC上搭建llama.cpp推理环境
  • 第三篇:在PC上搭建chatglm.cpp推理环境

🚀 第二阶段:环境迁移与部署

  • 第四篇:将llama.cpp环境部署至星睿O6
  • 第五篇:将chatglm.cpp环境部署至星睿O6

💻 第三阶段:大模型实战运行

  • 第六篇:在星睿O6上运行智谱AI文本大模型(基于llama.cpp)
  • 第七篇:在星睿O6上运行智谱AI文本大模型(基于chatglm.cpp)
  • 第八篇:在星睿O6上运行智谱AI视觉大模型
  • 第九篇:为llama.cpp与chatglm.cpp部署Web服务与OpenAI兼容API

🔧 第四阶段:专项能力扩展

  • 第十篇:在星睿O6上部署CodeGeeX2实现智能代码生成

本文是第一篇:星睿O6与智谱AI大模型概览

🌟 星睿O6:强大的ARM AI开发平台

通过瑞莎官方文档,可以了解到星睿O6是一款非常强大的ARM开发平台。

📖 官方介绍

星睿 O6 | Radxa Docs

瑞莎星睿 O6 是一款基于此芯 P1 SoC 的高性能 Mini-ITX(170mm x 170mm) 主板,集成了强大的 12 核 CPU 架构、Arm Immortals™ G720 MC10 GPU 和 30 TOPS 算力的 NPU。

该产品具备丰富的 I/O 接口,包括四路显示输出、双 5GbE 网络 和 PCIe Gen4 扩展,专为 AI 推理、图形处理、视频编解码和多屏显示等高性能应用场景设计,是 AI 开发工作站、边缘计算节点和高性能个人计算应用的理想选择。

002.jpg

🔥 技术亮点

Armv9架构优势:星睿O6采用的Armv9架构相比传统Armv8具有更强的AI计算能力,支持SVE2(可扩展向量扩展2)和I8MM(int8矩阵乘法)等新指令集,为大模型推理提供硬件加速支持。

NPU专用算力:30 TOPS的NPU算力专门用于AI推理任务,可以显著提升大模型运行效率,降低CPU和GPU负载。

多显示输出:四路显示输出支持多屏工作环境,便于AI开发过程中的可视化操作和监控。

🤖 智谱AI:领先的中文大模型技术

智谱AI · 魔搭社区

清华大学自主研发的AI大模型GLM (General Language Model) 是一款强大的预训练语言模型,由清华大学孵化的智谱AI (Zhipu AI) 公司推出和迭代,以其自回归填空(Autoregressive Blank Model) 架构为特色,支持复杂自然语言理解、解决推理问题,并在智能客服、聊天机器人、虚拟主播等领域有广泛应用,其后续的 GLM-4、GLM-4.5 等版本持续在性能和智能体应用上不断突破,是中国大模型领域的领先代表之一。

📊 GLM系列模型特点

GLM-Edge系列:专为边缘计算优化的轻量级模型,支持int4/int8量化,适合在资源受限的设备上运行。

GLM-4系列:全功能大模型,支持文本生成、多模态理解(GLM-4V)和代码生成等能力。

GLM-4.6系列:最新版本,在保持高性能的同时进一步优化了推理效率。

🖥️ 我的运行测试环境

硬件环境

  • 开发板:瑞莎星睿 O6,Armv9架构,12核CPU,16GB内存
  • PC: Lenovo ThinkServer T100C,i9-10900,64GB内存

操作系统

  • 开发板:Debian GNU/Linux 12
  • PC:Ubuntu 24.04.3 LTS

软件环境

  • python 3.11
  • llama.cpp(通用大模型推理框架)
  • chatglm.cpp(专为GLM系列优化的推理框架)

网络连接

  • SSH连接

    • ssh orion-o6 (星睿O6开发板)
    • ssh ssh-ohos-new (PC开发环境)

工作目录

  • 开发板:~/Projects
  • PC:/data/home/honestqiao/Projects/orion-o6/

🎯 实测过的大模型

经过实际测试验证,以下模型在星睿O6上运行稳定:

deepseek-ai系列

  • deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B:文本大模型,llama.cpp

    • 特点:轻量级推理,适合基础文本生成任务

ZhipuAI系列

GLM3系列

  • chatglm3-6b:文本大模型,llama.cpp+chatglm.cpp

    • 特点:经典对话模型,生态成熟

GLM-Edge系列

  • glm-edge-1.5b-chat:文本大模型,llama.cpp
  • glm-edge-4b-chat:文本大模型,llama.cpp
  • glm-edge-v-2b:视觉小模型,llama.cpp
  • glm-edge-v-5b:视觉大模型,llama.cpp

    • 特点:专为边缘设备优化,支持量化推理

GLM4系列

  • glm-4-9b-chat:文本大模型,chatglm.cpp
  • glm-4-9b-chat-hf:文本大模型,llama.cpp
  • glm-4v-9b:视觉大模型,chatglm.cpp

    • 特点:高性能对话模型,推理质量优秀

GLM4.6系列

  • GLM-4.6V-Flash:多模态大模型,llama.cpp

    • 特点:最新多模态模型,支持图像理解和Function Calling

CodeGeeX2系列

  • CodeGeeX2-6B:代码生成大模型,chatglm.cpp

    • 特点:专注代码生成,支持多种编程语言

🏗️ 技术架构优势

llama.cpp vs chatglm.cpp

llama.cpp

  • 通用性强,支持多种开源模型格式
  • 社区活跃,更新频繁
  • 适合需要模型兼容性的场景

chatglm.cpp

  • 专为GLM系列优化
  • 对话体验更流畅
  • 内存使用更高效

量化技术应用

在星睿O6这样的ARM设备上,量化技术至关重要:

  • Q4_K_M量化:平衡性能和内存使用
  • INT4量化:最大内存节省,适合大模型
  • INT8量化:性能和精度的折中方案

📚 参考资料

星睿O6官方资料

智谱AI

核心框架

辅助工具

🔮 后续内容预告

在接下来的9篇文章中,我们将深入探讨:

  1. 环境搭建:从零开始在PC和星睿O6上配置开发环境
  2. 模型部署:将大模型从开发环境迁移到生产环境
  3. 实战应用:在真实场景中运行各种类型的AI大模型
  4. Web服务:构建可访问的API服务
  5. 专项功能:代码生成等专门应用场景

🚀 准备好了吗?让我们开始这段精彩的AI边缘部署之旅!

通过这个完整的路径,可以了解在星睿O6这样的ARM架构设备上部署和运行大模型的全过程。

推荐阅读
关注数
1
内容数
11
此芯AI PC开发套件瑞莎“星睿O6”评测
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息