🎯 本文目标:在星睿O6上基于llama.cpp框架运行智谱AI文本大模型,包括GLM-Edge系列、GLM-4系列和最新的GLM-4.6V-Flash模型,进行全面的性能测试和优化。
经过查阅资料和深入学习,在星睿O6开发板上成功部署了智谱AI系列大模型,包括文本生成大模型、视觉大模型,以及代码生成大模型。
在学习研究的过程中,我做了详细的笔记,经过整理,成为本系列文章,分享给大家。
通过本系列文章,您将了解到:
第一阶段:开发环境准备
- 第一篇:星睿O6与智谱AI大模型概览
- 第二篇:在PC上搭建llama.cpp推理环境
- 第三篇:在PC上搭建chatglm.cpp推理环境
第二阶段:环境迁移与部署
- 第四篇:将llama.cpp环境部署至星睿O6
- 第五篇:将chatglm.cpp环境部署至星睿O6
第三阶段:大模型实战运行
- 第六篇:在星睿O6上运行智谱AI文本大模型(基于llama.cpp)
- 第七篇:在星睿O6上运行智谱AI文本大模型(基于chatglm.cpp)
- 第八篇:在星睿O6上运行智谱AI视觉大模型
- 第九篇:为llama.cpp与chatglm.cpp部署Web服务与OpenAI兼容API
第四阶段:专项能力扩展
- 第十篇:在星睿O6上部署CodeGeeX2实现智能代码生成
本文是第六篇:在星睿O6上运行智谱AI文本大模型(基于llama.cpp)
🎯 GLM-Edge模型
智谱AI为GLM-Edge系列模型,提供了gguf模型文件,可以直接下载,无需转换,开箱即用:
GLM-Edge对话模型
- glm-edge-1.5b-chat-gguf:轻量级模型,适合快速响应和资源受限场景
- glm-edge-4b-chat-gguf:平衡模型,在性能和资源之间取得良好平衡
📥 星睿O6下载智谱AI gguf模型
cd ~/Projects/llama.cpp
source .venv/bin/activate
export LLAMA_CPP_DIR=$(pwd)
export MODELSCOPE_DIR=$(pwd)
# 下载gguf模型文件
model_group=ZhipuAI
model_name_list="glm-edge-1.5b-chat glm-edge-4b-chat"
for model_name in $model_name_list
do
modelscope download --model $model_group/${model_name}-gguf --local_dir ./$model_group/${model_name}-gguf/
done下载过程说明:
- 使用ModelScope下载,确保文件完整性
- 每个模型约1-4GB,下载时间取决于网络速度
- 自动处理模型分片和合并
🚀 运行GLM-Edge模型
# 对话模型
model_group=ZhipuAI
model_name=glm-edge-1.5b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m ./$model_group/${model_name}-gguf/ggml-model-Q4_K_M.gguf
model_name=glm-edge-4b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m ./$model_group/${model_name}-gguf/ggml-model-Q4_K_M.gguf运行参数说明:
-m:指定模型文件路径- 自动使用最佳的推理参数
- 支持交互式对话模式
🔄 智谱AI转换模型
📤 上传模型
将之前在PC上llama.cpp环境转换的模型,上传到星睿O6
# 操作电脑执行:批量上传
# Linux:
# model_name_list="chatglm3-6b glm-edge-1.5b-chat glm-edge-4b-chat glm-4-9b-chat-hf GLM-4.6V-Flash"
# macos:
model_name_list=(chatglm3-6b glm-edge-1.5b-chat glm-edge-4b-chat glm-4-9b-chat-hf GLM-4.6V-Flash)
for model_name in $model_name_list
do
scp -c aes128-ctr -o "MACs umac-64@openssh.com" ssh-ohos-new:/data/home/honestqiao/Projects/orion-o6/llama.cpp/models/${model_name}-Q4_K_M.gguf orion-o6:~/Projects/llama.cpp/models/
done🎯 运行ZhipuAI模型
# 文本模型
model_name=chatglm3-6b
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf
# 对话模型
model_name=glm-4-9b-chat-hf
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf
# 最新模型
model_name=GLM-4.6V-Flash
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf📊 运行实测
📈 性能测试与对比
测试环境:
- 星睿O6:12核ARMv9 CPU,16GB内存
- PC:i9-10900,64G内存
- 测试模型:glm-edge-1.5b-chat, glm-edge-4b-chat, chatglm3-6b
性能指标:
| 模型 | 模型大小 | 加载时间 | 内存占用 | 推理速度 | 响应质量 |
|---|---|---|---|---|---|
| glm-edge-1.5b | 936MB | 2秒 | 1.8GB | 15 tokens/s | 良好 |
| glm-edge-4b | 2.5GB | 3秒 | 4.7GB | 8 tokens/s | 正常 |
| chatglm3-6b | 3.9GB | 4秒 | 6.6GB | 7 tokens/s | 正常 |
具体测试结果如下:
关键发现:
- GLM-Edge系列在ARM平台表现出色
- 内存使用效率高于预期
- 推理速度满足实时交互需求
💬 实际使用体验
对话测试案例:
测试1:基础对话
用户:你好,请介绍一下你自己- glm-edge-1.5b-chat:
- glm-edge-4b-chat:
测试2:技术问答
用户:解释一下ARMv9架构的特点- glm-edge-4b-chat:
测试3:创意写作
用户:写一首关于AI的诗🔧 高级使用技巧
命令行参数优化:
# 高性能配置
model_name=glm-edge-4b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf \
--threads 12 \
--batch-size 512 \
--ctx-size 4096 \
--temp 0.7 \
--repeat-penalty 1.1
# 低延迟配置
model_name=glm-edge-1.5b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf \
--threads 12 \
--batch-size 512 \
--ctx-size 4096 \
--temp 0.7 \
--repeat-penalty 1.1参数说明:
--threads:使用CPU线程数,建议12(满载)--batch-size:批处理大小,影响吞吐量--ctx-size:上下文窗口大小,影响对话连贯性--temp:生成温度,控制创造性--repeat-penalty:重复惩罚,避免循环生成
📊 监控与调优
系统监控:
# 实时监控CPU和内存使用
btop性能调优建议:
- 内存优化:使用更激进的量化级别
- 速度优化:减少上下文窗口大小
- 质量优化:适当增加温度和重复惩罚
- 稳定性:定期清理缓存文件
🌟 GLM-4.6V-Flash测试
📖 简介
2025年12月,智谱AI最新新模型开源发布——GLM-4.6V系列多模态大模型,共包含两款模型:
- GLM-4.6V(106B-A12B):面向云端与高性能集群场景的基础版
- GLM-4.6V-Flash(9B):面向本地部署与低延迟应用的轻量版。
GLM-4.6V 在训练中将上下文窗口扩展至 128k tokens,并在相同参数规模下实现视觉理解的 SOTA 性能。更重要的是,首次在模型架构中原生集成了 Function Calling 能力,有效打通了从"视觉感知"到"可执行行动"的桥梁,为真实业务场景中的多模态智能体提供统一的技术底座。
🚀 运行
在星睿O6上,通过llama.cpp最新版本,可以成功运行GLM-4.6V-Flash。
通过下面的命令,启动GLM-4.6V-Flash模型:
model_name=GLM-4.6V-Flash
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf \
--threads 12 \
--batch-size 512 \
--ctx-size 4096 \
--temp 0.7 \
--repeat-penalty 1.1💬 对话
启动完成后,就可以开始对话:
- 你好
- 请解释一下一见钟情
- 讲一个关于龙的神话故事,情节要有翻转,结尾出乎意料,不超过500字
📊 结果分析
通过上面的测试结果,可以看到GLM-4.6V-Flash确实很强,做为9b模型,在星睿 O6上可以成功运行,并且对话体验的效果也非常的好。
我对于GLM-4.6V-Flash的学习研究还在进行中,需要逐步了解挖掘它的功能,例如Function Calling功能,在研究明白后,会发布文章分享学习过程。
✅ 实战运行完成
通过这些测试和优化,智谱AI文本大模型在星睿O6上运行稳定,可以满足日常对话、问答和创作需求。
🔗 下一篇文章预告
在下一篇中,我们将基于chatglm.cpp框架运行智谱AI文本大模型,对比两个框架在ARM设备上的性能差异,并重点测试GLM系列模型在专用框架上的表现。