【星睿O6评测】从零玩转智谱AI全栈大模型之6-在O6上运行智谱AI文本大模型（llama.cpp）

🎯 本文目标：在星睿O6上基于llama.cpp框架运行智谱AI文本大模型，包括GLM-Edge系列、GLM-4系列和最新的GLM-4.6V-Flash模型，进行全面的性能测试和优化。

经过查阅资料和深入学习，在星睿O6开发板上成功部署了智谱AI系列大模型，包括文本生成大模型、视觉大模型，以及代码生成大模型。

在学习研究的过程中，我做了详细的笔记，经过整理，成为本系列文章，分享给大家。

通过本系列文章，您将了解到：

第一阶段：开发环境准备
- 第一篇：星睿O6与智谱AI大模型概览
- 第二篇：在PC上搭建llama.cpp推理环境
- 第三篇：在PC上搭建chatglm.cpp推理环境
第二阶段：环境迁移与部署
- 第四篇：将llama.cpp环境部署至星睿O6
- 第五篇：将chatglm.cpp环境部署至星睿O6
第三阶段：大模型实战运行
- 第六篇：在星睿O6上运行智谱AI文本大模型（基于llama.cpp）
- 第七篇：在星睿O6上运行智谱AI文本大模型（基于chatglm.cpp）
- 第八篇：在星睿O6上运行智谱AI视觉大模型
- 第九篇：为llama.cpp与chatglm.cpp部署Web服务与OpenAI兼容API
第四阶段：专项能力扩展
- 第十篇：在星睿O6上部署CodeGeeX2实现智能代码生成

本文是第六篇：在星睿O6上运行智谱AI文本大模型（基于llama.cpp）

🎯 GLM-Edge模型

智谱AI为GLM-Edge系列模型，提供了gguf模型文件，可以直接下载，无需转换，开箱即用：

GLM-Edge对话模型
- glm-edge-1.5b-chat-gguf：轻量级模型，适合快速响应和资源受限场景
- glm-edge-4b-chat-gguf：平衡模型，在性能和资源之间取得良好平衡

📥 星睿O6下载智谱AI gguf模型

cd ~/Projects/llama.cpp
source .venv/bin/activate

export LLAMA_CPP_DIR=$(pwd)
export MODELSCOPE_DIR=$(pwd)

# 下载gguf模型文件
model_group=ZhipuAI
model_name_list="glm-edge-1.5b-chat glm-edge-4b-chat"

for model_name in $model_name_list
do
    modelscope download --model $model_group/${model_name}-gguf --local_dir ./$model_group/${model_name}-gguf/
done

下载过程说明：

使用ModelScope下载，确保文件完整性
每个模型约1-4GB，下载时间取决于网络速度
自动处理模型分片和合并

🚀 运行GLM-Edge模型

# 对话模型
model_group=ZhipuAI
model_name=glm-edge-1.5b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m ./$model_group/${model_name}-gguf/ggml-model-Q4_K_M.gguf

model_name=glm-edge-4b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m ./$model_group/${model_name}-gguf/ggml-model-Q4_K_M.gguf

运行参数说明：

-m：指定模型文件路径
自动使用最佳的推理参数
支持交互式对话模式

🔄 智谱AI转换模型

📤 上传模型

将之前在PC上llama.cpp环境转换的模型，上传到星睿O6

# 操作电脑执行：批量上传
# Linux:
# model_name_list="chatglm3-6b glm-edge-1.5b-chat glm-edge-4b-chat  glm-4-9b-chat-hf GLM-4.6V-Flash"
# macos:
model_name_list=(chatglm3-6b glm-edge-1.5b-chat glm-edge-4b-chat glm-4-9b-chat-hf GLM-4.6V-Flash)

for model_name in $model_name_list
do
    scp -c aes128-ctr -o "MACs umac-64@openssh.com" ssh-ohos-new:/data/home/honestqiao/Projects/orion-o6/llama.cpp/models/${model_name}-Q4_K_M.gguf orion-o6:~/Projects/llama.cpp/models/
done

🎯 运行ZhipuAI模型

# 文本模型
model_name=chatglm3-6b
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf

# 对话模型
model_name=glm-4-9b-chat-hf
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf

# 最新模型
model_name=GLM-4.6V-Flash
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf

📊 运行实测

📈 性能测试与对比

测试环境：

星睿O6：12核ARMv9 CPU，16GB内存
PC：i9-10900，64G内存
测试模型：glm-edge-1.5b-chat, glm-edge-4b-chat, chatglm3-6b

性能指标：

模型	模型大小	加载时间	内存占用	推理速度	响应质量
glm-edge-1.5b	936MB	2秒	1.8GB	15 tokens/s	良好
glm-edge-4b	2.5GB	3秒	4.7GB	8 tokens/s	正常
chatglm3-6b	3.9GB	4秒	6.6GB	7 tokens/s	正常

具体测试结果如下：

关键发现：

GLM-Edge系列在ARM平台表现出色
内存使用效率高于预期
推理速度满足实时交互需求

💬 实际使用体验

对话测试案例：

测试1：基础对话

用户：你好，请介绍一下你自己

glm-edge-1.5b-chat:
glm-edge-4b-chat:

测试2：技术问答

用户：解释一下ARMv9架构的特点

glm-edge-4b-chat:

测试3：创意写作

用户：写一首关于AI的诗

🔧 高级使用技巧

命令行参数优化：

# 高性能配置
model_name=glm-edge-4b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf \
  --threads 12 \
  --batch-size 512 \
  --ctx-size 4096 \
  --temp 0.7 \
  --repeat-penalty 1.1

# 低延迟配置
model_name=glm-edge-1.5b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf \
  --threads 12 \
  --batch-size 512 \
  --ctx-size 4096 \
  --temp 0.7 \
  --repeat-penalty 1.1

参数说明：

--threads：使用CPU线程数，建议12（满载）
--batch-size：批处理大小，影响吞吐量
--ctx-size：上下文窗口大小，影响对话连贯性
--temp：生成温度，控制创造性
--repeat-penalty：重复惩罚，避免循环生成

📊 监控与调优

系统监控：

# 实时监控CPU和内存使用
btop

性能调优建议：

内存优化：使用更激进的量化级别
速度优化：减少上下文窗口大小
质量优化：适当增加温度和重复惩罚
稳定性：定期清理缓存文件

🌟 GLM-4.6V-Flash测试

📖 简介

2025年12月，智谱AI最新新模型开源发布——GLM-4.6V系列多模态大模型，共包含两款模型：

GLM-4.6V（106B-A12B）：面向云端与高性能集群场景的基础版
GLM-4.6V-Flash（9B）：面向本地部署与低延迟应用的轻量版。

GLM-4.6V 在训练中将上下文窗口扩展至 128k tokens，并在相同参数规模下实现视觉理解的 SOTA 性能。更重要的是，首次在模型架构中原生集成了 Function Calling 能力，有效打通了从"视觉感知"到"可执行行动"的桥梁，为真实业务场景中的多模态智能体提供统一的技术底座。

🚀 运行

在星睿O6上，通过llama.cpp最新版本，可以成功运行GLM-4.6V-Flash。
通过下面的命令，启动GLM-4.6V-Flash模型：

model_name=GLM-4.6V-Flash
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf \
  --threads 12 \
  --batch-size 512 \
  --ctx-size 4096 \
  --temp 0.7 \
  --repeat-penalty 1.1