HonestQiao · 20 小时前 · 北京

【星睿O6评测】从零玩转智谱AI全栈大模型之6-在O6上运行智谱AI文本大模型(llama.cpp)

🎯 本文目标:在星睿O6上基于llama.cpp框架运行智谱AI文本大模型,包括GLM-Edge系列、GLM-4系列和最新的GLM-4.6V-Flash模型,进行全面的性能测试和优化。

经过查阅资料和深入学习,在星睿O6开发板上成功部署了智谱AI系列大模型,包括文本生成大模型、视觉大模型,以及代码生成大模型。

001.jpg

在学习研究的过程中,我做了详细的笔记,经过整理,成为本系列文章,分享给大家。

通过本系列文章,您将了解到:

  • 第一阶段:开发环境准备

    • 第一篇:星睿O6与智谱AI大模型概览
    • 第二篇:在PC上搭建llama.cpp推理环境
    • 第三篇:在PC上搭建chatglm.cpp推理环境
  • 第二阶段:环境迁移与部署

    • 第四篇:将llama.cpp环境部署至星睿O6
    • 第五篇:将chatglm.cpp环境部署至星睿O6
  • 第三阶段:大模型实战运行

    • 第六篇:在星睿O6上运行智谱AI文本大模型(基于llama.cpp)
    • 第七篇:在星睿O6上运行智谱AI文本大模型(基于chatglm.cpp)
    • 第八篇:在星睿O6上运行智谱AI视觉大模型
    • 第九篇:为llama.cpp与chatglm.cpp部署Web服务与OpenAI兼容API
  • 第四阶段:专项能力扩展

    • 第十篇:在星睿O6上部署CodeGeeX2实现智能代码生成

本文是第六篇:在星睿O6上运行智谱AI文本大模型(基于llama.cpp)

🎯 GLM-Edge模型

智谱AI为GLM-Edge系列模型,提供了gguf模型文件,可以直接下载,无需转换,开箱即用:

  • GLM-Edge对话模型

    • glm-edge-1.5b-chat-gguf:轻量级模型,适合快速响应和资源受限场景
    • glm-edge-4b-chat-gguf:平衡模型,在性能和资源之间取得良好平衡

📥 星睿O6下载智谱AI gguf模型

cd ~/Projects/llama.cpp
source .venv/bin/activate

export LLAMA_CPP_DIR=$(pwd)
export MODELSCOPE_DIR=$(pwd)

# 下载gguf模型文件
model_group=ZhipuAI
model_name_list="glm-edge-1.5b-chat glm-edge-4b-chat"

for model_name in $model_name_list
do
    modelscope download --model $model_group/${model_name}-gguf --local_dir ./$model_group/${model_name}-gguf/
done

下载过程说明

  • 使用ModelScope下载,确保文件完整性
  • 每个模型约1-4GB,下载时间取决于网络速度
  • 自动处理模型分片和合并

002.jpg

🚀 运行GLM-Edge模型

# 对话模型
model_group=ZhipuAI
model_name=glm-edge-1.5b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m ./$model_group/${model_name}-gguf/ggml-model-Q4_K_M.gguf

model_name=glm-edge-4b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m ./$model_group/${model_name}-gguf/ggml-model-Q4_K_M.gguf

015.jpg

运行参数说明

  • -m:指定模型文件路径
  • 自动使用最佳的推理参数
  • 支持交互式对话模式

🔄 智谱AI转换模型

📤 上传模型

将之前在PC上llama.cpp环境转换的模型,上传到星睿O6

# 操作电脑执行:批量上传
# Linux:
# model_name_list="chatglm3-6b glm-edge-1.5b-chat glm-edge-4b-chat  glm-4-9b-chat-hf GLM-4.6V-Flash"
# macos:
model_name_list=(chatglm3-6b glm-edge-1.5b-chat glm-edge-4b-chat glm-4-9b-chat-hf GLM-4.6V-Flash)

for model_name in $model_name_list
do
    scp -c aes128-ctr -o "MACs umac-64@openssh.com" ssh-ohos-new:/data/home/honestqiao/Projects/orion-o6/llama.cpp/models/${model_name}-Q4_K_M.gguf orion-o6:~/Projects/llama.cpp/models/
done

🎯 运行ZhipuAI模型

# 文本模型
model_name=chatglm3-6b
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf

# 对话模型
model_name=glm-4-9b-chat-hf
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf

# 最新模型
model_name=GLM-4.6V-Flash
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf

016.jpg

📊 运行实测

📈 性能测试与对比

测试环境

  • 星睿O6:12核ARMv9 CPU,16GB内存
  • PC:i9-10900,64G内存
  • 测试模型:glm-edge-1.5b-chat, glm-edge-4b-chat, chatglm3-6b

性能指标

模型模型大小加载时间内存占用推理速度响应质量
glm-edge-1.5b936MB2秒1.8GB15 tokens/s良好
glm-edge-4b2.5GB3秒4.7GB8 tokens/s正常
chatglm3-6b3.9GB4秒6.6GB7 tokens/s正常

具体测试结果如下:
003.jpg

关键发现

  • GLM-Edge系列在ARM平台表现出色
  • 内存使用效率高于预期
  • 推理速度满足实时交互需求

💬 实际使用体验

对话测试案例

测试1:基础对话

用户:你好,请介绍一下你自己
  • glm-edge-1.5b-chat:
    004.jpg
  • glm-edge-4b-chat:
    005.jpg

测试2:技术问答

用户:解释一下ARMv9架构的特点
  • glm-edge-4b-chat:
    006.jpg

测试3:创意写作

用户:写一首关于AI的诗

007.jpg

🔧 高级使用技巧

命令行参数优化

# 高性能配置
model_name=glm-edge-4b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf \
  --threads 12 \
  --batch-size 512 \
  --ctx-size 4096 \
  --temp 0.7 \
  --repeat-penalty 1.1

# 低延迟配置
model_name=glm-edge-1.5b-chat
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf \
  --threads 12 \
  --batch-size 512 \
  --ctx-size 4096 \
  --temp 0.7 \
  --repeat-penalty 1.1

参数说明

  • --threads:使用CPU线程数,建议12(满载)
  • --batch-size:批处理大小,影响吞吐量
  • --ctx-size:上下文窗口大小,影响对话连贯性
  • --temp:生成温度,控制创造性
  • --repeat-penalty:重复惩罚,避免循环生成

📊 监控与调优

系统监控

# 实时监控CPU和内存使用
btop

性能调优建议

  1. 内存优化:使用更激进的量化级别
  2. 速度优化:减少上下文窗口大小
  3. 质量优化:适当增加温度和重复惩罚
  4. 稳定性:定期清理缓存文件

🌟 GLM-4.6V-Flash测试

📖 简介

2025年12月,智谱AI最新新模型开源发布——GLM-4.6V系列多模态大模型,共包含两款模型:

  • GLM-4.6V(106B-A12B):面向云端与高性能集群场景的基础版
  • GLM-4.6V-Flash(9B):面向本地部署与低延迟应用的轻量版。

GLM-4.6V 在训练中将上下文窗口扩展至 128k tokens,并在相同参数规模下实现视觉理解的 SOTA 性能。更重要的是,首次在模型架构中原生集成了 Function Calling 能力,有效打通了从"视觉感知"到"可执行行动"的桥梁,为真实业务场景中的多模态智能体提供统一的技术底座。
008.jpg

🚀 运行

在星睿O6上,通过llama.cpp最新版本,可以成功运行GLM-4.6V-Flash。
通过下面的命令,启动GLM-4.6V-Flash模型:

model_name=GLM-4.6V-Flash
$LLAMA_CPP_DIR/build/bin/llama-cli -m models/${model_name}-Q4_K_M.gguf \
  --threads 12 \
  --batch-size 512 \
  --ctx-size 4096 \
  --temp 0.7 \
  --repeat-penalty 1.1

💬 对话

启动完成后,就可以开始对话:

  • 你好
    009.jpg
  • 请解释一下一见钟情
    010.jpg
    011.jpg
  • 讲一个关于龙的神话故事,情节要有翻转,结尾出乎意料,不超过500字
    012.jpg
    013.jpg

📊 结果分析

014.jpg

通过上面的测试结果,可以看到GLM-4.6V-Flash确实很强,做为9b模型,在星睿 O6上可以成功运行,并且对话体验的效果也非常的好。

我对于GLM-4.6V-Flash的学习研究还在进行中,需要逐步了解挖掘它的功能,例如Function Calling功能,在研究明白后,会发布文章分享学习过程。


✅ 实战运行完成

通过这些测试和优化,智谱AI文本大模型在星睿O6上运行稳定,可以满足日常对话、问答和创作需求。

🔗 下一篇文章预告
在下一篇中,我们将基于chatglm.cpp框架运行智谱AI文本大模型,对比两个框架在ARM设备上的性能差异,并重点测试GLM系列模型在专用框架上的表现。

推荐阅读
关注数
1
内容数
11
此芯AI PC开发套件瑞莎“星睿O6”评测
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息