李隆 · 1 天前

「“星睿O6”AI PC开发套件评测」部署DeepSeek的3种方法

部署DeepSeek的3种办法

前言

1.1. LLM和DeepSeek是什么
大语言模型(LLM)是基于深度学习的人工智能技术,通过海量文本数据训练,采用​​Transformer架构​​实现自然语言的理解与生成。其核心特点是参数规模庞大(通常达百亿至万亿级别)、训练数据覆盖多领域,并依赖高性能计算资源。例如,GPT-3拥有1750亿参数,训练数据量达3000亿单词,DeepSeek-R1​的参数量约700亿,训练数据量未知。
这几年大语言模型发展迅速,不断有新的突破。而DeepSeek就是由国内公司开发的通用低成本、高性能LLM。2025年1月,DeepSeek-R1发布后导致英伟达股价单日暴跌17%,美国能源股下跌超20%,引发全球对AI技术垄断格局的重新评估。

使用Ollama部署DeepSeek

2.1. ollama是什么
ollama是一个方便在本地计算机上运行大语言模型的跨平台工具,使用它可以高效的完成多种大语言模型的部署。想要使用ollama,需要先安装它。使用以下命令即可完成,这个是官方的一键安装脚本,运行后会获取脚本并执行。

curl -fsSL https://ollama.ai/install.sh | sh

在执行过程中,会要求输入sudo密码,初次之外,还需要可以访问github网络。
正常安装的过程中,除了下载已编译的可执行文件外,还会自动创建对应的用户组和服务。
安装完成后,可以看到提示未检测到AMD或者NVIDIA的显卡,只使用CPU模式。由于本次评测的开发板上没有对应显卡,我们只使用纯CPU来运行。
ollama.png

接下来就可以输入指令,运行DeepSeek R1模型了。其实我们可以看出来,使用ollama运行DeepSeek R1的7B模型,已经可以处理一些简单的计算和对话,相对来说还是不错的。

ollama run deepseek-r1:7b

olama 1 +1.png
ollama_temp.png

默认情况下,ollama会下载符合对应模型的最优性能量化版本,例如7B是INT4,14B是FP8。14B提升也不是很大,也不能联网,我们直接下载一个7B的试试就行。
下载速度还是非常快的,我这边是50MB每秒的一个速率,几乎达到宽带上限(十八线城市网速一般)。

下载完毕后会自动运行模型,这里我们可以简单问几个问题,推理的速度还是比较慢的,最终推理的效果也还可以。简单的算术没问题,然后我问了一下0x11aacc的10进制是多少,不管是14b还是7b,都会在aa这里识别错误,只识别到一个a,然后结果当然是错误的。
ollama16bit.png

到huggingface网站上直接下载打包好的模型可执行文件。

3.1. huggingface简介
Hugging Face是一个开源的机器学习平台,专注于自然语言处理(NLP)、计算机视觉、音频处理等多模态人工智能技术。自2016年成立以来,它已成为全球开发者和研究者构建、共享和部署AI模型的核心枢纽,被广泛称为“AI界的GitHub”。我们可以在这个平台上,下载到各种AI模型,也包括DeepSeek的。通过下面这个链接,我们可以下载到由Mozilla团队打包编译好的DeepSeek R1 千问模型文件,这个模型文件包含了AMD64和ARM64的本地推理可执行文件和模型文件。也就是说,在X86-64和ARM64的两种平台上,可以直接下载这个库的模型文件,然后运行,就可以了。

https://huggingface.co/Mozill...

点击这个链接,打开页面后,可以看到左上方靠近屏幕中间的位置,有一个Files and versions的选项卡,然后点击对应的模型文件,即可下载。
这里我们可以选择Q4_K_M.llamafile这个文件下载。

image.png

点击文件链接后,可以看到新页面,刚刚位置下方有一个Copy download link的按钮,点击即可复制下载链接。
image.png
接下来,我们把这个文件用下载工具下载到开发板上即可,也可以用wget,curl之类的命令行工具。
这个网站的下载速度比较慢,等待一段时间后就下载完成了。下载完成后,我们使用以下命令,给文件添加可执行标志。

chmod +x DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.llamafile

然后直接运行这个可执行文件即可。由于这个文件不在PATH环境变量里,我们需要使用绝对路径或者相对路径,让系统找到该可执行文件。

./DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.llamafile

这要感谢社区的各位大佬们,考虑到部署推理和模型转换的难度,开发出了这种简便的部署方式。这种方式具有​​零依赖运行​​、​​即时启动、多平台兼容等优点。
相比ollama来说,这种方式虽然不能通过一个指令就直接下载和运行相关的模型,比第3种方法要简单不少。

自行编译和调整模型

这个办法是最麻烦的办法,只有对模型和llama.cpp有更多要求的用户需要用。例如你需要自己转换指定量化标准的模型,或者是需要开启GPU支持等等。

4.1. llama.cpp是什么?
llama.cpp是一个基于纯C/C++实现的高性能大语言模型推理引擎,专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术,实现在多样化硬件平台上的高效推理,同时保持低资源占用与易用性。
简单来说,使用llama.cpp可以节省更多的内存,更适合在边缘AI设备平台上使用,CPU性能和节能方面,和Ollama是差不多的。但是由于llama.cpp需要对模型、量化、编译等等专业技能上有更深的理解,难度比ollama要高不少。同时模型需要去huggingface,魔搭社区这些平台上去下载,也增加了这种方法的难度。

4.2. 编译llama.cpp
在编译之前,我们需要去github上下载对应的源码。使用以下命令拉取最新的源码

git clone https://github.com/ggerganov/...

拉取了源码后,我们需要安装一些依赖包,这两个软件包,其中glslc是开启VULKAN支持后需要的依赖,另一个ccache是提供编译缓存的软件(加快二次编译速度)

sudo apt install glslc ccache

接下来执行以下命令,这里的步骤分别是:进入llama.cpp目录,创建build目录并进入该目录,使用cmake生成编译脚本,然后使用make开始编译。

cd llama.cpp
mkdir build && cd build
cmake -DGGML_LLAMAFILE=OFF -DLLAMA_CURL=OFF -DGGML_VULKAN=ON ..
make -j

如果开启了VULKAN支持后,有以下截图的报错,那就是没有安装好glslc依赖,需要按照前面的步骤安装对应的依赖。
image.png

顺利编译完成后,我们就可以准备运行了,在运行模型之前,我们还是需要去模型平台上(例如前面提到的huggingface或者魔搭社区),下载模型文件,在这里建议下载已经蒸馏量化,并转化成gguf格式的成品模型。因为对大多数人来说,这样的就完全够用了。例如我们可以去下面这个链接下载DeepSeek R1 14B的模型。

https://huggingface.co/bartow...

打开链接后,我们可以看到链接里有非常多的文件,对应文件也有一些简单的说明,实际上不同模型对内存的占用是不一样的,比如我收到的这个O6的板子,内存是16GB的,那还是建议跑Q4KL或者Q4KM的模型就可以了。和前面3.1步骤差不多,找到对应文件的下载链接后,直接用wget下载下来就可以了。

然后我们就可以直接执行以下指令,运行这个模型了。

./build/bin/llama-server -m ~/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf --host 0.0.0.0

运行成功之后,就可以在网页打开对话框,进行对话了。

如果想自己量化模型,需要下载对应的原始模型文件,并且在安装了NVIDA显卡的X86平台上操作,安装相关依赖后,使用convert_hf_to_gguf.py脚本把模型转换成gguf格式,然后再使用llama-quantize程序,把对应模型文件量化成指定的精度,个人不建议折腾这些。

总结

相对来说,我个人更倾向使用第一种方式,就是直接使用ollama部署和运行DeepSeek,这种方式最简单,也最方便,不需要学习AI和模型的各种乱七八糟的知识。

推荐阅读
关注数
1456
内容数
37
搭载安谋科技“周易”NPU的此芯AI PC开发套件瑞莎星睿O6开发板文档、活动及评测等专栏,加开发者群请添加极术小姐姐(id:aijishu20))。
目录
极术微信服务号
关注极术微信号
实时接收点赞提醒和评论通知
安谋科技学堂公众号
关注安谋科技学堂
实时获取安谋科技及 Arm 教学资源
安谋科技招聘公众号
关注安谋科技招聘
实时获取安谋科技中国职位信息