「“星睿O6”AI PC开发套件评测」部署DeepSeek的3种方法

部署DeepSeek的3种办法

前言

1.1. LLM和DeepSeek是什么
大语言模型（LLM）是基于深度学习的人工智能技术，通过海量文本数据训练，采用Transformer架构实现自然语言的理解与生成。其核心特点是参数规模庞大（通常达百亿至万亿级别）、训练数据覆盖多领域，并依赖高性能计算资源。例如，GPT-3拥有1750亿参数，训练数据量达3000亿单词，DeepSeek-R1的参数量约700亿，训练数据量未知。
这几年大语言模型发展迅速，不断有新的突破。而DeepSeek就是由国内公司开发的通用低成本、高性能LLM。2025年1月，DeepSeek-R1发布后导致英伟达股价单日暴跌17%，美国能源股下跌超20%，引发全球对AI技术垄断格局的重新评估。

使用Ollama部署DeepSeek

2.1. ollama是什么
ollama是一个方便在本地计算机上运行大语言模型的跨平台工具，使用它可以高效的完成多种大语言模型的部署。想要使用ollama，需要先安装它。使用以下命令即可完成，这个是官方的一键安装脚本，运行后会获取脚本并执行。

curl -fsSL https://ollama.ai/install.sh | sh

在执行过程中，会要求输入sudo密码，初次之外，还需要可以访问github网络。
正常安装的过程中，除了下载已编译的可执行文件外，还会自动创建对应的用户组和服务。
安装完成后，可以看到提示未检测到AMD或者NVIDIA的显卡，只使用CPU模式。由于本次评测的开发板上没有对应显卡，我们只使用纯CPU来运行。

接下来就可以输入指令，运行DeepSeek R1模型了。其实我们可以看出来，使用ollama运行DeepSeek R1的7B模型，已经可以处理一些简单的计算和对话，相对来说还是不错的。

ollama run deepseek-r1:7b

olama 1 +1.png

默认情况下，ollama会下载符合对应模型的最优性能量化版本，例如7B是INT4，14B是FP8。14B提升也不是很大，也不能联网，我们直接下载一个7B的试试就行。
下载速度还是非常快的，我这边是50MB每秒的一个速率，几乎达到宽带上限(十八线城市网速一般)。

下载完毕后会自动运行模型，这里我们可以简单问几个问题，推理的速度还是比较慢的，最终推理的效果也还可以。简单的算术没问题，然后我问了一下0x11aacc的10进制是多少，不管是14b还是7b，都会在aa这里识别错误，只识别到一个a，然后结果当然是错误的。

到huggingface网站上直接下载打包好的模型可执行文件。

3.1. huggingface简介
Hugging Face是一个开源的机器学习平台，专注于自然语言处理（NLP）、计算机视觉、音频处理等多模态人工智能技术。自2016年成立以来，它已成为全球开发者和研究者构建、共享和部署AI模型的核心枢纽，被广泛称为“AI界的GitHub”。我们可以在这个平台上，下载到各种AI模型，也包括DeepSeek的。通过下面这个链接，我们可以下载到由Mozilla团队打包编译好的DeepSeek R1 千问模型文件，这个模型文件包含了AMD64和ARM64的本地推理可执行文件和模型文件。也就是说，在X86-64和ARM64的两种平台上，可以直接下载这个库的模型文件，然后运行，就可以了。

https://huggingface.co/Mozill...

点击这个链接，打开页面后，可以看到左上方靠近屏幕中间的位置，有一个Files and versions的选项卡，然后点击对应的模型文件，即可下载。
这里我们可以选择Q4_K_M.llamafile这个文件下载。

点击文件链接后，可以看到新页面，刚刚位置下方有一个Copy download link的按钮，点击即可复制下载链接。

接下来，我们把这个文件用下载工具下载到开发板上即可，也可以用wget，curl之类的命令行工具。
这个网站的下载速度比较慢，等待一段时间后就下载完成了。下载完成后，我们使用以下命令，给文件添加可执行标志。

chmod +x DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.llamafile

然后直接运行这个可执行文件即可。由于这个文件不在PATH环境变量里，我们需要使用绝对路径或者相对路径，让系统找到该可执行文件。

./DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.llamafile

这要感谢社区的各位大佬们，考虑到部署推理和模型转换的难度，开发出了这种简便的部署方式。这种方式具有零依赖运行、即时启动、多平台兼容等优点。
相比ollama来说，这种方式虽然不能通过一个指令就直接下载和运行相关的模型，比第3种方法要简单不少。

自行编译和调整模型

这个办法是最麻烦的办法，只有对模型和llama.cpp有更多要求的用户需要用。例如你需要自己转换指定量化标准的模型，或者是需要开启GPU支持等等。

4.1. llama.cpp是什么？
llama.cpp是一个基于纯C/C++实现的高性能大语言模型推理引擎，专为优化本地及云端部署而设计。其核心目标在于通过底层硬件加速和量化技术，实现在多样化硬件平台上的高效推理，同时保持低资源占用与易用性。
简单来说，使用llama.cpp可以节省更多的内存，更适合在边缘AI设备平台上使用，CPU性能和节能方面，和Ollama是差不多的。但是由于llama.cpp需要对模型、量化、编译等等专业技能上有更深的理解，难度比ollama要高不少。同时模型需要去huggingface，魔搭社区这些平台上去下载，也增加了这种方法的难度。

4.2. 编译llama.cpp
在编译之前，我们需要去github上下载对应的源码。使用以下命令拉取最新的源码

git clone https://github.com/ggerganov/...

拉取了源码后，我们需要安装一些依赖包，这两个软件包，其中glslc是开启VULKAN支持后需要的依赖，另一个ccache是提供编译缓存的软件（加快二次编译速度）

sudo apt install glslc ccache

接下来执行以下命令，这里的步骤分别是：进入llama.cpp目录，创建build目录并进入该目录，使用cmake生成编译脚本，然后使用make开始编译。

cd llama.cpp
mkdir build && cd build
cmake -DGGML_LLAMAFILE=OFF -DLLAMA_CURL=OFF -DGGML_VULKAN=ON ..
make -j

如果开启了VULKAN支持后，有以下截图的报错，那就是没有安装好glslc依赖，需要按照前面的步骤安装对应的依赖。

顺利编译完成后，我们就可以准备运行了，在运行模型之前，我们还是需要去模型平台上(例如前面提到的huggingface或者魔搭社区)，下载模型文件，在这里建议下载已经蒸馏量化，并转化成gguf格式的成品模型。因为对大多数人来说，这样的就完全够用了。例如我们可以去下面这个链接下载DeepSeek R1 14B的模型。

https://huggingface.co/bartow...

打开链接后，我们可以看到链接里有非常多的文件，对应文件也有一些简单的说明，实际上不同模型对内存的占用是不一样的，比如我收到的这个O6的板子，内存是16GB的，那还是建议跑Q4KL或者Q4KM的模型就可以了。和前面3.1步骤差不多，找到对应文件的下载链接后，直接用wget下载下来就可以了。

然后我们就可以直接执行以下指令，运行这个模型了。

./build/bin/llama-server -m ~/DeepSeek-R1-Distill-Qwen-7B-Q4_K_M.gguf --host 0.0.0.0

运行成功之后，就可以在网页打开对话框，进行对话了。

如果想自己量化模型，需要下载对应的原始模型文件，并且在安装了NVIDA显卡的X86平台上操作，安装相关依赖后，使用convert_hf_to_gguf.py脚本把模型转换成gguf格式，然后再使用llama-quantize程序，把对应模型文件量化成指定的精度，个人不建议折腾这些。

总结

相对来说，我个人更倾向使用第一种方式，就是直接使用ollama部署和运行DeepSeek，这种方式最简单，也最方便，不需要学习AI和模型的各种乱七八糟的知识。

部署DeepSeek的3种办法

前言

使用Ollama部署DeepSeek

到huggingface网站上直接下载打包好的模型可执行文件。

自行编译和调整模型

总结

推荐阅读

目录