Hermes + Qwen3.6：本地最强 Agent 组合！零成本、无限 Token，太香了！

如果现在让我推荐一套最适合普通用户跑本地模型 + Agent 的方案，我会毫不犹豫地推荐：Hermes + Qwen3.6 最新开源模型。这套组合最大的优势就是：免费、好用、灵活，而且非常适合日常使用。

20260503095446 906599 scaled

无论你是想让 AI 帮你处理自动化任务，还是辅助代码编写、中文理解、逻辑推理，Qwen3.6 都已经可以满足大多数人的日常需求。相比很多需要订阅、需要充值 Token 的在线 AI 服务，本地部署最大的好处就是——真正做到 Token 自由。

你不用担心每次对话都在消耗额度，也不用每个月支付固定会员费。模型运行在自己的电脑上，数据不上传到第三方平台，隐私也完全掌握在自己手里。而 Hermes Agent 的加入，则让这套方案变得更加实用。

20260503095807 463571 scaled

部署完成后，你可以把它变成一个真正属于自己的 AI 助手：
支持手机随时对话，支持开机自动启动，也可以长时间保持在线。无论是写代码、查资料、整理内容，还是执行一些自动化操作，它都可以成为你电脑上的 24 小时 AI 助理。

20260503103520 607578

简单来说，Hermes 负责 Agent 能力，Qwen3.6 负责大模型能力。两者结合之后，就可以在本地打造一套免费、私有、可长期使用的 AI 工作流。

对于想体验本地 AI、又不想被 Token 限制的朋友来说，这套方案非常值得尝试。

20260503095834 756839 scaled

接下来，我会从零开始，带大家一步一步把 Hermes + Qwen3.6 部署到自己的电脑上，让你的本地 AI 助手真正跑起来。

部署教程：

第一步：确认环境并安装WSL

# PowerShell 管理员运行
wsl --install           # 装 Ubuntu 24.04
wsl --set-default-version 2

重启后再执行安装Ubuntu 24.04系统

wsl --install -d Ubuntu-24.04

装完会自动重启，重启后会弹出 Ubuntu 窗口让你设置用户名和密码（随便设，记住就行）。

Ubuntu 24.04 装好并登录成功，现在先验证 GPU 是否直通正常：

nvidia-smi

20260503100923 038590

第二步：装 Python 和 pip

sudo apt update && sudo apt install -y python3-pip python3-venv

如果你出现下方这个错误的话，那么主要是因为显卡驱动太旧了，现在我们去更新下驱动！

20260503101203 742156

升级 Windows NVIDIA 驱动【点击前往】去 Windows 下载最新驱动，WSL2 会自动继承；

20260503101343 737006

更新驱动以后，本来我是想通过vllm或者DFlash进行加速运行，但是考虑到很多人的显存没有那么大，可能会爆显存所以我们改用 llama.cpp 方案，更稳定。

第三步：安装 llama.cpp

sudo apt install -y cmake build-essential git
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

好，如果出现这个错误的话，这主要是因为 CUDA Toolkit 没装导致的。WSL2 里需要单独装，运行：

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

这个下载比较大（约2GB），耐心等…. 下载好以后现在设置路径然后重新编译：

export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

cd ~/llama.cpp
rm -rf build
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

第四步：下载开源的本地模型

编译大概需要5-10分钟，编译成功！现在下载模型并启动，运行：

hf download unsloth/Qwen3.6-27B-GGUF \
  Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --local-dir ~/models/

这个文件约 17GB，下载完贴最后几行，我们再启动服务。如果下载很慢或卡住，那么你可以切换到 ModelScope 国内镜像。

这里需要注意，因为我的显存是24G的，所有我选择 Qwen3.6-27B，如果你的显存没这么大，那么可以选择尺寸小一点的模型，比如Qwen3.5

20260503102018 545320

下载好模型以后，现在启动模型服务：（注意把下方命令中的模型名称替换成你自己的）：

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080

🎉 成功启动！

20260503102254 626208
现在打开 Windows 浏览器访问：http://localhost:8080，就能看到内置聊天界面，直接开始和 Qwen3.6-27B 对话了。

20260503102332 115652 scaled

亲测效果极快

20260503102422 112884 scaled

默认它是开启深度思考模式的，如果需要关闭 Thinking 模式要在启动命令里加参数，先 Ctrl+C 停掉服务，然后：

~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 32768 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --chat-template-kwargs '{"enable_thinking":false}' \
  --port 8080

关掉 Thinking（非思考模式）

速度快 20-30%
适合：简单问答、写作、代码补全、解释代码
不适合：复杂算法设计、debug 难题、架构分析

开启 Thinking（思考模式）

速度慢，但推理质量明显更好
适合：复杂编程问题、多步骤逻辑、需要深思熟虑的任务

第五步：安装对接 Hermes Agent

第一步：先保持 llama-server 运行（新开一个 WSL2 终端窗口，让模型服务继续跑在 8080）
第二步：在当前终端安装 Hermes Agent

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

安装程序会自动处理所有依赖（Python、Node.js、ripgrep、ffmpeg），你只需要有 git 就行。

选最后的 Custom endpoint (enter URL manually)，然后填：

URL: http://localhost:8080/v1

API Key: 随便填比如 12345678

Model: 会自动识别

20260503103017 984365

接下来就按照提示，进行配置即可，比如我们可以对接第三方聊天工具：Telegram，当然你可以选择微信、QQ、Discord等

20260503103144 810910

对接以后就可以在任何地方，通过TG来调用并控制电脑上的 Hermes Agent，执行自动化任务，编写代码，撰写文章等，它就是你24小时帮你免费干活的 AI 助手和代理！

20260503103335 411814

最后我们写个启动脚本，每次开机自动启动 llama-server，不用手动跑命令。创建一个启动脚本，每次打开 WSL2 自动启动 llama-server。
先创建脚本文件：

cat > ~/start-llm.sh << 'EOF'
#!/bin/bash
echo "Starting Qwen3.6-27B llama-server..."
~/llama.cpp/build/bin/llama-server \
  --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
  --n-gpu-layers 99 \
  --ctx-size 65536 \
  --flash-attn on \
  --temp 1.0 \
  --top-p 0.95 \
  --top-k 20 \
  --presence-penalty 1.5 \
  --port 8080 \
  --host 0.0.0.0 &

echo "llama-server started, PID: $!"
echo "API: http://localhost:8080/v1"
echo "Chat UI: http://localhost:8080"
EOF
chmod +x ~/start-llm.sh

然后设置 WSL2 启动时自动运行：

echo '# Auto-start llama-server' >> ~/.bashrc
echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc
echo '    ~/start-llm.sh' >> ~/.bashrc
echo 'fi' >> ~/.bashrc

这样每次打开 WSL2 终端，如果 llama-server 没在跑就自动启动，已经在跑就跳过不重复启动。