部署教程:
# PowerShell 管理员运行 wsl --install # 装 Ubuntu 24.04 wsl --set-default-version 2
重启后再执行安装Ubuntu 24.04系统
wsl --install -d Ubuntu-24.04
装完会自动重启,重启后会弹出 Ubuntu 窗口让你设置用户名和密码(随便设,记住就行)。
Ubuntu 24.04 装好并登录成功,现在先验证 GPU 是否直通正常:
nvidia-smi

第二步:装 Python 和 pip
sudo apt update && sudo apt install -y python3-pip python3-venv
如果你出现下方这个错误的话,那么主要是因为显卡驱动太旧了,现在我们去更新下驱动!

升级 Windows NVIDIA 驱动 【点击前往】去 Windows 下载最新驱动,WSL2 会自动继承;

更新驱动以后,本来我是想通过vllm或者DFlash进行加速运行,但是考虑到很多人的显存没有那么大,可能会爆显存所以我们改用 llama.cpp 方案,更稳定。
第三步:安装 llama.cpp
sudo apt install -y cmake build-essential git git clone https://github.com/ggerganov/llama.cpp cd llama.cpp cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89 cmake --build build -j$(nproc)
好,如果出现这个错误的话,这主要是因为 CUDA Toolkit 没装导致的。WSL2 里需要单独装,运行:
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb sudo dpkg -i cuda-keyring_1.1-1_all.deb sudo apt update sudo apt install -y cuda-toolkit-12-8
这个下载比较大(约2GB),耐心等…. 下载好以后现在设置路径然后重新编译:
export PATH=/usr/local/cuda-12.8/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc cd ~/llama.cpp rm -rf build cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89 cmake --build build -j$(nproc)
第四步:下载开源的本地模型
编译大概需要5-10分钟,编译成功!现在下载模型并启动,运行:
hf download unsloth/Qwen3.6-27B-GGUF \ Qwen3.6-27B-UD-Q4_K_XL.gguf \ --local-dir ~/models/
这个文件约 17GB,下载完贴最后几行,我们再启动服务。如果下载很慢或卡住,那么你可以切换到 ModelScope 国内镜像。
这里需要注意,因为我的显存是24G的,所有我选择 Qwen3.6-27B,如果你的显存没这么大,那么可以选择尺寸小一点的模型,比如Qwen3.5

下载好模型以后,现在启动模型服务:(注意把下方命令中的模型名称替换成你自己的):
~/llama.cpp/build/bin/llama-server \ --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \ --n-gpu-layers 99 \ --ctx-size 32768 \ --flash-attn on \ --temp 1.0 \ --top-p 0.95 \ --top-k 20 \ --presence-penalty 1.5 \ --port 8080
🎉 成功启动!

现在打开 Windows 浏览器访问:http://localhost:8080,就能看到内置聊天界面,直接开始和 Qwen3.6-27B 对话了。

亲测效果极快

默认它是开启深度思考模式的,如果需要关闭 Thinking 模式要在启动命令里加参数,先 Ctrl+C 停掉服务,然后:
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 32768 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--chat-template-kwargs '{"enable_thinking":false}' \
--port 8080
关掉 Thinking(非思考模式)
速度快 20-30%
适合:简单问答、写作、代码补全、解释代码
不适合:复杂算法设计、debug 难题、架构分析
开启 Thinking(思考模式)
速度慢,但推理质量明显更好
适合:复杂编程问题、多步骤逻辑、需要深思熟虑的任务
第五步:安装对接 Hermes Agent
第一步:先保持 llama-server 运行(新开一个 WSL2 终端窗口,让模型服务继续跑在 8080)
第二步:在当前终端安装 Hermes Agent
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
安装程序会自动处理所有依赖(Python、Node.js、ripgrep、ffmpeg),你只需要有 git 就行。
选最后的 Custom endpoint (enter URL manually),然后填:
URL: http://localhost:8080/v1
API Key: 随便填比如 12345678
Model: 会自动识别

接下来就按照提示,进行配置即可,比如我们可以对接第三方聊天工具:Telegram,当然你可以选择微信、QQ、Discord等

对接以后就可以在任何地方,通过TG来调用并控制电脑上的 Hermes Agent,执行自动化任务, 编写代码,撰写文章等,它就是你24小时帮你免费干活的 AI 助手和代理!

最后我们写个启动脚本,每次开机自动启动 llama-server,不用手动跑命令。创建一个启动脚本,每次打开 WSL2 自动启动 llama-server。
先创建脚本文件:
cat > ~/start-llm.sh << 'EOF' #!/bin/bash echo "Starting Qwen3.6-27B llama-server..." ~/llama.cpp/build/bin/llama-server \ --model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \ --n-gpu-layers 99 \ --ctx-size 65536 \ --flash-attn on \ --temp 1.0 \ --top-p 0.95 \ --top-k 20 \ --presence-penalty 1.5 \ --port 8080 \ --host 0.0.0.0 & echo "llama-server started, PID: $!" echo "API: http://localhost:8080/v1" echo "Chat UI: http://localhost:8080" EOF chmod +x ~/start-llm.sh
然后设置 WSL2 启动时自动运行:
echo '# Auto-start llama-server' >> ~/.bashrc echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc echo ' ~/start-llm.sh' >> ~/.bashrc echo 'fi' >> ~/.bashrc
这样每次打开 WSL2 终端,如果 llama-server 没在跑就自动启动,已经在跑就跳过不重复启动。








