在过去的1个月里,越来越多的人开始在 Mac 上运行本地 AI 大模型。比如使用 Ollama 来运行各种模型,再通过 OpenCat 或 Ollama桌面客户端 来调用。但很多人都有一个非常痛苦的体验:速度慢、推理卡顿、token 每秒只有个位数。

尤其是在 Mac Mini 或 16GB 内存设备 上,这个问题更明显。今天给大家介绍一个 Mac 本地跑模型的加速神器 —— OMLX。
它可以让本地模型 推理速度提升 10 倍以上,即使是 丐版 Mac Mini 也能轻松运行大模型。
下面我带大家 完整实测 + 部署教程
一、为什么 Mac 本地模型这么慢?
很多人在 Mac 上运行本地模型时,一般是这样的架构:
但默认情况下:
-
推理效率不高
-
KV Cache利用率低
-
CPU/GPU 调度不充分
所以经常会出现这种情况:
-
回复 一个字一个字往外蹦
-
每秒 3~5 token
-
一个简单问题 几十秒甚至几分钟
这对于日常使用来说体验非常差。
二、OMLX:Mac 本地模型加速神器
-
优化本地模型推理
-
提升 token 生成速度
-
管理模型缓存
-
提供 OpenAI API 接口
-
支持压力测试
简单理解:
OMLX = Mac 本地 AI 模型加速服务器
部署后,本地模型速度通常可以 提升 5~10 倍以上。
三、Mac Mini 推荐模型
如果你的设备是 16GB Mac Mini,推荐使用:
Qwen3.5-9B :[点击前往] 进行下载
原因:
| 模型 | 大小 | 推荐设备 |
|---|---|---|
| Qwen3.5 4B | ~3GB | 8GB Mac |
| Qwen3.5 9B | ~6.6GB | 16GB Mac |
| Qwen3.5 27B | ~17GB | 32GB+ |
9B 模型在 性能和质量之间非常平衡。
四、安装 Ollama
首先安装 Ollama。
步骤:
1️⃣ 打开官网下载安装
【点击前往】
2️⃣ 安装完成后打开终端
下载 Qwen3.5 9B 模型
ollama run qwen2.5:9b
下载大小:约 6.6GB
下载完成后,就可以测试模型:
五、速度实测(未优化)
我们先测试一个简单的数学推理题:
2,6,12,20,30,(?)
规律是:
第六个数:
但在 Ollama 默认推理下:
结果:
| 项目 | 时间 |
|---|---|
| 开始生成 | 20 秒 |
| 完整回答 | 1分50秒 |
速度非常慢。
六、安装 OMLX
在安装之前请确保你当前的mac上已经安装了Openclaw,没有安装的话可以通过下面的一键安装命令:
curl -fsSL https://openclaw.ai/install.sh | bash
来进行安装、升级到最新版本!
目前 Github 已经有 4000+ Star。
下载步骤:
1️⃣ 打开项目 Release 页面
下载最新版本【点击前往】或 【网盘打包下载】
注意选择正确版本:
| 文件 | 适合设备 |
|---|---|
| square 版本 | 老 Mac |
| tar 版本 | M5 / 最新 macOS |
下载后直接拖入 Applications 安装。
七、启动 OMLX 服务器
打开 OMLX 后:
配置如下
默认端口:8000
API Key:随便设置,例如:12345678
点击:
当看到 绿色状态 就说明启动成功。
进入后台:
八、配置模型缓存(非常关键)
在设置里建议这样配置:
内存限制
如果是 16GB Mac
热缓存
冷缓存(强烈建议)
例如:
作用:
-
保存 KV cache
-
模型下次启动更快
九、下载模型
OMLX 不识别 Ollama 模型格式。
所以需要 重新下载模型。
在后台:
搜索:
直接下载即可。
十、对接 OpenCat
接下来把 OMLX 接入 OpenCat。
终端运行:
opencat config
配置:
Provider
API 地址
API Key
留空即可。
然后填写模型 ID:
配置完成后即可。
十一、速度再次实测
同样的问题:
2,6,12,20,30,(?)
结果:
| 方案 | 用时 |
|---|---|
| Ollama 原生 | 1分50秒 |
| OMLX 加速 | 10~15秒 |
速度提升接近 10 倍!
几乎可以做到 秒级响应。
十二、OMLX 的高级功能
OMLX 还有很多强大功能:
1️⃣ 性能矩阵测试
可以测试:
-
单线程
-
多线程
-
并发压力
评估:
2️⃣ OpenAI API 兼容
支持:
-
OpenAI API
-
Cloud 模型
-
自定义模型
可以直接当:
3️⃣ KV Cache 持久化
大幅提升:
-
模型启动速度
-
上下文推理效率
如果你想在 Mac 上本地跑 AI 大模型,那么这套组合非常推荐:
+
Qwen3.5
+
OMLX
+
OpenCat
优势:
-
本地运行
-
不消耗 token
-
推理速度大幅提升
-
Mac Mini 也能轻松运行
尤其是对于喜欢折腾 本地 AI + 自动化工具 的朋友来说,这套方案真的非常香。









