Mac 本地跑 AI 大模型神器:OMLX,让 Mac Mini 推理速度提升 10 倍!

过去的1个月里,越来越开始Mac 运行本地 AI 模型比如使用 Ollama 运行各种模型,通过 OpenCat Ollama桌面客户端 用。很多都有一个非常痛苦体验:速度慢、推理顿、token 每秒只有

2026 03 14 22 21 35.00 00 12 17.Still001 scaled

尤其是Mac Mini 16GB 内存设备 上,这个问题明显。今天大家介绍一个 Mac 本地模型加速神器 —— OMLX

可以本地模型 推理速度提升 10 以上即使是 Mac Mini 也能轻松运行模型。

下面大家 完整测 + 部署教程

 

一、为什么 Mac 本地模型这么慢?

 

很多Mac 运行本地模型时,一般这样架构:

Ollama → 本地模型 → OpenCat / AI工具

默认情况下:

  • 推理效率不高

  • KV Cache利用

  • CPU/GPU 调度不充分

所以经常出现这种情况:

  • 回复 一个一个往外

  • 每秒 3~5 token

  • 一个简单问题 十秒甚至分钟

对于日常使用来说体验非常差。

二、OMLX:Mac 本地模型加速神器

https://omlx.ai/images/omlx_dashboard_light.png
https://omlx.ai/images/omlx_dashboard_dark.png
OMLX 核心作用:
  • 本地模型推理

  • 提升 token 生成速度

  • 管理模型

  • 提供 OpenAI API 接口

  • 支持压力测试

简单理解:

OMLX = Mac 本地 AI 模型加速服务

部署后,本地模型速度通常可以 提升 5~10 以上

三、Mac Mini 推荐模型

 

如果你的设备16GB Mac Mini推荐使用:

Qwen3.5-9B :[点击前往]  进行下载

原因:

模型 大小 推荐设备
Qwen3.5 4B ~3GB 8GB Mac
Qwen3.5 9B ~6.6GB 16GB Mac
Qwen3.5 27B ~17GB 32GB+

9B 模型性能质量之间非常平衡

四、安装 Ollama

https://kodekloud.com/kk-media/image/upload/v1752883703/notes-assets/images/Running-Local-LLMs-With-Ollama-Installing-Ollama/ollama-download-page-macos-linux-windows.jpg

首先安装 Ollama

步骤:

1️⃣ 打开下载安装

点击前往

2️⃣ 安装完成后打开终端

下载 Qwen3.5 9B 模型

ollama run qwen2.5:9b

 

下载大小:约 6.6GB

下载完成后,可以测试模型:

ollama run qwen2.5:9b

五、速度实测(未优化)

我们测试一个简单数学推理题:

2,6,12,20,30,(?)

 

规律是:

n(n+1)

第六数:

6×7 = 42

但在 Ollama 默认推理下:

结果:

项目 时间
开始生成 20
完整回答 150

速度非常慢。

六、安装 OMLX

在安装之前请确保你当前的mac上已经安装了Openclaw,没有安装的话可以通过下面的一键安装命令:

curl -fsSL https://openclaw.ai/install.sh | bash

来进行安装、升级到最新版本!

 

https://docs.github.com/assets/cb-198931/images/help/stars/lists-overview-on-stars-page.png
https://help.apple.com/assets/68FBBA193607B5D7D10E93FA/68FBBA1F5B40BB61910BDFBB/en_US/a3e401e82f9552fd51a8b7fc868df22c.png
4、下来安装 OMLX

目前 Github 已经有 4000+ Star

下载步骤:

1️⃣ 打开项目 Release

下载最新版本【点击前往】或 【网盘打包下载

注意选择正确版本:

文件 适合设备
square 版本 Mac
tar 版本 M5 / 最新 macOS

下载直接Applications 安装。

七、启动 OMLX 服务器

 

打开 OMLX 后:

配置如下

默认口:8000

API Key:随便设置,例如:12345678

击:

Start Server

看到 绿色状态 说明启动成功。

进入后台:

http://127.0.0.1:8000

八、配置模型缓存(非常关键)

设置建议这样配置:

内存限制

如果16GB Mac

12GB

8GB

存(强烈建议)

例如:

100GB

作用:

  • 保存 KV cache

  • 模型下次启动

九、下载模型

OMLX 识别 Ollama 模型格式。

所以需要 重新下载模型

后台:

Downloader

搜索:

Qwen3.5 9B

直接下载即可。

20260315 1773573960

十、OpenCat

下来OMLX OpenCat

终端运行:

opencat config

 

配置:

Provider

Custom Provider

API 地址

http://127.0.0.1:8000/v1

API Key

留空即可。

然后填写模型 ID:

模型ID的获取地址:http://127.0.0.1:8000/v1/models
复制其中模型 ID。

配置完成后即可。

十一、速度再次

同样问题:

2,6,12,20,30,(?)

 

结果:

方案
Ollama 原生 150
OMLX 加速 10~15

速度提升接近 10 倍!

几乎可以做到 响应

十二、OMLX 高级功能

OMLX 还有很多强大功能:

1️⃣ 性能矩阵测试

可以测试:

  • 线

  • 线

  • 并发压力

评估:

每秒 token 数量

2️⃣ OpenAI API 兼容

支持:

  • OpenAI API

  • Cloud 模型

  • 定义模型

可以直接当:

本地 OpenAI API Server

3️⃣ KV Cache 持久

大幅提升:

  • 模型启动速度

  • 上下文推理效率

如果你想Mac 本地AI 模型那么组合非常推荐:

Ollama
+
Qwen3.5
+
OMLX
+
OpenCat

优势:

  • 本地运行

  • 消耗 token

  • 推理速度大幅提升

  • Mac Mini 也能轻松运行

尤其是对于喜欢折腾 本地 AI + 自动工具 朋友来说,方案真的非常香。

×

感谢您的支持

alipay
支付宝
wechat
微信支付
bitcoin
Bitcoin
usdt
USDT
QR Code