Ollama 支持 MLX 框架：Mac 本地跑大模型的统一内存红利与硬件门槛

文章最后更新于 2026年4 月1日

最近 Ollama 更新到了 0.19 预览版，我看了眼更新日志，终于正式支持了苹果开源的 MLX 机器学习框架。这对于手里捏着 Apple Silicon 芯片（M1 起步）的 Mac 用户来说，算是一波实打实的性能红利。

以往我们在本地跑大语言模型，主要针对的是带独立显卡的 PC。但苹果的玩法不一样，它的 CPU 和 GPU 是共享一块“统一内存”的。Ollama 接入 MLX 之后，就是把这块统一内存的调用效率彻底打通了，加上最新的缓存优化和对英伟达 NVFP4 模型压缩格式的支持，跑本地模型的显存占用和出词速度都有了质的飞跃。

内容目录 隐藏

1) 逃离云端“订阅税”：开发者被 API 逼回本地

2) 硬件门槛：32G 内存起步

3) 本地 Agent：别随便交出系统底裤

逃离云端“订阅税”：开发者被 API 逼回本地

现在的情况是，用 Claude Code 或者 ChatGPT Codex 这种顶配云端工具的开发者，一是订阅费越来越贵，二是动不动就被降智和限流。

这直接把大家逼回了本地。尤其是OpenClaw 项目爆火，让普通人也开始疯狂尝试在自己的机器上跑大模型。因为本地跑不仅零延迟、没网也能用，最关键的是不需要按 Token 给云厂商交税，而且隐私数据永远烂在自己的硬盘里。

Ollama 这次连 VS Code 的集成也顺手扩了，很明显就是冲着这帮苦于云端限流的程序员去的。

硬件门槛：32G 内存起步

MLX 的红利看起来很香，但门槛不低。

目前 Ollama 预览版只支持跑一个模型：阿里 Qwen3.5 的 350 亿参数版本。你不仅需要一台 M 芯片的 Mac，内存还必须至少 32GB 起步。如果你当年为了省钱买了 8G 或者 16G 的丐版，这波性能飞跃跟你半毛钱关系都没有。

未来的 AI 生产力瓶颈，根本不在 CPU 算力，而是在显存和统一内存的容量上。内存大小直接决定了你能跑多聪明的模型。如果你用的是带全新神经引擎的 M5 系列 Mac，那个 Token 生成速度还会再上一个台阶。

本地 Agent：别随便交出系统底裤

本地模型在跑分上确实还打不过 GPT-5 或者 Claude Opus 这些云端前沿怪兽，但应对很多日常的写代码或者文本处理任务已经绰绰有余。

不过，像 OpenClaw 这种号称全自动的 Agent，为了实现那些炫酷的功能（比如帮你自动处理文件），需要你开放极深的系统权限。你为了防云厂商偷窥隐私把模型拉回本地，转头却把电脑底裤的钥匙交给了一个开源的本地模型。这种“裸奔式”的极客玩法，现阶段风险极高。你也可以在VPS上花30美元一年租一个服务器，但是就不能跑本地模型了。

注意安全。

Ollama 支持 MLX 框架：Mac 本地跑大模型的统一内存红利与硬件门槛

逃离云端“订阅税”：开发者被 API 逼回本地

硬件门槛：32G 内存起步

本地 Agent：别随便交出系统底裤

在哪裡買軟件？全網最低價買軟件商城：

我自己覺得好用的軟件和服務

免費電子書、PDF