Ollama 支持 MLX 框架:Mac 本地跑大模型的统一内存红利与硬件门槛


[正版] ✨ 精选macOS, Windows软件


文章最后更新于 2026年4 月1日

最近 Ollama 更新到了 0.19 预览版,我看了眼更新日志,终于正式支持了苹果开源的 MLX 机器学习框架。这对于手里捏着 Apple Silicon 芯片(M1 起步)的 Mac 用户来说,算是一波实打实的性能红利。

以往我们在本地跑大语言模型,主要针对的是带独立显卡的 PC。但苹果的玩法不一样,它的 CPU 和 GPU 是共享一块“统一内存”的。Ollama 接入 MLX 之后,就是把这块统一内存的调用效率彻底打通了,加上最新的缓存优化和对英伟达 NVFP4 模型压缩格式的支持,跑本地模型的显存占用和出词速度都有了质的飞跃。

逃离云端“订阅税”:开发者被 API 逼回本地

现在的情况是,用 Claude Code 或者 ChatGPT Codex 这种顶配云端工具的开发者,一是订阅费越来越贵,二是动不动就被降智和限流。

这直接把大家逼回了本地。尤其是OpenClaw 项目爆火,让普通人也开始疯狂尝试在自己的机器上跑大模型。因为本地跑不仅零延迟、没网也能用,最关键的是不需要按 Token 给云厂商交税,而且隐私数据永远烂在自己的硬盘里。

Ollama 这次连 VS Code 的集成也顺手扩了,很明显就是冲着这帮苦于云端限流的程序员去的。

硬件门槛:32G 内存起步

MLX 的红利看起来很香,但门槛不低。

目前 Ollama 预览版只支持跑一个模型:阿里 Qwen3.5 的 350 亿参数版本。你不仅需要一台 M 芯片的 Mac,内存还必须至少 32GB 起步。如果你当年为了省钱买了 8G 或者 16G 的丐版,这波性能飞跃跟你半毛钱关系都没有。

未来的 AI 生产力瓶颈,根本不在 CPU 算力,而是在显存和统一内存的容量上。内存大小直接决定了你能跑多聪明的模型。如果你用的是带全新神经引擎的 M5 系列 Mac,那个 Token 生成速度还会再上一个台阶。

本地 Agent:别随便交出系统底裤

本地模型在跑分上确实还打不过 GPT-5 或者 Claude Opus 这些云端前沿怪兽,但应对很多日常的写代码或者文本处理任务已经绰绰有余。

不过,像 OpenClaw 这种号称全自动的 Agent,为了实现那些炫酷的功能(比如帮你自动处理文件),需要你开放极深的系统权限。你为了防云厂商偷窥隐私把模型拉回本地,转头却把电脑底裤的钥匙交给了一个开源的本地模型。这种“裸奔式”的极客玩法,现阶段风险极高。你也可以在VPS上花30美元一年租一个服务器,但是就不能跑本地模型了。

注意安全。


微信公众号

在哪裡買軟件?全網最低價買軟件商城:

我自己覺得好用的軟件和服務

免費電子書、PDF

发表评论