M4 Mac mini 跑 Ollama 实测:7B / 14B tok/s + Swap 真实影响

AI 手记  ·  2026.06.06  ·  约 8 分钟阅读

M4 Mac mini Ollama Mac performance 实测:7B 14B tok/s 与 unified memory Swap

搜「Ollama Mac 有多快」或「M4 跑 7B 够不够」时,需要的是可复现数字——不是「能跑」,而是 tok/s 多少、Swap 后慢多少。本文在同一套脚本下测 M4 16GB / 24GB 的 qwen3:8b 与 14B 档;选型框架与Swap 因果链图见总文。

16GB vs 24GB 一周手记的差异:本篇只列 Ollama 7B/14B 数字与复现命令,不展开购买后悔或 Claude Code 叙事。

34
tok/s · 16GB + Swap 1.1GB
37
tok/s · 24GB 零 Swap
~9%
算力差 · 体感差来自 Swap

测试环境与负载

  • 机器:Mac mini M4,16GB / 24GB 各一台
  • 软件:macOS 15.x,Ollama 最新稳定版
  • 背景负载:Chrome ~20 标签、VS Code、微信(模拟日常开发,非裸机)
  • 模型qwen3:8bqwen3:14b(Ollama 默认量化)

7B(qwen3:8b)结果

指标16GB24GB
Memory Used(稳态)~13.2GB~16.4GB
Swap Used1.1GB0
Memory Pressure绿
tok/s(512 token 提示,2 min 后)~34~37

模型算力相近,~9% tok/s 差距主要来自是否 Swap,不是 M4 算力不够。

14B 结果与内存墙

qwen3:14b 稳态约 19.1GB 已用(24GB 机可零 Swap);16GB 机 Swap 2.3GB+,tok/s 明显下降。14B 日常主力建议 24GB——与选型总文里「并发模型占内存」的判断一致。

Swap 对 tok/s 的真实影响

当 Ollama 常驻且 GitHub Runner 触发 xcodebuild 峰值(约 +4–8GB),16GB 机会明显 Swap、CI 变慢。解法见并行排班一文,或升 24GB / 拆到 Cloud Mac。

复现命令

# 拉模型并常驻
ollama pull qwen3:8b
ollama run qwen3:8b ""  # 保持 loaded

# 另开终端:观察内存
memory_pressure
vm_stat | grep Pageouts

# tok/s(与 16GB vs 24GB 文同源)
ollama run qwen3:8b "Write 512 tokens about Apple Silicon unified memory." \
  --verbose 2>&1 | tee /tmp/ollama-bench.log

把 Memory Used、Swap、tok/s 写入 runbook,作为团队 M4 Mac mini benchmark 基线。

下一步读什么

ZavCloud

在 Cloud Mac 上复现同一套 Ollama 脚本

独享 M4 Mac mini,按日计费——先测 Swap 与 tok/s,再决定买 16GB 还是 24GB 实体机。

查看 Cloud Mac 方案
Cloud Mac在线租用 Mac mini