搜「Ollama Mac 有多快」或「M4 跑 7B 够不够」时,需要的是可复现数字——不是「能跑」,而是 tok/s 多少、Swap 后慢多少。本文在同一套脚本下测 M4 16GB / 24GB 的 qwen3:8b 与 14B 档;选型框架与Swap 因果链图见总文。
与16GB vs 24GB 一周手记的差异:本篇只列 Ollama 7B/14B 数字与复现命令,不展开购买后悔或 Claude Code 叙事。
34
tok/s · 16GB + Swap 1.1GB
37
tok/s · 24GB 零 Swap
~9%
算力差 · 体感差来自 Swap
测试环境与负载
- 机器:Mac mini M4,16GB / 24GB 各一台
- 软件:macOS 15.x,Ollama 最新稳定版
- 背景负载:Chrome ~20 标签、VS Code、微信(模拟日常开发,非裸机)
- 模型:
qwen3:8b、qwen3:14b(Ollama 默认量化)
7B(qwen3:8b)结果
| 指标 | 16GB | 24GB |
|---|---|---|
| Memory Used(稳态) | ~13.2GB | ~16.4GB |
| Swap Used | 1.1GB | 0 |
| Memory Pressure | 黄 | 绿 |
| tok/s(512 token 提示,2 min 后) | ~34 | ~37 |
模型算力相近,~9% tok/s 差距主要来自是否 Swap,不是 M4 算力不够。
14B 结果与内存墙
qwen3:14b 稳态约 19.1GB 已用(24GB 机可零 Swap);16GB 机 Swap 2.3GB+,tok/s 明显下降。14B 日常主力建议 24GB——与选型总文里「并发模型占内存」的判断一致。
Swap 对 tok/s 的真实影响
当 Ollama 常驻且 GitHub Runner 触发 xcodebuild 峰值(约 +4–8GB),16GB 机会明显 Swap、CI 变慢。解法见并行排班一文,或升 24GB / 拆到 Cloud Mac。
复现命令
# 拉模型并常驻
ollama pull qwen3:8b
ollama run qwen3:8b "" # 保持 loaded
# 另开终端:观察内存
memory_pressure
vm_stat | grep Pageouts
# tok/s(与 16GB vs 24GB 文同源)
ollama run qwen3:8b "Write 512 tokens about Apple Silicon unified memory." \
--verbose 2>&1 | tee /tmp/ollama-bench.log
把 Memory Used、Swap、tok/s 写入 runbook,作为团队 M4 Mac mini benchmark 基线。
下一步读什么
ZavCloud
在 Cloud Mac 上复现同一套 Ollama 脚本
独享 M4 Mac mini,按日计费——先测 Swap 与 tok/s,再决定买 16GB 还是 24GB 实体机。
查看 Cloud Mac 方案