搜「Ollama Mac 有多快」需要的是可複現數字——tok/s 多少、Swap 後慢多少。同一腳本測 M4 16GB / 24GB 的 qwen3:8b 與 14B;選型框架與 Swap 因果鏈圖 見總文。
與 16GB vs 24GB 一週手記 的差異:本篇只列 Ollama 7B/14B 數字與複現命令。
34
tok/s · 16GB + Swap 1.1GB
37
tok/s · 24GB 零 Swap
~9%
算力差 · 體感差來自 Swap
測試環境與負載
- Hardware: Mac mini M4, 16GB and 24GB units
- Software: macOS 15.x, latest stable Ollama
- Background: ~20 Chrome tabs, VS Code, Slack (daily dev, not bare metal)
- Models:
qwen3:8b,qwen3:14b(Ollama default quant)
7B(qwen3:8b)結果
| 指標 | 16GB | 24GB |
|---|---|---|
| Memory Used (steady) | ~13.2GB | ~16.4GB |
| Swap Used | 1.1GB | 0 |
| Memory Pressure | 黃 | 綠 |
| tok/s (512-token prompt, after 2 min) | ~34 | ~37 |
模型算力相近,~9% tok/s 差距主要來自是否 Swap。
14B 結果與記憶體牆
qwen3:14b 穩態約 19.1GB(24GB 零 Swap);16GB Swap 2.3GB+,tok/s 明顯下降。14B 日常主力建議 24GB。
Swap 對 tok/s 的真實影響
Ollama 常駐且 Runner 觸發 xcodebuild 峰值,16GB 會 Swap、CI 變慢。解法見 並行排班,或升 24GB / 拆到 Cloud Mac。
複現命令
# Pull and keep loaded
ollama pull qwen3:8b
ollama run qwen3:8b "" # keep loaded
# Other terminal: memory
memory_pressure
vm_stat | grep Pageouts
# tok/s (same script as 16GB vs 24GB post)
ollama run qwen3:8b "Write 512 tokens about Apple Silicon unified memory." \
--verbose 2>&1 | tee /tmp/ollama-bench.log
把 Memory Used、Swap、tok/s 寫進 runbook,作為團隊基線。
下一步閱讀
ZavCloud
在 Cloud Mac 上複現同一套 Ollama 腳本
獨享 M4 Mac mini,按日計費——先測 Swap 與 tok/s,再決定買 16GB 還是 24GB。
查看 Cloud Mac 方案