M4 Mac mini 跑 Ollama 實測:7B / 14B tok/s + Swap 真實影響

AI 隨筆  ·  2026.06.06  ·  約 8 分鐘閱讀

M4 Mac mini Ollama 實測:7B/14B tok/s 與 unified memory Swap

搜「Ollama Mac 有多快」需要的是可複現數字——tok/s 多少、Swap 後慢多少。同一腳本測 M4 16GB / 24GB 的 qwen3:8b 與 14B;選型框架與 Swap 因果鏈圖 見總文。

16GB vs 24GB 一週手記 的差異:本篇只列 Ollama 7B/14B 數字與複現命令。

34
tok/s · 16GB + Swap 1.1GB
37
tok/s · 24GB 零 Swap
~9%
算力差 · 體感差來自 Swap

測試環境與負載

  • Hardware: Mac mini M4, 16GB and 24GB units
  • Software: macOS 15.x, latest stable Ollama
  • Background: ~20 Chrome tabs, VS Code, Slack (daily dev, not bare metal)
  • Models: qwen3:8b, qwen3:14b (Ollama default quant)

7B(qwen3:8b)結果

指標16GB24GB
Memory Used (steady)~13.2GB~16.4GB
Swap Used1.1GB0
Memory Pressure
tok/s (512-token prompt, after 2 min)~34~37

模型算力相近,~9% tok/s 差距主要來自是否 Swap

14B 結果與記憶體牆

qwen3:14b 穩態約 19.1GB(24GB 零 Swap);16GB Swap 2.3GB+,tok/s 明顯下降。14B 日常主力建議 24GB

Swap 對 tok/s 的真實影響

Ollama 常駐且 Runner 觸發 xcodebuild 峰值,16GB 會 Swap、CI 變慢。解法見 並行排班,或升 24GB / 拆到 Cloud Mac。

複現命令

# Pull and keep loaded
ollama pull qwen3:8b
ollama run qwen3:8b ""  # keep loaded

# Other terminal: memory
memory_pressure
vm_stat | grep Pageouts

# tok/s (same script as 16GB vs 24GB post)
ollama run qwen3:8b "Write 512 tokens about Apple Silicon unified memory." \
  --verbose 2>&1 | tee /tmp/ollama-bench.log

把 Memory Used、Swap、tok/s 寫進 runbook,作為團隊基線。

下一步閱讀

ZavCloud

在 Cloud Mac 上複現同一套 Ollama 腳本

獨享 M4 Mac mini,按日計費——先測 Swap 與 tok/s,再決定買 16GB 還是 24GB。

查看 Cloud Mac 方案
Cloud Mac線上租用 Mac mini