M4 / M5 Apple Silicon 正從「效能晶片」變成「AI 運算平台」

AI 隨筆  ·  2026.06.04  ·  約 10 分鐘閱讀

Mac mini 與工作站,象徵 M4/M5 從效能晶片走向 AI 運算平台

Apple Silicon 正從「個人電腦」變成「可排程的 AI 運算節點」。 M4/M5 的關鍵不是 Geekbench,而是工作負載如何堆疊——同一台 Mac mini 上,Ollama、Claude Code、GitHub Runner 誰先吃滿統一記憶體,決定你覺得「快」還是「卡」。

我們在 M4 上反覆看到:記憶體開始 Swap 時,Ollama 從約 37 降到 34 tok/s;自架 Runner 的 xcodebuild test 從 12 分鐘漂到 19 分鐘——CPU 常還沒打滿,記憶體壓力條已經變黃。下文用三個選型問題簡單估算式,協助你在升級 M4、等 M5、租用 Cloud Mac 之間做可驗證的決定。

一張圖看懂 AI Workload 如何壓垮統一記憶體

人的操作 提交、按 Run、開 PR
互動層 · IDE / Claude Code 本機 Mac · 記憶體峰值
執行層 · Runner / CI xcodebuild burst · +4–8GB
LLM 背景 · Ollama 常駐 7B–14B · embedding 不退出
統一記憶體 · 共享池 CPU / GPU / NPU 同一塊地板 · 瓶頸在這
Swap · 退化訊號 不是算力不夠,是記憶體調度失敗
tok/s ↓ · CI wall time ↑ 例:37→34 tok/s · 12→19 分鐘

正常路徑(有排班 / 拆節點)

  • → IDE 寫程式
  • Runner 在 Cloud Mac 跑 CI
  • Ollama 夜間或另一台機器
  • 記憶體有餘量 → OK

退化路徑(三層同時在線)

  • LLM 常駐
  • Runner burst
  • 記憶體占用
  • Swap
  • CI 變慢 · 生成掉速

核心論點:效能問題往往是記憶體調度問題,不是算力問題——每一環都在往同一個池子倒水。

左:事件如何一步步把統一記憶體推過臨界;右:有排班 vs 無排班。下文「升級壓力」估算式,測的就是這條鏈是否已進入 Swap。

下面三個選型問題,其實都是在測這條鏈是否已經開始進入 Swap 狀態。

本篇講怎麼選。已有具體疑問可直接跳轉:

你在問什麼建議閱讀
M4/M5 generational change, upgrade timing, workload splitThis post
How fast is Ollama 7B/14B? How much does swap hurt tok/s?M4 Mac mini Ollama benchmark · 16GB vs 24GB
Ollama + Runner together feel sluggish—how to schedule?AI workload scheduling runbook
Rent Cloud Mac to validate, or wait for M5 / buy hardware?Cloud Mac vs waiting for M5 · Cloud Mac vs local Mac
34→37
tok/s(16GB Swap vs 24GB 零 Swap)
12→19
分鐘(Runner 被 Swap 拖慢)
1.1GB
Swap(qwen3:8b 常駐 · 16GB)

M4 變了什麼:不是更快的 Mac,而是能長期跑 AI 任務的節點

M4 不是「CPU 又快了一點」,而是預設開發環境就能長期跑本地推理的 Mac mini。 神經引擎約 38 TOPS,與 CPU/GPU 共享統一記憶體——Chrome + VS Code + 常駐 qwen3:8b 已是日常(見 16GB vs 24GB 實測)。

系統也可驗證:memory_pressure、Activity Monitor 的 Swap 曲線、Ollama footprint——回答的是同一台機器能否同時扛 CI 峰值與 LLM 常駐

對工程師,實用問題已從「IDE 卡不卡」變成三項可測指標:Ollama tok/s是否 SwapCI wall time 是否漂移

三個選型問題(別只看跑分)

把 M1→M5 當跑分迭代會買錯機器。下列問題對應 因果鏈——每條都在問:Swap 是否已出現。

看什麼你要回答的問題M4 上怎麼驗
算力tok/s 是否夠用?16GB Swap 時 ~34 tok/s;24GB 零 Swap ~37 tok/s
記憶體是否觸發 Swap?16GB 常駐 8B:Swap 1.1GB、壓力黃;24GB:Swap 0、壓力綠
並行Runner 和 LLM 能同時跑嗎?xcodebuild burst +4–8GB;與 Ollama 疊加即 Swap(見 排班 runbook

代際差異本質是「Swap 何時出現」,不是抽象意義上的變快。算力夠但 Swap 頻繁,體感仍像機器變慢;記憶體夠、調度合理,同代晶片也能當穩定 AI 節點。

要不要升級:簡單估算式

把下面四項依實測填入(頻率、影響用 1–5 粗估即可):

升級壓力 ≈

  ( Swap 出現有多頻繁 × 對 CI 變慢的影響 )
+ ( 同時常駐幾個模型 × 每個占多少記憶體 )
− ( 目前還剩多少記憶體餘量 )

這句話在說什麼:式子測的是 因果鏈 底部——統一記憶體一旦被 Swap 占滿,上面每一環都會變慢

怎麼讀結果:

  • 明顯 > 0 — 優先加餘量:升 24GB、CI 前停 Ollama,或加 Cloud Mac 拆 Runner 與推理。
  • 接近 0 — 維持現狀,記錄數字,隔幾週再測。
  • < 0 但 tok/s 仍不夠 — 更像純算力瓶頸,可觀察 M5;在 Swap 未消除時以為等下一代就好。

對照本站實測:16GB Swap 1.1GB、Runner 12→19 分鐘 → 壓力明顯 > 0,同檔再買 M4 16GB 不夠,需 24GB 或排班。

本機 Mac 與 Cloud Mac 怎麼分工

Cloud Mac 不是遠端桌面,而是專跑 24/7 建置與推理的 macOS 節點。 對照 因果鏈右側「正常路徑」

放哪跑什麼典型任務
本機 Mac筆電 / 桌面寫程式、Review、Claude Code
Cloud Mac獨享 Mac mini,24/7GitHub Runner、Xcode 建置、簽名、TestFlight
Cloud Mac 或錯峰夜間 / 專用節點Ollama / MLX 推理、embedding 批處理

本機負責「人在迴路內」,雲端負責「合蓋後仍在跑」。租用與採購:Mac mini AI 開發:Cloud Mac vs 等 M5;Ollama 長期服務:Ollama 在 Cloud Mac 上的定位

30 秒自檢:在你自己的 Mac 上跑

在要評估的機器上執行,把結果記下來:

# Chip and unified memory
sysctl -n machdep.cpu.brand_string
system_profiler SPHardwareDataType | grep "Memory:"

# Swap and Ollama footprint
ollama ps
memory_pressure
vm_stat | grep "Pageouts"

# Runner latency (CI log or local timer)
# xcodebuild test wall time: 12 min before swap → 19 min after (same repo)

可選 tok/s 基準(與 16GB vs 24GB 文同源腳本):

python3 -m mlx_lm.generate \
  --model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit \
  --prompt "Summarize Apple Silicon unified memory in 3 bullets." \
  --max-tokens 128
# Record: tok/s, Memory Used, Swap Used

Pageouts 在 Ollama 常駐期間持續增加,且 Runner wall time 漂移 >30%,先查調度與記憶體檔,再查晶片代際

M5 值得等嗎

M5 尚未成為主流現貨,不宜當「買了就一勞永逸」。更現實的判斷:產業往更大統一記憶體、更高頻寬走,可能讓 Swap 出現得更晚——但仍要以上市後同一套命令複測為準。

在 M5 實機出來前,仍建議用 M4 的 tok/s、Swap、Runner 耗時決策。2026–2027 年租或買 M4 跑 AI 開發仍是務實選擇(成本對比見 M4 vs GPU 雲)。

踩坑:性能够,排班不夠

某團隊在 M2 16GB 跑通 Claude Code + Runner 後換 M4 16GB,夜間 Ollama embedding 一啟動,xcodebuild test12 分鐘漂到 19 分鐘——記憶體壓力黃條 + 持續 Swap,CPU 並不高。

記住這句

問題往往不是晶片不夠快,而是任務沒排班。 換 M4 不會自動在 CI 前停 Ollama,也不會憑空多出記憶體。

解法:升 24GB,或把 Ollama 與 Runner 拆到不同機器 / 錯峰並行排班一文)。

常見問題

該升級 M4 還是等 M5? 先看 Swap 和 Runner。經常 Swap 或 CI 漂移 → 24GB、排班或 Cloud Mac;Swap 為零但生成仍慢 → 再觀察 M5。別用 Geekbench 代替實測。

Mac mini 適合 AI 開發嗎? 適合 7B–14B 本地推理、Core ML、Agent + CI。70B 級訓練仍應選 GPU 雲。

Cloud Mac 和買實體機怎麼選? 實體機適合日常寫程式;Cloud Mac 適合 24/7 Runner、夜間批推理,以及「先跑通流水線再決定買哪檔記憶體」。

ZavCloud

先測 Swap 和 CI 耗時,再決定升配或租用

獨享 Mac mini M4、原生 macOS、靜態 IPv4——在本機或雲端用同一套命令跑完自檢,再下單實體機或按日租用。

查看 Cloud Mac 方案
Cloud Mac線上租用 Mac mini