Apple Silicon wird vom Personal Computer zum planbaren AI-Knoten. Entscheidend ist wie Workloads stapeln — Ollama, Claude Code und Runner teilen Unified Memory.
Auf M4: Swap senkt Ollama ~37→34 tok/s; xcodebuild test driftet 12→19 Min. — CPU oft nicht voll, Speicherdruck schon gelb. Drei Fragen + Druckformel für M4-Upgrade, M5-Warten oder Cloud Mac.
Ein Diagramm: Wie AI-Workloads den Unified Memory sprengen
xcodebuild-Burst · +4–8GB
Gesunder Pfad (Scheduling / getrennte Knoten)
- Du → IDE
- Runner auf Cloud Mac
- Ollama nachts / anderer Rechner
- Reserve → OK
Degradationspfad (alle drei Ebenen online)
- Residentes LLM ↑
- Runner-Burst ↑
- Speicher ↑
- Swap ↑
- Langsamere CI · langsamere Generierung
Kern: Performance-Probleme sind oft Speicher-Scheduling — jede Stufe füllt denselben Pool.
Die drei Fragen unten prüfen: ist diese Kette schon im Swap?
Nach Frage lesen
Dieser Text erklärt die Wahl. Bei klarem Engpass direkt springen:
| Deine Frage | Empfehlung |
|---|---|
| M4/M5-Generation, Upgrade-Timing, Workload-Split | Dieser Text |
| Ollama 7B/14B Speed · Swap-Einfluss | M4 Ollama-Benchmark · 16GB vs 24GB |
| Ollama + Runner zusammen träge — Scheduling? | AI-Scheduling-Runbook |
| Cloud Mac testen oder M5 warten? | Cloud Mac vs M5 · Cloud Mac vs lokal |
Was M4 ändert: ein Knoten für dauerhafte AI-Tasks
M4 ist nicht „CPU etwas schneller“, sondern der erste Mac mini, der lokale Inferenz im Alltags-Desktop dauerhaft hält. (16GB vs 24GB)
memory_pressure, Swap-Kurve, Ollama-Footprint beantworten: CI-Peak und residentes LLM gleichzeitig?
Praxisfrage: tok/s, Swap ja/nein, CI-Walltime-Drift.
Drei Auswahlfragen (nicht nur Benchmarks)
M1→M5 als Benchmark-Leiter kauft falsch. Jede Frage zur Kausalkette: Swap schon da?
| Achse | Frage | Auf M4 prüfen |
|---|---|---|
| Rechenleistung | Reicht tok/s? | 16GB Swap ~34; 24GB ~37 |
| Speicher | Swap? | 16GB 8B: 1,1GB Swap; 24GB: 0 |
| Parallel | Runner + LLM? | xcodebuild + Ollama → Swap (Runbook) |
Generationssprung = wann Swap kommt — tok/s reicht, Swap häufig → trotzdem langsam.
Upgrade-Druck schätzen
Messwerte eintragen (Skala 1–5 ok):
Upgrade-Druck ≈
( Swap-Häufigkeit × CI-Verlangsamung )
+ ( Residente Modelle × Speicher je Modell )
− ( Verbleibende Reserve )
Unten der Kette: Swap-bindiger Unified Memory bremst jede Ebene.
Ergebnis lesen:
- Deutlich > 0 — 24GB, Ollama vor CI stoppen, Cloud Mac für Runner/Inferenz.
- ≈ 0 — halten, loggen, in Wochen erneut messen.
- < 0, tok/s knapp — Rechenlimit. Nicht auf M5 warten bei aktivem Swap.
16GB: 1,1GB Swap, Runner 12→19 Min. → Druck > 0. Noch ein M4 16GB reicht nicht.
Lokal vs Cloud Mac aufteilen
Cloud Mac ist kein Remote-Desktop, sondern ein 24/7-macOS-Knoten für Builds und Inferenz.
| Wo | Läuft auf | Typische Tasks |
|---|---|---|
| Lokaler Mac | Laptop / Desktop | Code, Review, Claude Code |
| Cloud Mac | Dediziertes Mac mini 24/7 | Runner, Xcode, Signierung, TestFlight |
| Cloud Mac / Off-Peak | Nacht / dediziert | Ollama, Embedding-Batches |
AI-Dev: Cloud Mac vs M5 · Ollama auf Cloud Mac
30-Sekunden-Selbstcheck
Auf dem zu bewertenden Mac ausführen und protokollieren:
# Chip and unified memory
sysctl -n machdep.cpu.brand_string
system_profiler SPHardwareDataType | grep "Memory:"
# Swap and Ollama footprint
ollama ps
memory_pressure
vm_stat | grep "Pageouts"
# Runner latency (CI log or local timer)
# xcodebuild test wall time: 12 min before swap → 19 min after (same repo)
Optional tok/s (gleiches Skript wie 16GB vs 24GB):
python3 -m mlx_lm.generate \
--model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit \
--prompt "Summarize Apple Silicon unified memory in 3 bullets." \
--max-tokens 128
# Record: tok/s, Memory Used, Swap Used
Pageouts steigen bei residentem Ollama + Runner-Drift >30% → zuerst Scheduling und RAM.
Auf M5 warten?
M5 noch nicht Mainstream. Branche Richtung größerer Unified Memory — nach Release gleiche Befehle.
Bis M5-Daten: M4 tok/s/Swap/Runner. 2026–2027 M4 für AI-Dev bleibt pragmatisch (M4 vs GPU-Cloud).
Fallstrick: schnell genug, schlechtes Scheduling
Nach M2 16GB Upgrade auf M4 16GB — nächtliches Ollama-Embedding: xcodebuild test 12→19 Min.
Merken
Nicht zu langsam — Workloads überlappten. M4 stoppt Ollama nicht vor CI.
24GB oder Maschinen/Zeit-Split (Parallel-Scheduling).
FAQ
M4 oder M5? Zuerst Swap und Runner.
Mac mini für AI? 7B–14B, Core ML, Agent+CI. 70B → GPU-Cloud.
Cloud Mac vs Kauf? Alltag lokal, 24/7 Runner in der Cloud.
ZavCloud
Swap und CI messen, dann entscheiden
Dediziertes Mac mini M4 — gleicher Check lokal oder Cloud.
Cloud-Mac-Tarife