M4 / M5 Apple Silicon wird zur AI-Rechenplattform — nicht nur ein schnellerer Chip

Apple Silicon wird vom Personal Computer zum planbaren AI-Knoten. Entscheidend ist wie Workloads stapeln — Ollama, Claude Code und Runner teilen Unified Memory.

Auf M4: Swap senkt Ollama ~37→34 tok/s; xcodebuild test driftet 12→19 Min. — CPU oft nicht voll, Speicherdruck schon gelb. Drei Fragen + Druckformel für M4-Upgrade, M5-Warten oder Cloud Mac.

Ein Diagramm: Wie AI-Workloads den Unified Memory sprengen

Menschliche Eingabe Commit, Run, PR

auslöst

Interaktion · IDE / Claude Code lokaler Mac · Speicher-Spitzen

stapelt

Ausführung · Runner / CI xcodebuild-Burst · +4–8GB

stapelt

LLM-Hintergrund · Ollama resident 7B–14B · Embeddings bleiben geladen

mündet in

Unified Memory · gemeinsamer Pool CPU/GPU/NPU eine Fläche · Engpass hier

über Reserve

Swap · Degradationssignal nicht zu wenig Rechenleistung — Scheduling scheitert

zeigt sich als

tok/s ↓ · CI-Walltime ↑ z. B. 37→34 tok/s · 12→19 Min.

Gesunder Pfad (Scheduling / getrennte Knoten)

Du → IDE
Runner auf Cloud Mac
Ollama nachts / anderer Rechner
Reserve → OK

Degradationspfad (alle drei Ebenen online)

Residentes LLM ↑
Runner-Burst ↑
Speicher ↑
Swap ↑
Langsamere CI · langsamere Generierung

Kern: Performance-Probleme sind oft Speicher-Scheduling — jede Stufe füllt denselben Pool.

Links: Ereignisse bis über die Schwelle. Die Upgrade-Druck-Formel misst, ob Swap begonnen hat.

Die drei Fragen unten prüfen: ist diese Kette schon im Swap?

Nach Frage lesen

Dieser Text erklärt die Wahl. Bei klarem Engpass direkt springen:

Deine Frage	Empfehlung
M4/M5-Generation, Upgrade-Timing, Workload-Split	Dieser Text
Ollama 7B/14B Speed · Swap-Einfluss	M4 Ollama-Benchmark · 16GB vs 24GB
Ollama + Runner zusammen träge — Scheduling?	AI-Scheduling-Runbook
Cloud Mac testen oder M5 warten?	Cloud Mac vs M5（6/9 发布） · Cloud Mac vs lokal

34→37

tok/s (16GB Swap vs 24GB kein Swap)

12→19

Min. (Runner durch Swap)

1.1GB

Swap (qwen3:8b resident · 16GB)

Was M4 ändert: ein Knoten für dauerhafte AI-Tasks

M4 ist nicht „CPU etwas schneller“, sondern der erste Mac mini, der lokale Inferenz im Alltags-Desktop dauerhaft hält. (16GB vs 24GB)

memory_pressure, Swap-Kurve, Ollama-Footprint beantworten: CI-Peak und residentes LLM gleichzeitig?

Praxisfrage: tok/s, Swap ja/nein, CI-Walltime-Drift.

Drei Auswahlfragen (nicht nur Benchmarks)

M1→M5 als Benchmark-Leiter kauft falsch. Jede Frage zur Kausalkette: Swap schon da?

Achse	Frage	Auf M4 prüfen
Rechenleistung	Reicht tok/s?	16GB Swap ~34; 24GB ~37
Speicher	Swap?	16GB 8B: 1,1GB Swap; 24GB: 0
Parallel	Runner + LLM?	xcodebuild + Ollama → Swap (Runbook)

Generationssprung = wann Swap kommt — tok/s reicht, Swap häufig → trotzdem langsam.

Upgrade-Druck schätzen

Messwerte eintragen (Skala 1–5 ok):

Upgrade-Druck ≈

  ( Swap-Häufigkeit × CI-Verlangsamung )
+ ( Residente Modelle × Speicher je Modell )
− ( Verbleibende Reserve )

Unten der Kette: Swap-bindiger Unified Memory bremst jede Ebene.

Ergebnis lesen:

Deutlich > 0 — 24GB, Ollama vor CI stoppen, Cloud Mac für Runner/Inferenz.
≈ 0 — halten, loggen, in Wochen erneut messen.
< 0, tok/s knapp — Rechenlimit. Nicht auf M5 warten bei aktivem Swap.

16GB: 1,1GB Swap, Runner 12→19 Min. → Druck > 0. Noch ein M4 16GB reicht nicht.

Lokal vs Cloud Mac aufteilen

Cloud Mac ist kein Remote-Desktop, sondern ein 24/7-macOS-Knoten für Builds und Inferenz.

Wo	Läuft auf	Typische Tasks
Lokaler Mac	Laptop / Desktop	Code, Review, Claude Code
Cloud Mac	Dediziertes Mac mini 24/7	Runner, Xcode, Signierung, TestFlight
Cloud Mac / Off-Peak	Nacht / dediziert	Ollama, Embedding-Batches

AI-Dev: Cloud Mac vs M5（6/9 发布） · Ollama auf Cloud Mac

30-Sekunden-Selbstcheck

Auf dem zu bewertenden Mac ausführen und protokollieren:

# Chip and unified memory
sysctl -n machdep.cpu.brand_string
system_profiler SPHardwareDataType | grep "Memory:"

# Swap and Ollama footprint
ollama ps
memory_pressure
vm_stat | grep "Pageouts"

# Runner latency (CI log or local timer)
# xcodebuild test wall time: 12 min before swap → 19 min after (same repo)

Optional tok/s (gleiches Skript wie 16GB vs 24GB):

python3 -m mlx_lm.generate \
  --model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit \
  --prompt "Summarize Apple Silicon unified memory in 3 bullets." \
  --max-tokens 128
# Record: tok/s, Memory Used, Swap Used

Pageouts steigen bei residentem Ollama + Runner-Drift >30% → zuerst Scheduling und RAM.

Auf M5 warten?

M5 noch nicht Mainstream. Branche Richtung größerer Unified Memory — nach Release gleiche Befehle.

Bis M5-Daten: M4 tok/s/Swap/Runner. 2026–2027 M4 für AI-Dev bleibt pragmatisch (M4 vs GPU-Cloud).

Fallstrick: schnell genug, schlechtes Scheduling

Nach M2 16GB Upgrade auf M4 16GB — nächtliches Ollama-Embedding: xcodebuild test 12→19 Min.

Merken

Nicht zu langsam — Workloads überlappten. M4 stoppt Ollama nicht vor CI.

24GB oder Maschinen/Zeit-Split (Parallel-Scheduling).

FAQ

M4 oder M5? Zuerst Swap und Runner.

Mac mini für AI? 7B–14B, Core ML, Agent+CI. 70B → GPU-Cloud.

Cloud Mac vs Kauf? Alltag lokal, 24/7 Runner in der Cloud.

M4 Ollama 7B/14B
16GB vs 24GB
Ollama + Runner parallel
Cloud Mac vs M5（6/9 发布）

ZavCloud

Swap und CI messen, dann entscheiden

Dediziertes Mac mini M4 — gleicher Check lokal oder Cloud.

Cloud-Mac-Tarife

M4 / M5 Apple Silicon wird vom Leistungschip zur AI-Rechenplattform