Le Apple Silicon devient un nœud IA planifiable. L'enjeu M4/M5 est comment les charges s'empilent — Ollama, Claude Code et Runner partagent la mémoire unifiée.
Sur M4 : le swap fait passer Ollama ~37→34 tok/s ; xcodebuild test de 12 à 19 min. Trois questions + formule de pression pour M4, M5 ou Cloud Mac.
Un schéma : comment les workloads IA saturent la mémoire unifiée
xcodebuild-Burst · +4–8GB
Chemin sain (planification / nœuds séparés)
- Du → IDE
- Runner auf Cloud Mac
- Ollama nachts / anderer Rechner
- Reserve → OK
Chemin de dégradation (trois couches actives)
- Residentes LLM ↑
- Runner-Burst ↑
- Speicher ↑
- Swap ↑
- Langsamere CI · langsamere Generierung
Idée clé : souvent un problème de scheduling mémoire, pas de calcul brut.
Les trois questions ci-dessous vérifient si la chaîne est déjà en swap.
Lire selon votre question
Cet article explique comment choisir. Sautez si le goulot est clair :
| Votre question | Lire |
|---|---|
| Changement M4/M5, timing, découpage workload | Cet article |
| Vitesse Ollama 7B/14B · impact swap | Benchmark Ollama M4 · 16 Go vs 24 Go |
| Ollama + Runner lents — scheduling ? | Runbook scheduling IA |
| Cloud Mac ou attendre M5 ? | Cloud Mac vs M5 · Cloud Mac vs local |
Ce que change le M4 : un nœud pour l'IA continue
Le M4 n'est pas « CPU un peu plus rapide » — c'est le premier Mac mini qui tient l'inférence locale au quotidien. (16 Go vs 24 Go)
memory_pressure, courbe swap, footprint Ollama : CI + LLM résident ensemble ?
Questions pratiques : tok/s, swap ou non, drift CI.
Trois questions (pas seulement les benchmarks)
Voir M1→M5 comme échelle de benchmarks achète la mauvaise machine. Chaque question sur la chaîne causale : swap déjà là ?
| Achse | Frage | Auf M4 prüfen |
|---|---|---|
| Rechenleistung | Reicht tok/s? | 16GB Swap ~34; 24GB ~37 |
| Speicher | Swap? | 16GB 8B: 1,1GB Swap; 24GB: 0 |
| Parallel | Runner + LLM? | xcodebuild + Ollama → Swap (Runbook) |
L'écart générationnel = quand le swap apparaît — tok/s ok mais swap fréquent = machine lente.
Estimer la pression de mise à niveau
Entrez vos mesures (échelle 1–5 ok) :
Pression upgrade ≈
( fréquence swap × impact CI )
+ ( modèles résidents × mémoire )
− ( marge restante )
Bas de la chaîne : mémoire unifiée sous swap = tout ralentit.
Lire le résultat :
- Bien > 0 — 24 Go, stop Ollama avant CI, Cloud Mac.
- ≈ 0 — maintenir, noter, remesurer.
- < 0, tok/s bas — limite compute ; ne pas attendre M5 avec swap actif.
16GB: 1,1GB Swap, Runner 12→19 Min. → Druck > 0. Noch ein M4 16GB reicht nicht.
Mac local vs Cloud Mac
Cloud Mac n'est pas un bureau à distance — nœud macOS 24/7 pour builds et inférence.
| Wo | Läuft auf | Typische Tasks |
|---|---|---|
| Lokaler Mac | Laptop / Desktop | Code, Review, Claude Code |
| Cloud Mac | Dediziertes Mac mini 24/7 | Runner, Xcode, Signierung, TestFlight |
| Cloud Mac / Off-Peak | Nacht / dediziert | Ollama, Embedding-Batches |
Dev IA : Cloud Mac vs M5 · Ollama sur Cloud Mac
Auto-contrôle 30 secondes
Exécuter sur la machine à évaluer et noter :
# Chip and unified memory
sysctl -n machdep.cpu.brand_string
system_profiler SPHardwareDataType | grep "Memory:"
# Swap and Ollama footprint
ollama ps
memory_pressure
vm_stat | grep "Pageouts"
# Runner latency (CI log or local timer)
# xcodebuild test wall time: 12 min before swap → 19 min after (same repo)
Optional tok/s (gleiches Skript wie 16GB vs 24GB):
python3 -m mlx_lm.generate \
--model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit \
--prompt "Summarize Apple Silicon unified memory in 3 bullets." \
--max-tokens 128
# Record: tok/s, Memory Used, Swap Used
Pageouts steigen bei residentem Ollama + Runner-Drift >30% → zuerst Scheduling und RAM.
Attendre le M5 ?
M5 noch nicht Mainstream. Branche Richtung größerer Unified Memory — nach Release gleiche Befehle.
Bis M5-Daten: M4 tok/s/Swap/Runner. 2026–2027 M4 für AI-Dev bleibt pragmatisch (M4 vs GPU-Cloud).
Piège : assez rapide, mauvais scheduling
Nach M2 16GB Upgrade auf M4 16GB — nächtliches Ollama-Embedding: xcodebuild test 12→19 Min.
À retenir
Pas trop lent — charges superposées. M4 n'arrête pas Ollama avant CI.
24GB oder Maschinen/Zeit-Split (Parallel-Scheduling).
FAQ
M4 oder M5? Zuerst Swap und Runner.
Mac mini für AI? 7B–14B, Core ML, Agent+CI. 70B → GPU-Cloud.
Cloud Mac vs Kauf? Alltag lokal, 24/7 Runner in der Cloud.
ZavCloud
Mesurer swap et CI avant de choisir
Dediziertes Mac mini M4 — gleicher Check lokal oder Cloud.
Offres Cloud Mac