M4 / M5 Apple Silicon devient une plateforme de calcul IA — pas seulement une puce plus rapide

Le Apple Silicon devient un nœud IA planifiable. L'enjeu M4/M5 est comment les charges s'empilent — Ollama, Claude Code et Runner partagent la mémoire unifiée.

Sur M4 : le swap fait passer Ollama ~37→34 tok/s ; xcodebuild test de 12 à 19 min. Trois questions + formule de pression pour M4, M5 ou Cloud Mac.

Un schéma : comment les workloads IA saturent la mémoire unifiée

Saisie humaine Commit, Run, PR

déclenche

Interaktion · IDE / Claude Code lokaler Mac · Speicher-Spitzen

s'empile

Ausführung · Runner / CI xcodebuild-Burst · +4–8GB

s'empile

LLM-Hintergrund · Ollama resident 7B–14B · Embeddings bleiben geladen

converge

Unified Memory · gemeinsamer Pool CPU/GPU/NPU eine Fläche · Engpass hier

dépasse la marge

Swap · Degradationssignal nicht zu wenig Rechenleistung — Scheduling scheitert

se manifeste par

tok/s ↓ · CI-Walltime ↑ z. B. 37→34 tok/s · 12→19 Min.

Chemin sain (planification / nœuds séparés)

Du → IDE
Runner auf Cloud Mac
Ollama nachts / anderer Rechner
Reserve → OK

Chemin de dégradation (trois couches actives)

Residentes LLM ↑
Runner-Burst ↑
Speicher ↑
Swap ↑
Langsamere CI · langsamere Generierung

Idée clé : souvent un problème de scheduling mémoire, pas de calcul brut.

À gauche : comment les événements dépassent le seuil ; à droite : avec ou sans planification. La formule de pression mesure l'entrée en swap.

Les trois questions ci-dessous vérifient si la chaîne est déjà en swap.

Lire selon votre question

Cet article explique comment choisir. Sautez si le goulot est clair :

Votre question	Lire
Changement M4/M5, timing, découpage workload	Cet article
Vitesse Ollama 7B/14B · impact swap	Benchmark Ollama M4 · 16 Go vs 24 Go
Ollama + Runner lents — scheduling ?	Runbook scheduling IA
Cloud Mac ou attendre M5 ?	Cloud Mac vs M5（6/9 发布） · Cloud Mac vs local

34→37

tok/s (16GB Swap vs 24GB kein Swap)

12→19

Min. (Runner durch Swap)

1.1GB

Swap (qwen3:8b resident · 16GB)

Ce que change le M4 : un nœud pour l'IA continue

Le M4 n'est pas « CPU un peu plus rapide » — c'est le premier Mac mini qui tient l'inférence locale au quotidien. (16 Go vs 24 Go)

memory_pressure, courbe swap, footprint Ollama : CI + LLM résident ensemble ?

Questions pratiques : tok/s, swap ou non, drift CI.

Trois questions (pas seulement les benchmarks)

Voir M1→M5 comme échelle de benchmarks achète la mauvaise machine. Chaque question sur la chaîne causale : swap déjà là ?

Achse	Frage	Auf M4 prüfen
Rechenleistung	Reicht tok/s?	16GB Swap ~34; 24GB ~37
Speicher	Swap?	16GB 8B: 1,1GB Swap; 24GB: 0
Parallel	Runner + LLM?	xcodebuild + Ollama → Swap (Runbook)

L'écart générationnel = quand le swap apparaît — tok/s ok mais swap fréquent = machine lente.

Estimer la pression de mise à niveau

Entrez vos mesures (échelle 1–5 ok) :

Pression upgrade ≈

  ( fréquence swap × impact CI )
+ ( modèles résidents × mémoire )
− ( marge restante )

Bas de la chaîne : mémoire unifiée sous swap = tout ralentit.

Lire le résultat :

Bien > 0 — 24 Go, stop Ollama avant CI, Cloud Mac.
≈ 0 — maintenir, noter, remesurer.
< 0, tok/s bas — limite compute ; ne pas attendre M5 avec swap actif.

16GB: 1,1GB Swap, Runner 12→19 Min. → Druck > 0. Noch ein M4 16GB reicht nicht.

Mac local vs Cloud Mac

Cloud Mac n'est pas un bureau à distance — nœud macOS 24/7 pour builds et inférence.

Wo	Läuft auf	Typische Tasks
Lokaler Mac	Laptop / Desktop	Code, Review, Claude Code
Cloud Mac	Dediziertes Mac mini 24/7	Runner, Xcode, Signierung, TestFlight
Cloud Mac / Off-Peak	Nacht / dediziert	Ollama, Embedding-Batches

Dev IA : Cloud Mac vs M5（6/9 发布） · Ollama sur Cloud Mac

Auto-contrôle 30 secondes

Exécuter sur la machine à évaluer et noter :

# Chip and unified memory
sysctl -n machdep.cpu.brand_string
system_profiler SPHardwareDataType | grep "Memory:"

# Swap and Ollama footprint
ollama ps
memory_pressure
vm_stat | grep "Pageouts"

# Runner latency (CI log or local timer)
# xcodebuild test wall time: 12 min before swap → 19 min after (same repo)

Optional tok/s (gleiches Skript wie 16GB vs 24GB):

python3 -m mlx_lm.generate \
  --model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit \
  --prompt "Summarize Apple Silicon unified memory in 3 bullets." \
  --max-tokens 128
# Record: tok/s, Memory Used, Swap Used

Pageouts steigen bei residentem Ollama + Runner-Drift >30% → zuerst Scheduling und RAM.

Attendre le M5 ?

M5 noch nicht Mainstream. Branche Richtung größerer Unified Memory — nach Release gleiche Befehle.

Bis M5-Daten: M4 tok/s/Swap/Runner. 2026–2027 M4 für AI-Dev bleibt pragmatisch (M4 vs GPU-Cloud).

Piège : assez rapide, mauvais scheduling

Nach M2 16GB Upgrade auf M4 16GB — nächtliches Ollama-Embedding: xcodebuild test 12→19 Min.

À retenir

Pas trop lent — charges superposées. M4 n'arrête pas Ollama avant CI.

24GB oder Maschinen/Zeit-Split (Parallel-Scheduling).

FAQ

M4 oder M5? Zuerst Swap und Runner.

Mac mini für AI? 7B–14B, Core ML, Agent+CI. 70B → GPU-Cloud.

Cloud Mac vs Kauf? Alltag lokal, 24/7 Runner in der Cloud.

M4 Ollama 7B/14B
16GB vs 24GB
Ollama + Runner parallel
Cloud Mac vs M5（6/9 发布）

ZavCloud

Mesurer swap et CI avant de choisir

Dediziertes Mac mini M4 — gleicher Check lokal oder Cloud.

Offres Cloud Mac

M4 / M5 Apple Silicon passe d'une puce performance à plateforme IA