M4 / M5 Apple Silicon passe d'une puce performance à plateforme IA

Notes IA  ·  2026.06.04  ·  ~10 min

Mac mini et poste de travail — M4/M5 vers plateforme IA

Le Apple Silicon devient un nœud IA planifiable. L'enjeu M4/M5 est comment les charges s'empilent — Ollama, Claude Code et Runner partagent la mémoire unifiée.

Sur M4 : le swap fait passer Ollama ~37→34 tok/s ; xcodebuild test de 12 à 19 min. Trois questions + formule de pression pour M4, M5 ou Cloud Mac.

Un schéma : comment les workloads IA saturent la mémoire unifiée

Saisie humaine Commit, Run, PR
Interaktion · IDE / Claude Code lokaler Mac · Speicher-Spitzen
Ausführung · Runner / CI xcodebuild-Burst · +4–8GB
LLM-Hintergrund · Ollama resident 7B–14B · Embeddings bleiben geladen
Unified Memory · gemeinsamer Pool CPU/GPU/NPU eine Fläche · Engpass hier
Swap · Degradationssignal nicht zu wenig Rechenleistung — Scheduling scheitert
tok/s ↓ · CI-Walltime ↑ z. B. 37→34 tok/s · 12→19 Min.

Chemin sain (planification / nœuds séparés)

  • Du → IDE
  • Runner auf Cloud Mac
  • Ollama nachts / anderer Rechner
  • Reserve → OK

Chemin de dégradation (trois couches actives)

  • Residentes LLM
  • Runner-Burst
  • Speicher
  • Swap
  • Langsamere CI · langsamere Generierung

Idée clé : souvent un problème de scheduling mémoire, pas de calcul brut.

À gauche : comment les événements dépassent le seuil ; à droite : avec ou sans planification. La formule de pression mesure l'entrée en swap.

Les trois questions ci-dessous vérifient si la chaîne est déjà en swap.

Cet article explique comment choisir. Sautez si le goulot est clair :

Votre questionLire
Changement M4/M5, timing, découpage workloadCet article
Vitesse Ollama 7B/14B · impact swapBenchmark Ollama M4 · 16 Go vs 24 Go
Ollama + Runner lents — scheduling ?Runbook scheduling IA
Cloud Mac ou attendre M5 ?Cloud Mac vs M5 · Cloud Mac vs local
34→37
tok/s (16GB Swap vs 24GB kein Swap)
12→19
Min. (Runner durch Swap)
1.1GB
Swap (qwen3:8b resident · 16GB)

Ce que change le M4 : un nœud pour l'IA continue

Le M4 n'est pas « CPU un peu plus rapide » — c'est le premier Mac mini qui tient l'inférence locale au quotidien. (16 Go vs 24 Go)

memory_pressure, courbe swap, footprint Ollama : CI + LLM résident ensemble ?

Questions pratiques : tok/s, swap ou non, drift CI.

Trois questions (pas seulement les benchmarks)

Voir M1→M5 comme échelle de benchmarks achète la mauvaise machine. Chaque question sur la chaîne causale : swap déjà là ?

AchseFrageAuf M4 prüfen
RechenleistungReicht tok/s?16GB Swap ~34; 24GB ~37
SpeicherSwap?16GB 8B: 1,1GB Swap; 24GB: 0
ParallelRunner + LLM?xcodebuild + Ollama → Swap (Runbook)

L'écart générationnel = quand le swap apparaît — tok/s ok mais swap fréquent = machine lente.

Estimer la pression de mise à niveau

Entrez vos mesures (échelle 1–5 ok) :

Pression upgrade ≈

  ( fréquence swap × impact CI )
+ ( modèles résidents × mémoire )
− ( marge restante )

Bas de la chaîne : mémoire unifiée sous swap = tout ralentit.

Lire le résultat :

  • Bien > 0 — 24 Go, stop Ollama avant CI, Cloud Mac.
  • ≈ 0 — maintenir, noter, remesurer.
  • < 0, tok/s bas — limite compute ; ne pas attendre M5 avec swap actif.

16GB: 1,1GB Swap, Runner 12→19 Min. → Druck > 0. Noch ein M4 16GB reicht nicht.

Mac local vs Cloud Mac

Cloud Mac n'est pas un bureau à distance — nœud macOS 24/7 pour builds et inférence.

WoLäuft aufTypische Tasks
Lokaler MacLaptop / DesktopCode, Review, Claude Code
Cloud MacDediziertes Mac mini 24/7Runner, Xcode, Signierung, TestFlight
Cloud Mac / Off-PeakNacht / dediziertOllama, Embedding-Batches

Dev IA : Cloud Mac vs M5 · Ollama sur Cloud Mac

Auto-contrôle 30 secondes

Exécuter sur la machine à évaluer et noter :

# Chip and unified memory
sysctl -n machdep.cpu.brand_string
system_profiler SPHardwareDataType | grep "Memory:"

# Swap and Ollama footprint
ollama ps
memory_pressure
vm_stat | grep "Pageouts"

# Runner latency (CI log or local timer)
# xcodebuild test wall time: 12 min before swap → 19 min after (same repo)

Optional tok/s (gleiches Skript wie 16GB vs 24GB):

python3 -m mlx_lm.generate \
  --model mlx-community/Meta-Llama-3.1-8B-Instruct-4bit \
  --prompt "Summarize Apple Silicon unified memory in 3 bullets." \
  --max-tokens 128
# Record: tok/s, Memory Used, Swap Used

Pageouts steigen bei residentem Ollama + Runner-Drift >30% → zuerst Scheduling und RAM.

Attendre le M5 ?

M5 noch nicht Mainstream. Branche Richtung größerer Unified Memory — nach Release gleiche Befehle.

Bis M5-Daten: M4 tok/s/Swap/Runner. 2026–2027 M4 für AI-Dev bleibt pragmatisch (M4 vs GPU-Cloud).

Piège : assez rapide, mauvais scheduling

Nach M2 16GB Upgrade auf M4 16GB — nächtliches Ollama-Embedding: xcodebuild test 12→19 Min.

À retenir

Pas trop lent — charges superposées. M4 n'arrête pas Ollama avant CI.

24GB oder Maschinen/Zeit-Split (Parallel-Scheduling).

FAQ

M4 oder M5? Zuerst Swap und Runner.

Mac mini für AI? 7B–14B, Core ML, Agent+CI. 70B → GPU-Cloud.

Cloud Mac vs Kauf? Alltag lokal, 24/7 Runner in der Cloud.

ZavCloud

Mesurer swap et CI avant de choisir

Dediziertes Mac mini M4 — gleicher Check lokal oder Cloud.

Offres Cloud Mac
Cloud MacLouer un Mac mini