M4 Mac mini Ollama Performance-Benchmark (7B / 14B tok/s + Swap-Auswirkung)

Ist Ollama auf dem M4 Mac mini schnell genug?

Lokal Ollama auf dem M4 Mac mini scheitert selten an zu wenig GPU, sondern daran, ob Swap zuschlägt. Bei 7B reicht es im Alltag meist; bei 14B oder mit Chrome, VS Code und CI-Runner füllt sich der unified memory-Pool—und die Generierung wird spürbar langsamer. Performance-Spoke in unserem M4/M5-Cluster (qwen3:8b / qwen3:14b · realistische Hintergrundlast).

Kernzahlen aus dem Test

M4 Mac mini Ollama benchmark

7B (`qwen3:8b`)

16GB: 34 tok/s (Swap 1,1GB)
24GB: 37 tok/s (kein Swap)

14B (`qwen3:14b`)

16GB: Swap >2GB → deutlicher Einbruch
24GB: stabil (≈ 7B-Niveau)

Kurz: In unseren 7B/14B-Läufen ist M4-Ollama speicherbegrenzt, bevor es compute-limitiert wird.

Benchmark-Tabelle

Model	RAM	tok/s	Swap	Status	Deutung
7B	16GB	34	1.1GB	OK	Leichter Swap-Druck
7B	24GB	37	0	Stabil	Optimal
14B	16GB	Starker Einbruch	>2GB	Instabil	Speicherwand
14B	24GB	~37	0	Stabil	Nahe 7B-Feeling

Setup: Mac mini M4 · macOS 15.x · Ollama latest · Chrome + VS Code + Slack im Hintergrund. Ollama-Messung; llama.cpp weicht in absoluten tok/s ab, Swap-Verhalten ähnelt sich.

Praxis (wichtiger als die Tabelle)

① 7B: Alltagstauglich

Code-Vervollständigung, Chat, Zusammenfassungen, leichter lokaler Assistent—die meisten Teams bleiben hier. 16GB reicht; 24GB ist ruhiger.

② 14B: RAM bestimmt das Gefühl

Man spürt es vor der Tabelle: langsamere Tokens, ruckelndes Streaming, mehr Latenz bei Multitasking. Auf 16GB macht Swap früh „träge“.

③ Multitasking ist die echte Grenze

Auf 16GB lief qwen3:8b parallel zu lokalem xcodebuild: Swap 0→1,8GB, tok/s am gleichen Prompt von 34 auf 29—kein defektes Modell, sondern CI und Inferenz im selben Speicherpool.

Edge Case: 14B nach ~2h—Memory Pressure von grün auf gelb ohne neue Tabs. Scheduling: Memory / Swap.

Swap-Mechanismus (Kern des Rankings)

Hier klemmt lokales LLM auf Apple Silicon oft—nicht bei der Neural-Engine-Kernzahl:

Unified Memory voll
macOS räumt inactive pages auf
Swap auf SSD
IO-Latenz steigt
tok/s −5–15%

Unter Druck wandert Speicher auf die SSD. Selten Crash, aber spürbare IO-Latenz. Das 34→29-Beispiel mit CI ist diese Kette am echten Schreibtisch.

M3 vs M4 vs M2

Wer „M4 Ollama“ sucht, fragt oft: lohnt die neue Generation? Trend bei gleicher RAM/Modell-Kombi:

7B-Trend (Richtung, keine Absolutwerte)

M2 → Basis
M3 → ~+10–15% tok/s
M4 → ~+15–25%, oft kleiner als 16GB→24GB

Was zählt wirklich?

M2/M3/M4 laufen 7B; neues Badge löst 14B-Speicherdruck nicht
M4 vs M3 bei 7B moderat; 14B-Stabilität hängt an Bandbreite und Swap
Beim Kauf schlägt 16GB vs 24GB oft „M3 oder M4?“

Fazit: Für lokales Ollama zählt meist RAM-Konfiguration, nicht die Chip-Generation. M4/M5 Hub.

16GB vs 24GB—was kaufen?

16GB passt

Meist 7B
Peaks auf Cloud Mac / CI auslagern

Charakter: reicht, aber schwankend. Kaufstory: 16GB vs 24GB Wochenprotokoll—hier nur Benchmark-Fakten.

24GB passt

14B täglich, CI + LLM parallel, stabile tok/s

Charakter: stabile Produktivität.

Regel: 7B → 16GB ok; 14B → 24GB einplanen.

Cloud-Mac-Validierung

Vor dem Kauf dieselbe Ollama-Suite auf Cloud Mac fahren—Stresstest vor der Bestellung für 16GB vs 24GB.

→ Benchmark auf Cloud Mac nachstellen · M4/M5 Hub · GitHub Runner

Häufige Suchfragen

Q: M4 Mac mini Ollama speed?
A: 7B ≈ 34–37 tok/s; Swap ist der Hebel (Kernzahlen).

Q: Can M4 run 14B model?
A: Ja—16GB wackelig, 24GB sinnvoll.

Q: M4 vs M3 Ollama performance?
A: 7B: wenig Generationssprung; 14B: RAM/Swap.

Q: Does Swap affect LLM performance?
A: Ja, ca. 5–15% tok/s.

Q: 16GB vs 24GB for AI?
A: 7B: 16GB; 14B/Multitasking: 24GB.

Fazit

M4 Mac mini + Ollama: Compute reicht—RAM und Swap prägen das Gefühl.

Rollen im Cluster

Pro Sprache eine Primary-Benchmark-URL; Geschwister verlinken, konkurrieren nicht:

Seite	Rolle	Hinweis
Dieser Artikel	Primary SEO	Benchmark-Haupttext · canonical für diese Sprache
`m4-ollama-benchmark-spec`	SSOT	📅 6/20 · Metrik-Definition
16GB vs 24GB Tagebuch	Kauf-Narrativ	Wochenstory · verweist auf Kernzahlen
Memory / Swap	Mechanismus	Scheduling · keine doppelte tok/s-Tabelle

Reproduktion (Anhang)

Gleiche Hintergrundlast (Spec 📅 m4-ollama-benchmark-spec):

ollama pull qwen3:8b && ollama run qwen3:8b ""
memory_pressure

ollama run qwen3:8b \
  "Write 512 tokens about Apple Silicon unified memory." \
  --verbose 2>&1 | tee /tmp/ollama-bench.log

Memory Used · Swap · tok/s · Memory Pressure protokollieren. 14B: qwen3:14b.

ZavCloud

Denselben Ollama-Benchmark auf Cloud Mac nachstellen

16GB vs 24GB unter echter Last prüfen, dann Hardware kaufen.

Cloud-Mac-Tarife

M4 Mac mini Ollama Performance-Benchmark: 7B / 14B tok/s + Swap