Mac mini M4: 16 или 24 ГБ? Неделя с Ollama — и я бы взял другой объём памяти

Заметки об ИИ  ·  01.06.2026  ·  ~15 мин чтения  ·  неделя замеров

Mac mini M4 на столе с Ollama и Qwen3 — сравнение 16 и 24 ГБ unified memory для локального ИИ

Я думал: 16 ГБ + внешний SSD хватит для Ollama и сэкономят бюджет. Потом Mac mini стал основной машиной — Chrome (~20 вкладок), VS Code, Slack и постоянно qwen3:8b. За неделю давление памяти пожелтело, swap держится около 1 ГБ. У коллеги 24 ГБ, та же модель и скрипт — зелёная полоса.

Не пересказ спецификации: семь дней лоб в лоб двух Mac mini M4 (16 / 24 ГБ), протокол и цифры. Плюс Qwen3, DeepSeek R1, Gemma 3 в 2026 и что добавляют OpenHuman, Claude Code и MLX.

13,2
ГБ занято (16 ГБ · 8B)
0
ГБ swap (24 ГБ · 8B)
34→37
tok/s (со / без swap)

Неделя теста: одна сцена с qwen3:8b

Железо: Mac mini M4 (10 CPU / 10 GPU), по одной машине 16 и 24 ГБ, одинаковые версии macOS и ПО. Период: 26.05–01.06.2026, 2 ч/день «разработка + чат», каждая метрика 3 замера, медиана.

Общая среда (реальный стол, не лаборатория):

  • macOS 16 (бета 26.x, один build)
  • Ollama 0.12.3 (ollama --version)
  • Google Chrome: 20 вкладок (Notion, GitHub, Gmail)
  • Visual Studio Code + языковые пакеты
  • Slack desktop в фоне

Инференс (чтение через 5 мин устойчивого режима):

Основная команда
ollama pull qwen3:8b
ollama run qwen3:8b
# Второй терминал: промпты 512 токенов, смотреть Память/Swap после 2 мин генерации

Mac mini M4 16 ГБ

Метрика Значение Примечание
Занято памяти 13,2 ГБ Мониторинг системы → Память
Swap 1,1 ГБ жёлтое давление, вентилятор иногда
Генерация 34 tok/s см. ollama run --verbose
Субъективно Chrome дёргается при скролле при высоком swap
Мониторинг системы Mac mini 16 ГБ: 13,2 ГБ занято, 1,1 ГБ swap с qwen3:8b
Рис. 1: 16 ГБ, 29.05.2026, qwen3:8b в steady state + Chrome / VS Code / Slack. 13,2 ГБ, swap 1,1 ГБ, жёлтое давление.

Mac mini M4 24 ГБ

Метрика Значение Примечание
Занято памяти 16,4 ГБ та же сцена
Swap 0 ГБ зелёное давление
Генерация 37 tok/s GPU близко; разрыв в основном из‑за swap
Запас ~7,6 ГБ напр. nomic-embed или второй 3B
Мониторинг системы Mac mini 24 ГБ: 16,4 ГБ занято, ноль swap с qwen3:8b
Рис. 2: 24 ГБ, та же сцена. 16,4 ГБ, 0 swap, зелёно — ~9% быстрее, но ноль swap важнее для многозадачности.

Что значит «не тот объём RAM»?

Не то, что 16 ГБ запрещают Ollama: моя нагрузка — не одиночный бенчмарк. Облачные API + редкий ollama run → 16 ГБ норм. Стол «браузер + IDE + Qwen3/DeepSeek + агент» → спокойнее 24 ГБ.

Методика: не «сводка от ИИ» без протокола

Все таблицы по этому потоку — за полдня на своей машине:

  1. Размер весовollama show qwen3:8b --modelfile и *.gguf.
  2. RAM в steady state — после загрузки: занято / swap / давление.
  3. tok/s — промпт 512 токенов, --verbose, eval rate.
tok/s (как 34 / 37 в тексте)
ollama run qwen3:8b --verbose \
  "Объясни unified memory Apple по-русски (~400 слов), три плюса и минуса."
# среднее из 3 eval rate (tokens/s)

vm_stat | awk '/swap/ {print}'
memory_pressure

Переменные: версия Ollama и квантизация (Q4_K_M vs Q5) ±0,5–1,5 ГБ. Gemma 3 / DeepSeek R1 — после своего ollama pull.

Популярные модели на Mac mini M4 (2026)

комфортно; ⚠️ swap или закрывать приложения; не как основная (при нагрузке выше).

Модель (тег Ollama) 16 ГБ 24 ГБ Неделя теста
Qwen3 8B qwen3:8b 16 ГБ: ~1,1 ГБ swap; 24 ГБ: 0
DeepSeek R1 8B deepseek-r1:8b ~5,2 ГБ веса; кривая как Qwen3 8B
Qwen3 14B qwen3:14b ⚠️ 16 ГБ: swap 2,3+ ГБ
Gemma 3 27B (квант.) ⚠️ 24 ГБ только эксперимент; длинный контекст → OOM
Llama 3.2 3B удобен для embed / RAG

С MLX порядок величин близок, пики острее с compile + Xcode — 5 минут steady state в мониторе.

14B и DeepSeek (тот же стол)

Меняли только модель Ollama; Chrome / VS Code / Slack без изменений:

Модель RAM Занято Swap tok/s
deepseek-r1:8b 16 ГБ 13,5 ГБ 1,0 ГБ 33
deepseek-r1:8b 24 ГБ 16,6 ГБ 0 36
qwen3:14b 16 ГБ 15,8 ГБ 2,3 ГБ 18
qwen3:14b 24 ГБ 19,1 ГБ 0 28

Итог: Qwen3 / DeepSeek 14B каждый день → 16 ГБ воюет со swap; 24 ГБ держит браузер и IDE без «режима всё закрыть».

Почему «14B Q4 ~8–10 ГБ» — и что показал замер

  • GGUF на дискеollama pull qwen3:14b8,4–9,2 ГБ.
  • KV-кэш — контекст 8k часто +1–3 ГБ; большой OLLAMA_CONTEXT_LENGTH быстрее упирается в 16 ГБ.
  • Суммаqwen3:14b на 24 ГБ: 19,1 ГБ = модель + KV + Chrome/IDE/система (~5–6 ГБ). Доля модели ~13–14 ГБ — согласуется с «8–10 ГБ веса + runtime».

14B Q4 возможен, но не с полным столом — 24 ГБ, или меньше вкладок/контекста, embed на другой машине.

Claude Code, OpenHuman — дополнительная RAM

  • Claude Code + Ollama — агент по API, Ollama для офлайн-черновиков. VS Code/Cursor 1–2 ГБ + Chrome: на 16 ГБ нет запаса под 14B.
  • OpenHuman + qwen3:8b — фон ~1 ГБ+; см. установка OpenHuman. На 24 ГБ: OAuth + 8B без swap.
  • MLX — пики с Xcode/Core ML; batch на выделенном Core ML в облаке.

Большие репозитории CodeGraph + Claude Code MCP: Chrome не закрывают → давление к 24 ГБ (CodeGraph локально).

Что покупать (по замерам, не по таблице Apple)

  • 16 ГБ — только 8B (Qwen3 / DeepSeek R1), swap терпим, или облачные API + Ollama запасной.
  • 24 ГБ14B + браузер + IDE + агент, эксперименты Gemma 3 27B, 3–5 лет без RAM-потолка на mini.

Сравнение с GPU-облаком дополняет: RAM — комфорт на одной машине; облако — 7×24 и статический IP.

Mac mini M4 vs RTX 5060 — какой путь для локального ИИ?

Часто сравнивают unified memory Apple и VRAM NVIDIA (RTX 5060). ZavCloud даёт Cloud Mac (эксклюзивные Mac mini M4) — не «не покупайте GPU», а границы: Mac vs RTX vs облачный GPU.

Mac Studio поднимает потолок RAM (64 ГБ+). AWS / Alibaba GPU для 70B, обучения, пакетов SD. Таблицы с той же допущенной нагрузкой Chrome+IDE.

Где выигрывает Mac mini M4

Сценарий Mac mini M4 Комментарий
iOS / macOS разработка Xcode, TestFlight — PC с RTX не заменит
Claude Code / Cursor терминальный агент + черновик Ollama; меньше OOM VRAM
Локальный ИИ (текст 8B–14B) Qwen3 / DeepSeek 8B–14B; 24 ГБ без swap
OpenHuman / MLX / Core ML стек Apple; Core ML в облаке
AAA-игры / CUDA-обучение не цель Mac mini

Где выигрывает ПК с RTX 5060

Сценарий RTX 5060 Комментарий
Игры на PC Windows + дискретная GPU
Stable Diffusion / ComfyUI экосистема CUDA; Mac слабее
70B квантованный 12 ГБ VRAM + RAM системы; 24 ГБ Mac mini ⚠️ для 27B
Multi-GPU / обучение 5070 Ti, dual, облачный GPU; на Mac нет CUDA
Релиз в App Store нужен Mac — часто «RTX рендер + Cloud Mac сборка»

Гибрид (часто у клиентов)

Локально или Cloud Mac (24 ГБ) для Ollama / Claude Code / iOS; RTX или GPU в облаке для SD и 70B. Swap на 16 ГБ критичен — неделю гонять 14B на Cloud Mac 24 ГБ. Счета: M4 vs GPU-облако.

Перед покупкой: неделя замеров

  1. Список того, что не закрываете (вкладки, IDE, мессенджер, агент);
  2. Qwen3 8B + 14B по 30 минут, записать swap и tok/s;
  3. 14B постоянно swap > 1 ГБ → 16 ГБ отпадает.

Без железа: арендовать Cloud Mac Apple Silicon той же конфигурации, неделю Ollama/агентов — потом покупка.

Типично: 16 ГБ локально + 24 ГБ в облаке для Ollama/OpenHuman. ZavCloud: эксклюзивные Mac mini M4 (macOS, статический IP) для теста перед покупкой. Аренда Mac mini и тарифы.

FAQ

12 частых вопросов — в согласии с таблицами выше.

Сколько RAM для Qwen3 14B?

Та же нагрузка: qwen3:14b ~19,1 ГБ (24 ГБ); на 16 ГБ 15,8 ГБ + 2,3 ГБ swap. GGUF 8,4–9,2 ГБ + KV — практически 24 ГБ.

DeepSeek R1 14B?

deepseek-r1:8b на 16 ГБ как Qwen3 8B. 14B как qwen3:14b: 24 ГБ без swap, 16 ГБ ~18 tok/s. Основной 14B → 24 ГБ.

16 ГБ устарели?

Не за день. Норма 2026: браузер + IDE + 8B + агент. 16 ГБ для 8B, API в облаке, закрытия вкладок.

Срок службы 24 ГБ?

3–5 лет sweet spot для 8B–14B + агент на столе. 32B+ → Mac Studio / GPU в облаке (RAM на mini не расширяется).

Ollama или MLX?

Чат: Ollama. MLX — пики с Xcode; batch на отдельном узле.

Mac mini или RTX 5060?

Текст 8B–14B, Claude Code, iOS: Mac mini M4 (24 ГБ). SD, 70B, игры: RTX 5060. Часто оба.

16 ГБ для Qwen3 8B?

Да: 13,2 ГБ, ~1,1 ГБ swap, 34 tok/s. Без swap — 24 ГБ.

24 ГБ быстрее?

qwen3:8b ~9% (34 vs 37). Ценность: нет swap, 14B + маленькая модель.

Gemma 3 27B на 24 ГБ?

⚠️ только сильная квантизация; длинный контекст → OOM. 8B–14B — комфорт.

Mac Studio ради ИИ?

8B–14B + dev: Mac mini M4 24 ГБ. 64 ГБ или несколько больших моделей → Studio или сначала Cloud Mac.

Не выбираю объём RAM?

Гонять 8B + 14B. Без Mac: Cloud Mac M4 24 ГБ на неделю.

Воспроизводимо?

Да. Ollama 0.12.x, ±10%; тренд 16 ГБ swap / 24 ГБ ноль / 14B → 24 ГБ.

Из практики

Не уверены в RAM? Сначала неделя замеров

Та же нагрузка (Chrome, IDE, qwen3:8b / qwen3:14b), swap и давление памяти. Для эксклюзивного macOS близко к продакшену — Cloud Mac mini M4 ZavCloud перед покупкой железа.

Тарифы Cloud Mac
Cloud Mac Аренда Mac mini