Сколько RAM нужно для Qwen3 14B?

Та же нагрузка (Chrome, VS Code, мессенджер): ~19,1 ГБ занято на 24 ГБ; на 16 ГБ swap 2,3+ ГБ. Веса 8,4–9,2 ГБ + KV — на практике 24 ГБ unified memory.

Запустится ли DeepSeek R1 14B на Mac mini?

deepseek-r1:8b помещается в 16 ГБ (~1 ГБ swap). 14B как qwen3:14b: на 24 ГБ без swap, на 16 ГБ постоянный swap — основной модель 14B: 24 ГБ.

16 ГБ уже устарели?

Не за один день, но в 2026 норма — браузер + IDE + 8B + агент. 16 ГБ ок при API в облаке и редком ollama run.

На сколько лет хватит 24 ГБ?

При 8B–14B как основе — около 3–5 лет. 32B+ постоянно — Mac Studio или облачный GPU.

Ollama или MLX — что экономнее память?

Для чата Ollama предсказуемее. MLX даёт пики с Xcode — batch на отдельном узле.

Хватит ли 16 ГБ для Qwen3 8B?

Да: 13,2 ГБ занято, ~1,1 ГБ swap, 34 tok/s. Без swap — 24 ГБ.

Насколько быстрее 24 ГБ в Ollama?

qwen3:8b ~34 vs 37 tok/s (~9%). Главное — нет swap, место для 14B.

Gemma 3 27B на 24 ГБ Mac mini?

Только сильная квантизация для теста; длинный контекст — OOM. Комфорт: 8B–14B.

Mac Studio только ради ИИ?

8B–14B + разработка: Mac mini M4 24 ГБ выгоднее. 64 ГБ или несколько больших моделей — Studio или Cloud Mac для проверки.

Не могу выбрать объём RAM?

Гонять 8B и 14B по 30 минут (swap). Без железа — арендовать Cloud Mac M4 на неделю.

Замеры воспроизводимы?

Да с Ollama 0.12.x; ±10% возможно, тренд 16 ГБ swap / 24 ГБ без swap / 14B → 24 ГБ стабилен.

Mac mini M4: 16 или 24 ГБ для локального ИИ (Ollama)? Неделя замеров

Q: Mac mini или RTX 5060 для локального ИИ?

Текст 8B–14B, Claude Code, iOS: Mac mini M4 (24 ГБ). SD, 70B, игры: RTX 5060. Часто оба.

Я думал: 16 ГБ + внешний SSD хватит для Ollama и сэкономят бюджет. Потом Mac mini стал основной машиной — Chrome (~20 вкладок), VS Code, Slack и постоянно qwen3:8b. За неделю давление памяти пожелтело, swap держится около 1 ГБ. У коллеги 24 ГБ, та же модель и скрипт — зелёная полоса.

Не пересказ спецификации: семь дней лоб в лоб двух Mac mini M4 (16 / 24 ГБ), протокол и цифры. Плюс Qwen3, DeepSeek R1, Gemma 3 в 2026 и что добавляют OpenHuman, Claude Code и MLX.

13,2

ГБ занято (16 ГБ · 8B)

ГБ swap (24 ГБ · 8B)

34→37

tok/s (со / без swap)

Неделя теста: одна сцена с `qwen3:8b`

Железо: Mac mini M4 (10 CPU / 10 GPU), по одной машине 16 и 24 ГБ, одинаковые версии macOS и ПО. Период: 26.05–01.06.2026, 2 ч/день «разработка + чат», каждая метрика 3 замера, медиана.

Общая среда (реальный стол, не лаборатория):

macOS 16 (бета 26.x, один build)
Ollama 0.12.3 (ollama --version)
Google Chrome: 20 вкладок (Notion, GitHub, Gmail)
Visual Studio Code + языковые пакеты
Slack desktop в фоне

Инференс (чтение через 5 мин устойчивого режима):

Основная команда

ollama pull qwen3:8b
ollama run qwen3:8b
# Второй терминал: промпты 512 токенов, смотреть Память/Swap после 2 мин генерации

Mac mini M4 16 ГБ

Метрика	Значение	Примечание
Занято памяти	13,2 ГБ	Мониторинг системы → Память
Swap	1,1 ГБ	жёлтое давление, вентилятор иногда
Генерация	34 tok/s	см. `ollama run --verbose`
Субъективно	Chrome дёргается при скролле	при высоком swap

Мониторинг системы Mac mini 16 ГБ: 13,2 ГБ занято, 1,1 ГБ swap с qwen3:8b — Рис. 1: 16 ГБ, 29.05.2026, `qwen3:8b` в steady state + Chrome / VS Code / Slack. 13,2 ГБ, swap 1,1 ГБ, жёлтое давление.

Mac mini M4 24 ГБ

Метрика	Значение	Примечание
Занято памяти	16,4 ГБ	та же сцена
Swap	0 ГБ	зелёное давление
Генерация	37 tok/s	GPU близко; разрыв в основном из‑за swap
Запас	~7,6 ГБ	напр. nomic-embed или второй 3B

Мониторинг системы Mac mini 24 ГБ: 16,4 ГБ занято, ноль swap с qwen3:8b — Рис. 2: 24 ГБ, та же сцена. 16,4 ГБ, 0 swap, зелёно — ~9% быстрее, но **ноль swap** важнее для многозадачности.

Что значит «не тот объём RAM»?

Не то, что 16 ГБ запрещают Ollama: моя нагрузка — не одиночный бенчмарк. Облачные API + редкий ollama run → 16 ГБ норм. Стол «браузер + IDE + Qwen3/DeepSeek + агент» → спокойнее 24 ГБ.

Как снимали метрики (воспроизводимо)

Все таблицы по этому потоку — за полдня на своей машине:

Размер весов — ollama show qwen3:8b --modelfile и *.gguf.
RAM в steady state — после загрузки: занято / swap / давление.
tok/s — промпт 512 токенов, --verbose, eval rate.

tok/s (как 34 / 37 в тексте)

ollama run qwen3:8b --verbose \
  "Объясни unified memory Apple по-русски (~400 слов), три плюса и минуса."
# среднее из 3 eval rate (tokens/s)

vm_stat | awk '/swap/ {print}'
memory_pressure

Переменные: версия Ollama и квантизация (Q4_K_M vs Q5) ±0,5–1,5 ГБ. Gemma 3 / DeepSeek R1 — после своего ollama pull.

Модель (тег Ollama)	16 ГБ	24 ГБ	Неделя теста
Qwen3 8B `qwen3:8b`	✅	✅	16 ГБ: ~1,1 ГБ swap; 24 ГБ: 0
DeepSeek R1 8B `deepseek-r1:8b`	✅	✅	~5,2 ГБ веса; кривая как Qwen3 8B
Qwen3 14B `qwen3:14b`	⚠️	✅	16 ГБ: swap 2,3+ ГБ
Gemma 3 27B (квант.)	❌	⚠️	24 ГБ только эксперимент; длинный контекст → OOM
Llama 3.2 3B	✅	✅	удобен для embed / RAG

14B и DeepSeek (тот же стол)

Меняли только модель Ollama; Chrome / VS Code / Slack без изменений:

Модель	RAM	Занято	Swap	tok/s
`deepseek-r1:8b`	16 ГБ	13,5 ГБ	1,0 ГБ	33
`deepseek-r1:8b`	24 ГБ	16,6 ГБ	0	36
`qwen3:14b`	16 ГБ	15,8 ГБ	2,3 ГБ	18
`qwen3:14b`	24 ГБ	19,1 ГБ	0	28

Итог: Qwen3 / DeepSeek 14B каждый день → 16 ГБ воюет со swap; 24 ГБ держит браузер и IDE без «режима всё закрыть».

Почему «14B Q4 ~8–10 ГБ» — и что показал замер

GGUF на диске — ollama pull qwen3:14b ≈ 8,4–9,2 ГБ.
KV-кэш — контекст 8k часто +1–3 ГБ; большой OLLAMA_CONTEXT_LENGTH быстрее упирается в 16 ГБ.
Сумма — qwen3:14b на 24 ГБ: 19,1 ГБ = модель + KV + Chrome/IDE/система (~5–6 ГБ). Доля модели ~13–14 ГБ — согласуется с «8–10 ГБ веса + runtime».

14B Q4 возможен, но не с полным столом — 24 ГБ, или меньше вкладок/контекста, embed на другой машине.

Claude Code, OpenHuman — дополнительная RAM

Claude Code + Ollama — агент по API, Ollama для офлайн-черновиков. VS Code/Cursor 1–2 ГБ + Chrome: на 16 ГБ нет запаса под 14B.
OpenHuman + qwen3:8b — фон ~1 ГБ+; см. установка OpenHuman. На 24 ГБ: OAuth + 8B без swap.
MLX — пики с Xcode/Core ML; batch на выделенном Core ML в облаке.

Большие репозитории CodeGraph + Claude Code MCP: Chrome не закрывают → давление к 24 ГБ (CodeGraph локально).

Что покупать (по замерам, не по таблице Apple)

16 ГБ — только 8B (Qwen3 / DeepSeek R1), swap терпим, или облачные API + Ollama запасной.
24 ГБ — 14B + браузер + IDE + агент, эксперименты Gemma 3 27B, 3–5 лет без RAM-потолка на mini.

Сравнение с GPU-облаком дополняет: RAM — комфорт на одной машине; облако — 7×24 и статический IP.

Mac mini M4 vs RTX 5060 — какой путь для локального ИИ?

Часто сравнивают unified memory Apple и VRAM NVIDIA (RTX 5060). ZavCloud даёт Cloud Mac (эксклюзивные Mac mini M4) — не «не покупайте GPU», а границы: Mac vs RTX vs облачный GPU.

Mac Studio поднимает потолок RAM (64 ГБ+). AWS / Alibaba GPU для 70B, обучения, пакетов SD. Таблицы с той же допущенной нагрузкой Chrome+IDE.

Где выигрывает Mac mini M4

Сценарий	Mac mini M4	Комментарий
iOS / macOS разработка	✅	Xcode, TestFlight — PC с RTX не заменит
Claude Code / Cursor	✅	терминальный агент + черновик Ollama; меньше OOM VRAM
Локальный ИИ (текст 8B–14B)	✅	Qwen3 / DeepSeek 8B–14B; 24 ГБ без swap
OpenHuman / MLX / Core ML	✅	стек Apple; Core ML в облаке
AAA-игры / CUDA-обучение	❌	не цель Mac mini

Где выигрывает ПК с RTX 5060

Сценарий	RTX 5060	Комментарий
Игры на PC	✅	Windows + дискретная GPU
Stable Diffusion / ComfyUI	✅	экосистема CUDA; Mac слабее
70B квантованный	✅	12 ГБ VRAM + RAM системы; 24 ГБ Mac mini ⚠️ для 27B
Multi-GPU / обучение	✅	5070 Ti, dual, облачный GPU; на Mac нет CUDA
Релиз в App Store	❌	нужен Mac — часто «RTX рендер + Cloud Mac сборка»

Гибрид (часто у клиентов)

Локально или Cloud Mac (24 ГБ) для Ollama / Claude Code / iOS; RTX или GPU в облаке для SD и 70B. Swap на 16 ГБ критичен — неделю гонять 14B на Cloud Mac 24 ГБ. Счета: M4 vs GPU-облако.

Перед покупкой: неделя замеров

Список того, что не закрываете (вкладки, IDE, мессенджер, агент);
Qwen3 8B + 14B по 30 минут, записать swap и tok/s;
14B постоянно swap > 1 ГБ → 16 ГБ отпадает.

Без железа: арендовать Cloud Mac Apple Silicon той же конфигурации, неделю Ollama/агентов — потом покупка.

Типично: 16 ГБ локально + 24 ГБ в облаке для Ollama/OpenHuman. ZavCloud: эксклюзивные Mac mini M4 (macOS, статический IP) для теста перед покупкой. Аренда Mac mini и тарифы.

Читать дальше — M4 vs GPU-облако · OpenHuman × Ollama · Claude Code + CodeGraph

FAQ

12 частых вопросов — в согласии с таблицами выше.

Сколько RAM для Qwen3 14B?

Та же нагрузка: qwen3:14b ~19,1 ГБ (24 ГБ); на 16 ГБ 15,8 ГБ + 2,3 ГБ swap. GGUF 8,4–9,2 ГБ + KV — практически 24 ГБ.

DeepSeek R1 14B?

deepseek-r1:8b на 16 ГБ как Qwen3 8B. 14B как qwen3:14b: 24 ГБ без swap, 16 ГБ ~18 tok/s. Основной 14B → 24 ГБ.

16 ГБ устарели?

Не за день. Норма 2026: браузер + IDE + 8B + агент. 16 ГБ для 8B, API в облаке, закрытия вкладок.

Срок службы 24 ГБ?

3–5 лет sweet spot для 8B–14B + агент на столе. 32B+ → Mac Studio / GPU в облаке (RAM на mini не расширяется).

Ollama или MLX?

Чат: Ollama. MLX — пики с Xcode; batch на отдельном узле.

Mac mini или RTX 5060?

Текст 8B–14B, Claude Code, iOS: Mac mini M4 (24 ГБ). SD, 70B, игры: RTX 5060. Часто оба.

16 ГБ для Qwen3 8B?

Да: 13,2 ГБ, ~1,1 ГБ swap, 34 tok/s. Без swap — 24 ГБ.

24 ГБ быстрее?

qwen3:8b ~9% (34 vs 37). Ценность: нет swap, 14B + маленькая модель.

Gemma 3 27B на 24 ГБ?

⚠️ только сильная квантизация; длинный контекст → OOM. 8B–14B — комфорт.

Mac Studio ради ИИ?

8B–14B + dev: Mac mini M4 24 ГБ. 64 ГБ или несколько больших моделей → Studio или сначала Cloud Mac.

Не выбираю объём RAM?

Гонять 8B + 14B. Без Mac: Cloud Mac M4 24 ГБ на неделю.

Воспроизводимо?

Да. Ollama 0.12.x, ±10%; тренд 16 ГБ swap / 24 ГБ ноль / 14B → 24 ГБ.

Из практики

Не уверены в RAM? Сначала неделя замеров

Та же нагрузка (Chrome, IDE, qwen3:8b / qwen3:14b), swap и давление памяти. Для эксклюзивного macOS близко к продакшену — Cloud Mac mini M4 ZavCloud перед покупкой железа.

Тарифы Cloud Mac

Mac mini M4: 16 или 24 ГБ? Неделя с Ollama — и я бы взял другой объём памяти

Неделя теста: одна сцена с `qwen3:8b`

Mac mini M4 16 ГБ

Mac mini M4 24 ГБ

Как снимали метрики (воспроизводимо)

Популярные модели на Mac mini M4 (2026)

14B и DeepSeek (тот же стол)

Почему «14B Q4 ~8–10 ГБ» — и что показал замер

Claude Code, OpenHuman — дополнительная RAM

Что покупать (по замерам, не по таблице Apple)

Mac mini M4 vs RTX 5060 — какой путь для локального ИИ?

Где выигрывает Mac mini M4

Где выигрывает ПК с RTX 5060

Перед покупкой: неделя замеров

FAQ

Сколько RAM для Qwen3 14B?

DeepSeek R1 14B?

16 ГБ устарели?

Срок службы 24 ГБ?

Ollama или MLX?

Mac mini или RTX 5060?

16 ГБ для Qwen3 8B?

24 ГБ быстрее?

Gemma 3 27B на 24 ГБ?

Mac Studio ради ИИ?

Не выбираю объём RAM?

Воспроизводимо?

Не уверены в RAM? Сначала неделя замеров

Mac mini M4: 16 или 24 ГБ? Неделя с Ollama — и я бы взял другой объём памяти

Неделя теста: одна сцена с qwen3:8b

Mac mini M4 16 ГБ

Mac mini M4 24 ГБ

Как снимали метрики (воспроизводимо)

Популярные модели на Mac mini M4 (2026)

14B и DeepSeek (тот же стол)

Почему «14B Q4 ~8–10 ГБ» — и что показал замер

Claude Code, OpenHuman — дополнительная RAM

Что покупать (по замерам, не по таблице Apple)

Mac mini M4 vs RTX 5060 — какой путь для локального ИИ?

Где выигрывает Mac mini M4

Где выигрывает ПК с RTX 5060

Перед покупкой: неделя замеров

FAQ

Сколько RAM для Qwen3 14B?

DeepSeek R1 14B?

16 ГБ устарели?

Срок службы 24 ГБ?

Ollama или MLX?

Mac mini или RTX 5060?

16 ГБ для Qwen3 8B?

24 ГБ быстрее?

Gemma 3 27B на 24 ГБ?

Mac Studio ради ИИ?

Не выбираю объём RAM?

Воспроизводимо?

Не уверены в RAM? Сначала неделя замеров

Неделя теста: одна сцена с `qwen3:8b`