M4 Mac mini 16GB か 24GB?Ollama を1週間回して、買い違えたと分かった

AI メモ  ·  2026.06.01  ·  読了約15分  ·  1週間の実測データ付き

M4 Mac mini のデスクトップで Ollama と Qwen3 を動かし、16GB と 24GB 統合メモリのローカル AI 実測を比較

当初は 16GB + 外付け SSDOllama を回せば十分だと思っていました。ところが日常のメイン機にして——Chrome タブ20前後、VS Code、Slack に加え qwen3:8b を常駐させると——1週間も経たず Activity Monitor のメモリ圧力が黄色に。Swap は常に 1GB 前後。同じモデル・同じスクリプトの 24GB 機は、圧力バーが緑のままです。

スペック表の転載ではなく、M4 Mac mini(16GB / 24GB)2台を7日間並走した記録です。何を測り、どう測り、数字の出所はどこかを書きます。Qwen3、DeepSeek R1、Gemma 3 を 2026 年にどう選ぶか、OpenHuman、Claude Code、MLX と重ねたときメモリがどう溢れるかも整理します。

13.2
GB 使用(16GB 機 · 8B)
0
GB Swap(24GB 機 · 8B)
34→37
tok/s(Swap 少/なし)

1週間実測:同シナリオで qwen3:8b

テスト機:Mac mini M4(10 コア CPU / 10 コア GPU)、16GB 1台・24GB 1台。OS とアプリのバージョンは揃えています。期間:2026.05.26–06.01。毎日2時間の「開発 + チャット」混合負荷。各指標は3回連続計測の中央値

共通環境(裸の単一タスクではなく、実デスクトップに近づけた):

  • macOS 16(26.x テストチャネル、同一 build)
  • Ollama 0.12.3ollama --version
  • Google Chrome:20 タブ(Notion、GitHub、Gmail など)
  • Visual Studio Code + 日本語 Language Pack
  • Slack デスクトップ常駐

推論コマンド(定常5分後に読み取り):

メイン計測コマンド
ollama pull qwen3:8b
ollama run qwen3:8b
# 別ターミナル:512 token プロンプトを連続投入し、2分後の Memory / Swap を記録

M4 Mac mini 16GB 実測

項目 数値 備考
メモリ使用(Memory Used) 13.2 GB Activity Monitor → メモリ →「使用中」
Swap Used 1.1 GB メモリ圧力黄色、ファンが時々上がる
生成速度 34 tok/s 下記 ollama run --verbose 手順
体感 Chrome への切り替えでスクロールが重い Swap が高いときに発生、常時ではない
図1:16GB 機のメモリパネル(2026.05.29、qwen3:8b 定常 + Chrome / VS Code / Slack)。使用 13.2GB、Swap 1.1GB、圧力黄色。

M4 Mac mini 24GB 実測

項目 数値 備考
メモリ使用 16.4 GB 同シナリオ・同モデル
Swap Used 0 GB メモリ圧力緑
生成速度 37 tok/s モデル算力は近く、差は主に Swap の有無
余裕 約 7.6 GB nomic-embed や 3B サイドカーを追加可能
図2:24GB 同シナリオ。使用 16.4GB、Swap 0、圧力緑。生速度は約9%差だが、Swap ゼロでマルチタスクが軽い。

「買い違え」とは?

16GB で Ollama が動かないわけではありません。自分の負荷が実験室の単一タスクではなかったということです。API 中継とたまの ollama run なら 16GB も妥当。デフォルトが「ブラウザ + IDE + ローカル Qwen3/DeepSeek + Agent」なら 24GB が保険になります。

計測方法:「AI まとめ記事」式の測り方を避ける

本文の表の数字はすべて次の手順で取得しています。同じ Mac なら半日程度で再現できます:

  1. 重みサイズollama show qwen3:8b --modelfile とモデルディレクトリの *.gguf ファイルサイズ(ディスク ≠ 常駐メモリだが下限になる)。
  2. 常駐メモリ — モデルロード後、Activity Monitor の「メモリ」で Memory Used / Swap Used / Memory Pressure(黄/緑)を記録。
  3. 生成速度 — 512 token 固定プロンプトで --verbose から eval rate を読む:
tok/s 計測(本文 34 / 37 と同一手順)
ollama run qwen3:8b --verbose \
  "Apple 統合メモリについて400字で説明し、メリット・デメリットを3点ずつ列挙してください。"
# 出力の eval rate(tokens/s)を3回平均

vm_stat | awk '/swap/ {print}'
memory_pressure

含めていない要因:Ollama バージョン、量子化タグ(Q4_K_M vs Q5)で 0.5–1.5GB ずれることがあります。Gemma 3、DeepSeek R1 はタグを変えたら ollama pull 後に自前で再計測してください。下記 14B 行も同じ手順で追加計測しています。

2026 主流モデルの M4 Mac mini 占有(対照表)

記号: 日常マルチタスクで常駐可;⚠️ 動くが Swap しやすい / アプリ整理が必要; 主力非推奨。上記 Chrome+IDE 負荷前提(裸機ではない)。

モデル(Ollama タグ例) 16GB 24GB 1週間実測メモ
Qwen3 8B qwen3:8b 16GB:Swap 約 1.1GB;24GB:Swap ゼロ
DeepSeek R1 8B deepseek-r1:8b 重み約 5.2GB;曲線は Qwen3 8B に近い
Qwen3 14B qwen3:14b ⚠️ 16GB:Swap 2.3GB 以上(下記参照)
Gemma 3 27B(量子化版) ⚠️ 24GB でも試用程度;コンテキストを伸ばすと OOM
Llama 3.2 3B 埋め込み / RAG サイドカー向き

MLX で同系の重みを回す場合、占有の形は Ollama に近いですがピークが「尖る」傾向があります。モデルカードのパラメータ数だけでなく、Activity Monitor で5分の定常を見てください。

追加実測:14B と DeepSeek(同環境)

Chrome / VS Code / Slack はそのまま、Ollama モデルのみ差し替え:

モデル 構成 メモリ使用 Swap tok/s
deepseek-r1:8b 16GB 13.5 GB 1.0 GB 33
deepseek-r1:8b 24GB 16.6 GB 0 36
qwen3:14b 16GB 15.8 GB 2.3 GB 18
qwen3:14b 24GB 19.1 GB 0 28

結論は明快:Qwen3 / DeepSeek 14B を日常主力にするなら、16GB は Swap と格闘し続けます。24GB ならブラウザと IDE を閉じずに済みます。

理論値 vs 実測:「14B Q4 約 8–10GB」の根拠

結論だけ「8–10GB」と書くと AI まとめに見えがちです。ここでは内訳を示し、上表 qwen3:14b と突き合わせます:

  • 重みファイルollama pull qwen3:14b 後、ローカル GGUF は約 8.4–9.2GB(量子化タグで変動)。ディスク占有で、ロード後の常駐は mmap によりやや小さくなることもあるが、桁は変わらない。
  • KV キャッシュ — コンテキスト 8k、batch=1 で 1–3GB 追加が一般的。OLLAMA_CONTEXT_LENGTH を伸ばすと 16GB 機はより早く上限に触れる。
  • 実測合計 — 同シナリオ qwen3:14b の 24GB 機使用 19.1GB = 重み級 + KV + Chrome/IDE/システム(約 5–6GB)。モデル単体は 13–14GB 程度と逆算でき、「8–10GB 重み + 数 GB ランタイム」と整合。

つまり:14B Q4 自体は動くが、「フル装備デスクトップ」とはデフォルト共存しない——24GB に上げるか、タブを閉じ context を下げるか、RAG 埋め込みを別マシンへ。

Claude Code、OpenHuman と重ねたとき:メモリはさらに足りない

1週間のうち、2026 年に多い「開発 + ローカルモデル」の組み合わせも試しました:

  • Claude Code + ローカル Ollama — ターミナル Agent は Anthropic API、Ollama はオフライン下書きや機密断片用。VS Code / Cursor だけで 1–2GB、Chrome 加算で 16GB 機に 14B の余裕はほぼない
  • OpenHuman + qwen3:8b — デスクトップ Agent と Memory Tree 同期でバックグラウンドが安定して 1GB+。手順はOpenHuman インストールガイド参照。24GB 機なら OAuth 同期 + 8B を Swap なしで維持可能。
  • MLX — Xcode / Core ML パイプラインと同時だとコンパイルピークで一瞬メモリ上限。専有 macOS ノードでバッチ処理し、16GB 開発機と役割分担が現実的。

大規模リポジトリに CodeGraph + Claude Code MCP を足すと、索引自体はメモリを食い尽くしませんが、Chrome を閉じたくなくなる——結果的に 24GB 側へ押されます(CodeGraph ローカル構築参照)。

購入結論(実測ベース、スペック表ではない)

  • 16GB を選ぶ — ローカルは 8B 級(Qwen3 / DeepSeek R1)中心、Swap とたまのタブ整理は許容;または Claude / GPT API が主力で Ollama は予備。
  • 24GB を選ぶ — デフォルトが 14B + ブラウザ + IDE + Agent;Gemma 3 27B を試す余白が欲しい;3–5 年メモリで詰まりたくない。

GPU クラウドとのコスト比較と矛盾しません。メモリ容量は「1台で快適か」、クラウドは「24/7 と固定 IP」の話です。

M4 Mac mini と RTX 5060 自作、どちらを買う?

「ローカル AI」で実際に比較されているのは、Apple Silicon 統合メモリ(Mac mini / Mac Studio)NVIDIA VRAM(RTX 5060 構成) の2ルートです。ZavCloud は Cloud Mac——専有 macOS の M4 Mac mini——を提供しているので「GPU を買うな」とは言いません。境界をはっきりさせます:どの用途が Mac に、どれが RTX かクラウド GPU に向くか

Mac Studio はメモリ上限を 64GB+ に上げるだけで、シーンは Apple エコシステム寄り。AWS / 阿里云 GPU は 70B フル、学習、Stable Diffusion バッチ向き。以下は「実デスクトップ負荷」(Chrome + IDE 前提)の整理です。

M4 Mac mini が有利なシーン

シーン M4 Mac mini 補足
iOS / macOS 開発 Xcode、TestFlight、実機デバッグ;RTX では代替不可
Claude Code / Cursor ターミナル Agent + ローカル Ollama 下書き;統合メモリで VRAM OOM が少ない
ローカル AI(8B–14B テキスト) Qwen3 / DeepSeek R1 8B–14B;24GB なら Swap ゼロ常駐
OpenHuman / MLX / Core ML Apple スタック推論と端末デプロイ;Core ML クラウドノード
3A ゲーム / CUDA 学習 Mac mini の設計目的外

RTX 5060 自作が有利なシーン

シーン RTX 5060 構成 補足
PC ゲーム 独顕と Windows エコシステム;Mac mini では厳しい
Stable Diffusion / ComfyUI CUDA プラグインとコミュニティモデルが最充実;Mac も可だが一段弱い
70B 級大モデル(量子化) 12GB VRAM + システム RAM で積み上げ;24GB Mac mini は 27B 試用 ⚠️ 程度
マルチ GPU / 学習 5070 Ti 換装、デュアル、またはクラウド GPU;Mac に CUDA はない
App Store 申請 結局 Mac が必要;「RTX で生成 + Cloud Mac で署名」がよくある組み合わせ

ハイブリッド(当社顧客で最多)

ローカル or Cloud Mac(24GB) で Ollama / Claude Code / iOS;RTX かクラウド GPU で SD と 70B。16GB Mac mini で Swap が限界なら、まず 14B を24GB Cloud Macへ移して1週間圧測し、RTX 追加要否を判断。課金モデルはM4 推論 vs GPU クラウド参照。

購入前:1週間試してから決める

16GB と 24GB で迷うなら、次の順が安全です:

  1. 閉じないアプリを書き出す(タブ数、IDE、Slack、Agent);
  2. 上記コマンドで Qwen3 8B + 14B を各30分、Swap と tok/s を記録;
  3. 14B で Swap が常時 1GB 超なら 16GB は除外。

実機がなければ、同構成 Apple Silicon クラウドで Ollama ワークフロー・ナレッジベース・Agent を1週間走らせ、メモリ曲線を見てから实体を買う方が、盲目的な構成アップより安上がりなことが多いです。

Mac mini クラウド運用では「手元 16GB で開発 + クラウド 24GB で Ollama / OpenHuman 常駐」が定番です——ZavCloud の M4 Mac mini 専有インスタンス(ネイティブ macOS、固定 IP)は購入前の圧測向きで、判断の代行ではありません。詳細はMac mini クラウドレンタルをご覧ください。

よくある質問(FAQ)

検索で多い質問を、上記実測表と揃えて整理しました。再現時の参照用です。

Qwen3 14B にはどれくらいメモリが必要?

本文と同じデスクトップ負荷(Chrome 約20タブ、VS Code、Slack)で、qwen3:14b 定常時使用約 19.1GB(24GB 機)。16GB 機は 15.8GB 使用 + 2.3GB Swap。モデル本体だけなら GGUF 重み 8.4–9.2GB に KV とシステム分が加わり、実用下限は 24GB 統合メモリ。16GB はブラウザを閉じ OLLAMA_CONTEXT_LENGTH を下げる実験向き。

DeepSeek R1 14B は動く?

deepseek-r1:8b は 16GB で常駐可(Swap 約 1GB、33 tok/s)、Qwen3 8B と同級。14B 級deepseek-r1:14b 等)は qwen3:14b に近い曲線:24GB なら Swap ゼロ(約 28 tok/s 級)、16GB は長期 Swap で約 18 tok/s。14B 主力なら 24GB、16GB への賭けは非推奨。

16GB はもう時代遅れ?

一夜にして淘汰されないが、2026 年のデフォルト負荷は「たまの ollama run」から「ブラウザ + IDE + 8B 常駐 + Agent」へ移っています。16GB が向くのは 8B 推論、API 中心、タブ整理 OK。Claude Code / OpenHuman をデフォルト ON にしたく Swap も避けたいなら、16GB は「入門」に近づいています。

24GB は何年持つ?

現行ペース(8B–14B 主力、27B 試用)なら 24GB は約 3–5 年「デスクトップ + ローカル Agent」のスイートスポット:14B、埋め込み、開発ツールを同時に載せられる。それ以上(32B+ 常駐)は Mac Studio / クラウド GPU を計画。Mac mini は出荷後メモリ増設不可。

Ollama と MLX、どちらがメモリに優しい?

日常対話推論:Ollama が扱いやすい。 GGUF + 常駐プロセスの footprint が予測しやすく、Activity Monitor の読みと一致。MLX はロード・コンパイル、Xcode パイプライン同時実行でピークが尖る。平均が低くても一瞬で上限に触れ Swap しやすい。Ollama をデフォルトチャット/RAG に、MLX はバッチか専有ノードへ。

Mac mini と RTX 5060、ローカル AI 向きはどちら?

テキスト 8B–14B、Claude Code、iOS 開発:M4 Mac mini(24GB 推奨)。 統合メモリ + macOS ツールチェーンが強み。Stable Diffusion、70B 量子化、ゲーム:RTX 5060。 VRAM と CUDA エコシステムは Mac mini では代替不可。最終形は「Mac mini + RTX かクラウド GPU」の分担が多いです。

M4 Mac mini 16GB で Qwen3 8B は足りる?

足ります。実測 13.2GB 使用、Swap 約 1.1GB、34 tok/s、メモリ圧力黄色。たまのカクつき OK なら 16GB;Swap ゼロのデスクトップなら 24GB(16.4GB 使用、37 tok/s)。

24GB は 16GB より Ollama がどれだけ速い?

同モデル qwen3:8b で約 9%(34 vs 37 tok/s)のみ。24GB の核心はSwap ゼロ、14B と第2小モデルの余裕で、生算力2倍ではありません。

Gemma 3 27B は 24GB Mac mini で動く?

⚠️ 強量化での試用のみ;コンテキストを伸ばすと OOM。8B–14B が 24GB の快適域。27B 主力は RTX かクラウド GPU。

AI のために Mac Studio に課金する価値は?

8B–14B + 開発だけなら M4 Mac mini 24GB のコスパが高い。64GB 統合メモリ、複数 14B/32B、重い MLX パイプラインが必要なら Mac Studio;まず Cloud Mac でメモリ曲線を検証してから Studio 判断も合理的。

どのメモリ容量を買うか迷ったら?

本文コマンドで 8B + 14B を各30分、Swap とメモリ圧力を確認。実機がなければ同構成 M4 Mac mini クラウド(24GB)に Ollama / OpenHuman を載せ1週間観察——盲目の増配や RTX 先行より安いことが多い。

実測データは再現できる?

できます。Ollama 0.12.x、同じ Chrome/IDE/Slack シナリオなら絶対値は ±10% 程度のブレがありますが、16GB で Swap、24GB で Swap ゼロ、14B は 24GB という傾向は一致するはずです。

経験談

メモリ容量に迷う? 先に1週間回してから決めよう

本文と同じ負荷(Chrome、IDE、qwen3:8b / qwen3:14b)で Swap とメモリ圧力を記録。本番同等の専有 macOS 環境で対照したい場合、ZavCloud の M4 Mac mini クラウドが購入前検証に向きます。

Mac mini クラウドを見る
Cloud Mac Mac mini クラウド