2026 LLM 対決:Claude Fable 5 vs Opus 4.8 vs Gemini 3.5 Flash — ベンチマークと使い分け

AI エッセイ  ·   ·  読了約 9 分

ノート PC のデータチャート — Claude Fable 5、Opus 4.8、Gemini 3.5 Flash のベンチマーク比較

結論から:公開ランキングでモデルを選ぶな。ワークフローの入口と、1 タスクあたりどれだけ深く推論させるかで選べ。2026 年 6 月、同一の開発者タスクパックを Claude Fable 5、Claude Opus 4.8、Gemini 3.5 Flash に回した。下の表は、誰が主役か、誰が下書きか、誰がマージ前にサインするかを示す。分かれ目はリーダーボードの点数ではなく、入口と token 予算だ。

3
比較モデル
12
共通ベンチタスク
M4
Agent 実行環境

モデル選びが CI Runner 選びに似てきた理由

2026 年、多くのチームは IDE 補完CLI AgentGitHub Actions バッチアーキテクチャレビュー の 4 レーンを同時に回しているのに、どこでも「最強の 1 モデル」を使おうとする。高価 tier をログ仕分けに浪費し、高速 tier をモジュール横断リファクタに無理やり当てる——能力の問題ではなく、実行境界を間違ったスロットに置いているのが本質だ。

1 job 1 workspace と同じ発想:世界一速いマシンを探すのではなく、ジョブ種別ごとに隔離レベルと単価を合わせる。MMLU スコアは「Issue → PR → CI 緑」をほとんど予測しない。必要なのは この入口で、予算内に安定して通る tier はどれか という問いだ。

もう一つの緊張は ローカル vs リモート:推論はクラウド、git diff・Xcode ビルド・テストは Mac。Agent ループとコンパイルが 16GB RAM を奪い合うと、どのモデルも「遅い」ように感じる——それは IQ ではなく実行環境のボトルネックだ。長時間ジョブを Cloud Mac 実行ノード に移すチームが増えている理由もここにある。

3 つの役割 — tier ではない

フラッグシップ同士の比較の前に、ワークフロー上の役割で分類しよう:

  • ループ層 — Claude Fable 5:高頻度・短ターンのコーディング Agent。低レイテンシ、予測可能な tool-use サイクル。
  • 熟考層 — Claude Opus 4.8:長コンテキスト推論、アーキテクチャトレードオフ、リスクレビュー。1 パス品質は高いが、毎秒起動向きではない。
  • スループット層 — Gemini 3.5 Flash:大量の構化作業、レイテンシ敏感バッチ。「80 点の初稿」を安く出す。

同一パイプライン上の工位であり、昇格階段ではない。Opus を Tab 補完に使えば請求書が爆発する。Flash だけをマージ前レビュアーにすれば、欠陥が main に流れ込む。

核心比較:入口 / 実行 / コンテキスト

列見出しは記事全体で固定。後続のシーン行列とコスト議論も同じ 5 列を使う。

ツール入口実行コンテキスト向いている人
Claude Fable 5Claude Code CLI、Cursor Agent、API強:複数ファイル編集、テストループ、MCP ツール中長窓(約 200K)、日常リポ向き毎日 Agent を回すエンジニア
Claude Opus 4.8API、IDE 手動切替、レビュー Bot非常に強:複雑推論、依存整理、セキュリティ監査超長窓 + 深い推論モードTech Lead、アーキテクト、マージ Gatekeeper
Gemini 3.5 FlashAI Studio、Vertex、バッチ API中:構造化生成、分類、テンプレ書き換え中長窓、並列バッチ向きデータ/Ops、ドキュメント管線、コスト重視チーム

コストと権限(同じ列で延伸):

ツール入口実行コンテキスト向いている人
Claude Fable 5従量 + サブスク束エンタープライズ tool 許可リストAnthropic データ政策;欧米 SaaS 向きすでに Claude Code 利用中のチーム
Claude Opus 4.8プレミアム従量;デフォルト ON は慎重に読み取り専用レビューモード向き同 Anthropic スタック;長ジョブは token 累積が早いマージ前レビューが明文化されているチーム
Gemini 3.5 Flash低単価従量;GCP 請求統合Vertex IAM の細粒度Google Cloud コンプライアンスGCP 採用でバッチコスト最適化したいチーム

表のあと:Fable 5 が日常作業、Opus 4.8 がサイン、Flash がライン最初の工程。OpenRouter の価格 tier で 3 段を 1 ゲートウェイに載せる方法も参照。

ベンチマークタスクと Mac 側実測

推論は各社 API 上で実行。Agent シェル — Claude Code + git + xcodebuild test — は Mac mini M4 16GB(ローカル)と ZavCloud データセンター M4 24GB(リモート)で同一。タスクごと 3 回。分は推定レンジ(中央値 ± 通常変動)であり、ストップウォッチ 1 回の値ではない。評価軸は合格率、E2E 時間帯、週次 token 請求 — 抽象 IQ ではない。

タスクFable 5Opus 4.8Gemini 3.5 Flash
8 ファイル API リファクタ + テスト緑合格;約 15–20 分;中 token合格;約 20–30 分;高 token部分合格;境界は手修正
GitHub Issue → PR(CI 修正 1 ラウンド)合格;約 20–25 分合格;約 30–35 分下書き可;CI は 2 ラウンド目が多い
ログ 1000 行 + アラート規則草案合格;オーバースペック合格;ROI 低合格;約 5–10 分;極低 token
ADR レビュー(読み取り専用)良好;依存漏れあり優秀;リスク網羅良好;テンプレ寄り
16GB Mac で Agent + Xcode 並行ローカル Swap リスク;クラウド OK同左;ローカル長時間は避けるバッチ OK;IDE Agent 頭脳には不向き

Mac 側の教訓:ボトルネックはしばしば 実行環境 でありモデル IQ ではない。16GB で Xcode と Claude Code を同時に長時間回すと 3 モデルとも「遅く」感じる — Opus に替えても Swap は治らない。16GB vs 24GB 実測 と一致:Agent 主力は 24GB か 専用 Cloud Mac ノード を。

シーン別行列

あなたが…主モデル理由
Claude Code / Cursor Agent で毎日機能を出すFable 5レイテンシとコストが高頻度ループに合う
マージ前にアーキテクチャ / セキュリティレビューOpus 4.81 パス深度にプレミアム token が見合う
Ops / データ:ログ、チケット、ドキュメント一括Gemini 3.5 Flashドルあたりスループット最良
すでに GCP、請求と IAM を統一したいFlash 主 + Fable 予備Vertex で権限;Fable でコーディング Agent
予算が厳しく Opus 常時 ON 不可Fable 5 + 手動 Opus 昇格ready-for-review ラベルのみ昇格
CI で失敗テストを自動修正Fable 5Cloud Mac CI 自動化 と組み合わせて実機テスト

おすすめスタック

  • 個人開発者 — Fable 5 で日常 Agent;Flash でメール / ドキュメント下書き;Opus はリリース週のみ。
  • 10 人チーム — Fable 5 を Claude Code 本番ワークフロー に;CI 自動修正は Fable;マージは Opus Bot 読み取り専用。
  • コスト優先データ基盤 — Flash バッチ管線 + Fable 5 で内部ツール repo;日常 Opus なし。

AI コーディング Agent の Skills / MCP と重ねるとき:モデルが推論、Mac ノードが実行 — Flash を本番 shell に直結しない。

よくある失敗

  • #1 ランキング 1 位をデフォルトに — ベンチは短 Q&A;Issue → PR → CI 緑ではない。
  • #2 Opus 常時 ON — 週次請求が教える;イベントトリガーに。
  • #3 Flash 単独でモジュール横断リファクタ — token は節約、レビュー時間が人に移る。
  • #4 Mac メモリ無視 — Swap で全モデルが「バカに見える」。
  • #5 ルーティングなしでモデル比較 — 昇格ポリシーがないと議論が終わらない。

7 ステップで導入

  1. 週次入口を記録 — IDE、CLI、CI、レビューの時間。
  2. 合格基準を文書化 — テスト緑、diff 上限、セキュリティ checklist。
  3. 12 タスクパックを実行 — モデルごと 3 回(上表を再利用)。
  4. 週次 token 支出を計算 — リトライ含む;OpenRouter ルートと比較。
  5. シーン行列を埋める — 主、予備、昇格トリガー。
  6. CLAUDE.md / CI に反映Claude Code アーキテクチャ と整合。
  7. 4 週間後にレビュー — マージ欠陥 + 請求;使用率 10% 未満 tier を外す。

FAQ

Fable 5 と Opus 4.8 の違いは?

Fable 5 は 高頻度 Agent ループ;Opus 4.8 は 低頻度・高ステークス判断。IQ 階段ではなく工位分担。

Gemini 3.5 Flash は Claude Code を置き換えられる?

完全な Agent 席の代替にはならない。上流の下書きとバッチ層 として最適;下流は Fable 5 が repo とテストを担当。

3 つ全部使うと予算が爆発する?

どこでも Opus デフォルトよりはるかに安い。ルーティング:約 90% Fable/Flash、レビューのみ Opus。

Cursor でのモデル選びとの関係は?

Cursor は IDE 入口、モデルはエンジン。入口選び:Copilot vs Cursor シーン実測;本文はエンジン tier。

まとめ

2026 年に Fable 5、Opus 4.8、Gemini 3.5 Flash のどれを選ぶかは、どの入口からタスクを起動し、1 回の推論の深さにいく token を払うか で決まる。Fable 5 をデフォルトループ、Flash をスループット下書き、Opus 4.8 をマージ前サイン — 本質はワークフローの層分けであり、モデル崇拝ではない。実行を適切な Mac ノードに置く方が、「より強い」デフォルトを追うより配信速度を上げる。

ZavCloud · クラウド Mac

モデルはクラウド、実行は本物の macOS

専用 Mac mini M4:Claude Code Agent、Xcode テスト、GitHub Actions Runner を 1 ノードに — Fable 5 の tool ループをローカル RAM で絞らない。

プランと料金を見る
Cloud MacMac mini をレンタル