Claude Fable 5 と Opus 4.8 の違いは？

Fable 5 は日常のコーディングループと Agent サイクル向け — 低レイテンシ、予測可能なコスト。Opus 4.8 は長い推論チェーンとアーキテクチャ判断向け — 1 パスあたりの品質は高いが token と待ち時間も増える。差はタスクの深さと予算であり、生の知能ではありません。

Gemini 3.5 Flash はコーディング向き？

バッチ・構造化・レイテンシ敏感な作業には向く：ログ仕分け、テストケース草案、ドキュメント同期。クロスディレクトリリファクタやツール多用 Agent の唯一の頭脳には向きません。

3 モデルを組み合わせられる？

はい。よくあるパターン：Flash で初稿、Fable 5 で日常 PR ループ、Opus 4.8 はマージ前アーキテクチャレビューのみ。OpenRouter や各社 API でルーティング。

ベンチマークはローカル Mac で回す必要がある？

推論はクラウド、Mac は Agent シェル — git、Xcode、Runner — を担当。16GB でメモリが厳しいなら、ビルドと長時間ジョブを Cloud Mac に逃がし、IDE と Agent の奪い合いを避ける。

2026 LLM 対決：Claude Fable 5 vs Opus 4.8 vs Gemini 3.5 Flash — ベンチマークと使い分け

結論から：公開ランキングでモデルを選ぶな。ワークフローの入口と、1 タスクあたりどれだけ深く推論させるかで選べ。2026 年 6 月、同一の開発者タスクパックを Claude Fable 5、Claude Opus 4.8、Gemini 3.5 Flash に回した。下の表は、誰が主役か、誰が下書きか、誰がマージ前にサインするかを示す。分かれ目はリーダーボードの点数ではなく、入口と token 予算だ。

比較モデル

共通ベンチタスク

Agent 実行環境

モデル選びが CI Runner 選びに似てきた理由

2026 年、多くのチームは IDE 補完、CLI Agent、GitHub Actions バッチ、アーキテクチャレビュー の 4 レーンを同時に回しているのに、どこでも「最強の 1 モデル」を使おうとする。高価 tier をログ仕分けに浪費し、高速 tier をモジュール横断リファクタに無理やり当てる——能力の問題ではなく、実行境界を間違ったスロットに置いているのが本質だ。

1 job 1 workspace と同じ発想：世界一速いマシンを探すのではなく、ジョブ種別ごとに隔離レベルと単価を合わせる。MMLU スコアは「Issue → PR → CI 緑」をほとんど予測しない。必要なのは この入口で、予算内に安定して通る tier はどれか という問いだ。

もう一つの緊張は ローカル vs リモート：推論はクラウド、git diff・Xcode ビルド・テストは Mac。Agent ループとコンパイルが 16GB RAM を奪い合うと、どのモデルも「遅い」ように感じる——それは IQ ではなく実行環境のボトルネックだ。長時間ジョブを Cloud Mac 実行ノードに移すチームが増えている理由もここにある。

3 つの役割 — tier ではない

フラッグシップ同士の比較の前に、ワークフロー上の役割で分類しよう：

ループ層 — Claude Fable 5：高頻度・短ターンのコーディング Agent。低レイテンシ、予測可能な tool-use サイクル。
熟考層 — Claude Opus 4.8：長コンテキスト推論、アーキテクチャトレードオフ、リスクレビュー。1 パス品質は高いが、毎秒起動向きではない。
スループット層 — Gemini 3.5 Flash：大量の構化作業、レイテンシ敏感バッチ。「80 点の初稿」を安く出す。

同一パイプライン上の工位であり、昇格階段ではない。Opus を Tab 補完に使えば請求書が爆発する。Flash だけをマージ前レビュアーにすれば、欠陥が main に流れ込む。

核心比較：入口 / 実行 / コンテキスト

列見出しは記事全体で固定。後続のシーン行列とコスト議論も同じ 5 列を使う。

ツール	入口	実行	コンテキスト	向いている人
Claude Fable 5	Claude Code CLI、Cursor Agent、API	強：複数ファイル編集、テストループ、MCP ツール	中長窓（約 200K）、日常リポ向き	毎日 Agent を回すエンジニア
Claude Opus 4.8	API、IDE 手動切替、レビュー Bot	非常に強：複雑推論、依存整理、セキュリティ監査	超長窓 + 深い推論モード	Tech Lead、アーキテクト、マージ Gatekeeper
Gemini 3.5 Flash	AI Studio、Vertex、バッチ API	中：構造化生成、分類、テンプレ書き換え	中長窓、並列バッチ向き	データ/Ops、ドキュメント管線、コスト重視チーム

コストと権限（同じ列で延伸）：

ツール	入口	実行	コンテキスト	向いている人
Claude Fable 5	従量 + サブスク束	エンタープライズ tool 許可リスト	Anthropic データ政策；欧米 SaaS 向き	すでに Claude Code 利用中のチーム
Claude Opus 4.8	プレミアム従量；デフォルト ON は慎重に	読み取り専用レビューモード向き	同 Anthropic スタック；長ジョブは token 累積が早い	マージ前レビューが明文化されているチーム
Gemini 3.5 Flash	低単価従量；GCP 請求統合	Vertex IAM の細粒度	Google Cloud コンプライアンス	GCP 採用でバッチコスト最適化したいチーム

表のあと：Fable 5 が日常作業、Opus 4.8 がサイン、Flash がライン最初の工程。OpenRouter の価格 tier で 3 段を 1 ゲートウェイに載せる方法も参照。

ベンチマークタスクと Mac 側実測

推論は各社 API 上で実行。Agent シェル — Claude Code + git + xcodebuild test — は Mac mini M4 16GB（ローカル）と ZavCloud データセンター M4 24GB（リモート）で同一。タスクごと 3 回。分は推定レンジ（中央値 ± 通常変動）であり、ストップウォッチ 1 回の値ではない。評価軸は合格率、E2E 時間帯、週次 token 請求 — 抽象 IQ ではない。

タスク	Fable 5	Opus 4.8	Gemini 3.5 Flash
8 ファイル API リファクタ + テスト緑	合格；約 15–20 分；中 token	合格；約 20–30 分；高 token	部分合格；境界は手修正
GitHub Issue → PR（CI 修正 1 ラウンド）	合格；約 20–25 分	合格；約 30–35 分	下書き可；CI は 2 ラウンド目が多い
ログ 1000 行 + アラート規則草案	合格；オーバースペック	合格；ROI 低	合格；約 5–10 分；極低 token
ADR レビュー（読み取り専用）	良好；依存漏れあり	優秀；リスク網羅	良好；テンプレ寄り
16GB Mac で Agent + Xcode 並行	ローカル Swap リスク；クラウド OK	同左；ローカル長時間は避ける	バッチ OK；IDE Agent 頭脳には不向き

Mac 側の教訓：ボトルネックはしばしば 実行環境 でありモデル IQ ではない。16GB で Xcode と Claude Code を同時に長時間回すと 3 モデルとも「遅く」感じる — Opus に替えても Swap は治らない。16GB vs 24GB 実測と一致：Agent 主力は 24GB か専用 Cloud Mac ノードを。

シーン別行列

あなたが…	主モデル	理由
Claude Code / Cursor Agent で毎日機能を出す	Fable 5	レイテンシとコストが高頻度ループに合う
マージ前にアーキテクチャ / セキュリティレビュー	Opus 4.8	1 パス深度にプレミアム token が見合う
Ops / データ：ログ、チケット、ドキュメント一括	Gemini 3.5 Flash	ドルあたりスループット最良
すでに GCP、請求と IAM を統一したい	Flash 主 + Fable 予備	Vertex で権限；Fable でコーディング Agent
予算が厳しく Opus 常時 ON 不可	Fable 5 + 手動 Opus 昇格	`ready-for-review` ラベルのみ昇格
CI で失敗テストを自動修正	Fable 5	Cloud Mac CI 自動化と組み合わせて実機テスト

よくある失敗

#1 ランキング 1 位をデフォルトに — ベンチは短 Q&A；Issue → PR → CI 緑ではない。
#2 Opus 常時 ON — 週次請求が教える；イベントトリガーに。
#3 Flash 単独でモジュール横断リファクタ — token は節約、レビュー時間が人に移る。
#4 Mac メモリ無視 — Swap で全モデルが「バカに見える」。
#5 ルーティングなしでモデル比較 — 昇格ポリシーがないと議論が終わらない。

7 ステップで導入

週次入口を記録 — IDE、CLI、CI、レビューの時間。
合格基準を文書化 — テスト緑、diff 上限、セキュリティ checklist。
12 タスクパックを実行 — モデルごと 3 回（上表を再利用）。
週次 token 支出を計算 — リトライ含む；OpenRouter ルートと比較。
シーン行列を埋める — 主、予備、昇格トリガー。
CLAUDE.md / CI に反映 — Claude Code アーキテクチャと整合。
4 週間後にレビュー — マージ欠陥 + 請求；使用率 10% 未満 tier を外す。

FAQ

Fable 5 と Opus 4.8 の違いは？

Fable 5 は 高頻度 Agent ループ；Opus 4.8 は 低頻度・高ステークス判断。IQ 階段ではなく工位分担。

Gemini 3.5 Flash は Claude Code を置き換えられる？

完全な Agent 席の代替にはならない。上流の下書きとバッチ層 として最適；下流は Fable 5 が repo とテストを担当。

3 つ全部使うと予算が爆発する？

どこでも Opus デフォルトよりはるかに安い。ルーティング：約 90% Fable/Flash、レビューのみ Opus。

Cursor でのモデル選びとの関係は？

Cursor は IDE 入口、モデルはエンジン。入口選び：Copilot vs Cursor シーン実測；本文はエンジン tier。

まとめ

2026 年に Fable 5、Opus 4.8、Gemini 3.5 Flash のどれを選ぶかは、どの入口からタスクを起動し、1 回の推論の深さにいく token を払うか で決まる。Fable 5 をデフォルトループ、Flash をスループット下書き、Opus 4.8 をマージ前サイン — 本質はワークフローの層分けであり、モデル崇拝ではない。実行を適切な Mac ノードに置く方が、「より強い」デフォルトを追うより配信速度を上げる。

ZavCloud · クラウド Mac

モデルはクラウド、実行は本物の macOS

専用 Mac mini M4：Claude Code Agent、Xcode テスト、GitHub Actions Runner を 1 ノードに — Fable 5 の tool ループをローカル RAM で絞らない。

プランと料金を見る