結論から:1億トークンは Flash層で約$10–14、Sonnet で約$540、Opus で約$2,700——いずれも USD。 以下4表に2026年6月の定価をまとめた。各表の下に一行まとめ、最後に読者別おすすめ。
表1:Flash実行層——2026年6月 API単価
OpenRouter と各社公式価格ページ。単位:100万トークンあたり USD($/M)。
Agent メインループのデフォルト——長コンテキストとリトライでも予算が崩れない
| モデル | 入力 /M | 出力 /M | キャッシュ読取 /M | コンテキスト |
|---|---|---|---|---|
| DeepSeek V4 Flash 利用量 #1 | $0.098 | $0.197 | ~$0.01 | 1M |
| Hy3 Preview | ~$0.10 | ~$0.20 | あり | 256K+ |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Gemini 2.5 Flash | $0.15 | $0.60 | あり | 1M |
| Kimi K2 | ~$0.15 | ~$0.50 | あり | 128K |
| GPT-4o mini | $0.15 | $0.60 | あり | 128K |
| Owl Alpha | ~$0.12 | ~$0.35 | — | 200K |
表1: Agent トークンの約80%はこの層が吸収する。OpenRouter 週間 Top 10はほぼ Flash 一色。DeepSeek + Hy3 で週20T超。まずここでデフォルトモデル文字列を決めろ。
表2:Frontierレビュー層——2026年6月 API単価
エスカレーション専用——マージ前レビューとアーキ判断。デフォルトループには使わない
| モデル | 入力 /M | 出力 /M | コンテキスト | OpenRouter トレンド |
|---|---|---|---|---|
| Claude Sonnet 4.6 | ~$3.00 | ~$15.00 | 200K | レビュー主力 |
| Claude Opus 4.7 | ~$15.00 | ~$75.00 | 200K | 最終承認層 |
| GPT-4o | $2.50 | $10.00 | 128K | Top 8 から脱落 |
| Gemini 2.5 Pro | ~$1.25 | ~$10.00 | 1M | マルチモーダル長文 |
| o3 / o4-mini(推論) | $1.10–4.00 | $4.40–16.00 | 200K | 数学・証明タスク |
表2: 品質は最高だが、Agent メインループには高すぎる。Claude Opus は週7T超のトークンを消化しているが、それはレビュー役。GPT-4o はプライマリフローから Flash へ置き換えられつつある。
表3:1億トークン請求の比較
共通の物差し:1億トークン。3パターン——入力のみ / 80·20 チャット / 90·10 Agent。
同じ量でも、最安と最高で最大200倍の差
| モデル | 入力のみ 1億 | 80/20 ミックス | 90/10 Agent | vs DeepSeek |
|---|---|---|---|---|
| Flash実行層 | ||||
| DeepSeek V4 Flash | ~$10 | ~$12 | ~$11 | 1× |
| Hy3 Preview | ~$10 | ~$13 | ~$11 | 1.1× |
| Gemini 2.5 Flash | ~$15 | ~$24 | ~$19 | 2× |
| Frontierレビュー層 | ||||
| GPT-4o | ~$250 | ~$400 | ~$325 | 33× |
| Claude Sonnet 4.6 | ~$300 | ~$540 | ~$420 | 45× |
| Claude Opus 4.7 | ~$1,500 | ~$2,700 | ~$2,100 | 225× |
表3: 月10億トークンなら DeepSeek 約$120、Sonnet 約$5,400。Agent ワークロードは入力偏重——90/10 列を重視。キャッシュヒット率が高ければ Flash層の実コストは50%以上削れる。
表4:典型的な Agent 1タスクあたりのコスト
前提:入力10万 + 出力1万、入力キャッシュヒット率80%。1日500回実行時の請求。
500回/日:DeepSeek $4 vs Sonnet $105
| モデル | 入力 /M | 1タスクあたり | 500回/日 | vs DeepSeek |
|---|---|---|---|---|
| Flash実行層 | ||||
| DeepSeek V4 Flash | ~$0.10 | $0.008 | ~$4 | 1× |
| Hy3 Preview | ~$0.10 | $0.009 | ~$5 | 1.1× |
| Gemini 2.5 Flash | ~$0.15 | $0.02 | ~$10 | 2.5× |
| Kimi K2 | ~$0.15 | $0.018 | ~$9 | 2.3× |
| Frontierレビュー層 | ||||
| Claude Sonnet 4.6 | ~$3.00 | $0.21 | ~$105 | 26× |
| Claude Opus 4.7 | ~$15.00 | $1.05 | ~$525 | 131× |
| GPT-4o | ~$2.50 | $0.18 | ~$90 | 23× |
表4: Claude Code / OpenHands 系ツールの現実的な燃費。品質差は26倍よりずっと小さい——Sonnet をメインループのデフォルトにする理由はない。
読者別おすすめ:あなたは誰か → どの行を使うか
プライマリモデル + エスカレーションモデル + 月間予算帯
| 読者 | プライマリ(トークン80%) | エスカレーション(5–10%) | 月間 API予算 |
|---|---|---|---|
| 個人開発 · IDE補完 | Cursor / Copilot サブスク | — | $20–40 サブ |
| インディー・フルスタック · 軽量 Agent | DeepSeek V4 Flash | Claude Sonnet(レビュー) | $20–80 |
| CJKビジネス · 長チェーン Agent | Hy3 Preview | Kimi K2 / Sonnet | $50–200 |
| 小規模チーム RAG プロダクト | DeepSeek Flash + キャッシュ | Sonnet マージ前レビュー | $200–800 |
| Agent 500タスク/日以上 | DeepSeek / Hy3 デュアルルート | 重要ノードのみ Opus | $120–600(Flash偏重) |
| ソース機密 · データレジデンシー | Mac mini Ollama 7B–14B | 非機密のみ Flash API | ハードウェア > API |
| 金融 / 医療 · 失敗コスト高 | Flash 下書き + 検索 | Opus / GPT-4o + 人間ゲート | コンプライアンス主導 |
鉄則: Flash が量を担い、Frontier がゲートを守る。デフォルト構成 = DeepSeek / Hy3 + Claude Sonnet。利用トレンドはOpenRouter 価格の実態を参照。
一行で: 価格は Flash を選ばせ、リスクは Sonnet/Opus を選ばせる。1億トークンが物差し、読者別表が答え。
ZavCloud
API予算を決める前に、ローカル推論でどこまで賄えるか把握しよう
Cloud Mac で Ollama を回し、7B/14B の日次トークン上限を測ってから Flash API 予算を設定する。
Cloud Mac プランを見る