MMLU や GPT-Score でモデルを選んでいるなら、率直に言って間違った物差しに課金している可能性が高い。しかも請求書は毎月きつくなる一方だ。
OpenRouter の直近 7 日間データが示すのは、あまり心地よくない真実:AI の勝者は最強モデルではなく、最安で「思い切り叩ける」モデルだ。2026 年 6 月初旬、週間トークンは 28.9T(+7.4%)。DeepSeek V4 Flash だけで 3.43T——上位はほぼ入力 $0.10/M 級の低価 MoE で、GPT-4o でも Claude Opus でも、ベンチで比較しまくった「最強」でもない。
ここからは数字の裏にあるコスト断層と三層市場の分裂、そして API ルーティングとローカル Ollama 推論のどちらに賭けるかを整理する。結論から言う:AI は「能力競争」から「コスト競争」へ——最安 + 十分良い = デフォルトの勝者。
28.9T token:業界のルールを書き換えつつある数字
OpenRouter は LLM API の集約ルーター——開発者が実際に叩くモデルは、どのベンチより「本番の戦場」に近い。2026 年 6 月第 1 週:
- 全站週間トークン:28.9T、5 週連続増、前週比 +7.4%
- 中国系モデル:9.2T、米国系 4.9T の約 2 倍
- DeepSeek V4 Flash:単体 1 位、週 3.43T、日次ピーク 800B 超
- 腾讯 Hy3 preview:公開数週で世界 2 位
- xAI:絶対量 -73%、上位で唯一のマイナス成長
上位はほぼ「低価 MoE」。GPT-4o でもない。Claude Opus でもない。「最強モデル」でもない。
Anthropic はシェアを伸ばした数少ない欧米フロンティアだが、絶対トークンは DeepSeek 系に大差で負けている。マーケの勝利ではなく、財布の投票だ——日本のスタートアップの API 請求も同じ票を投じている。
データ出典
OpenRouter 公開のモデル別利用グラフとコミュニティの provider ranking 分析(2026 年 6 月初)。実際の課金はアカウント請求が正とする。
直感に反する事実:高いモデルが「周縁」へ
ベンチだけ見ると 賢いモデルほど使われるはず と錯覚する。現実は逆:
- Claude / GPT:品質は高いが、1 コールごとに予算を燃やす
- DeepSeek / Hy3 / MiMo:十分良い + 極安——開発者は無限リトライできる
だから耳の痛い一言になる:最強かどうかより、「大量に叩いても平気か」。昔は賢さの競争、今は「叩ける勇気」の競争。28.9T token はその証拠——トラフィックは嘘をつかない。月末の請求書も。
安いモデルが流量を支配する三つの理由(偶然ではない)
① Agent でトークンが爆発——単価差が生死を分ける
Agent は「一問一答」ではない。コードを読み、patch を書き、テストを回し、修正してループ。1 タスクは 2K から 50K–200K tokenへ——呼び出しが 50 倍になると、「1 回 $0.015 高い」と「$0.0001 高い」の差は最適化の余地ではなく構造的断層になる。
Claude Code や OpenHands が日常ツールになると、リトライ・探索・下書きまで Sonnet に任せるのは品質追求ではなく金の無駄。開発者がケチになったのではない——Agent が請求の乗算効果を机の上に置いただけだ。
② MoE が「安い + 十分強い」を現実にした
DeepSeek V4 Flash:総 284B、起動は ~13B。MiMo-V2-Flash:309B 中 15B 起動。コストは起動パラメータに紐づく——「最大」ではなく「最も効く起動」が欲しい。
MiMo-V2-Flash は SWE-bench Verified でオープンソース 1 位、Claude Sonnet 4.5 に近い性能で API 料金は約 3.5%。我慢ではなく能力は近いのにコストが断崖。
③ 長コンテキスト + cache でコストがさらに崩れる
DeepSeek V4 Flash は 1M context、prompt caching のヒット率は一部 provider で 90%+。加重平均入力は ~$0.044/M(表示 $0.098/M)。同じ system prompt の 2 回目はほぼタダ。RAG では文書ブロックが重複し、「長コンテキストを恐れない」がデフォルト戦略になった。
OpenRouter の実価格——見えている価格ではない
「表示価格 = 実コスト」と思いがちだが、実際は三層:
- 表示価格:ページの $0.1 / $3 / $10 の input/output
- Provider ルーティングの加重:遅延・可用性・価格で backend を選択
- Cache 割引:繰り返し prefix は cache read 単価
| モデル | 入力 /M | 出力 /M | cache 読 /M | context |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~$0.098 | ~$0.197 | 一部 94% ヒット | 1M |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Claude Sonnet 4.5(対照) | ~$3.00 | ~$15.00 | あり | 200K |
| GPT-4o(対照) | ~$2.50 | ~$10.00 | あり | 128K |
極端例——Agent タスク(入力 100K + 出力 10K、入力 80% cache ヒット):DeepSeek V4 Flash ≈ $0.008、Claude Sonnet 4.5 ≈ $0.21。26 倍差。1 日 500 回なら $4 vs $105。28.9T が安いモデルへ流れるのは必然だ。
起きている分裂:三層市場
| 層 | 役割 | 代表モデル | トークン比率の趨勢 |
|---|---|---|---|
| Flash 実行層 | 80% トークンを食うデフォルト | DeepSeek V4 Flash, Hy3, MiMo | ↑ 拡大中 |
| 中間判断層 | 重要ステップの補助判断 | Gemini Flash, Claude Sonnet | → 安定だが主戦場ではない |
| フロンティア奢侈品層 | 主フローは走らずレビューのみ | GPT-4o, Claude Opus | ↓ 周縁化 |
Flash 実行層は 安い + 十分賢い + 無限に叩ける。フロンティア層は高級時計のように——品質は最高だが Agent の主戦場にはもう載らない。
能力の限界は残る
安いモデルが万能ではない。秘密鍵、コンプライアンス監査、多段証明、1 回の失敗が致命的な領域(自動売買、医療)ではフロンティアか人のレビューが必要。三層分裂はデフォルト流量の話で、「最強モデルの死」ではない。
エンジニアリング現実:安いほど「デフォルト」になる
デフォルトモデル = 流量モデル = 市場モデル。最強モデルではない。
SDK の初期値、フレームワーク preset、オンボーディング docs の最初の model string——それが流量の入口。DeepSeek V4 Flash の input が Sonnet の 1/30 で、SWE-bench の差が 30 倍未満なら、デフォルトは安い側へ滑る。誰かが宣言しなくても、財布と慣性が決める。
ルーティング戦略:三層を賢く使う
# Flash 実行層:80% のトークン cheap_model = "deepseek/deepseek-v4-flash" frontier_model = "anthropic/claude-sonnet-4.5" response = openrouter.chat(model=cheap_model, messages=msgs) if quality_check(response) == FAIL: response = openrouter.chat(model=frontier_model, messages=msgs)
MCP 駆動の Agent ワークフローでは:「リポジトリ読み・検索・下書き patch」→ DeepSeek V4 Flash;「merge 前の diff レビュー」→ Sonnet。フロンティアを使わないのではなく、主フローに載せない。
安い API ≠ データを何でも送っていい
OpenRouter は複数 provider へルーティングし、リクエストは米国や第三国を経由しうる。ソースコードや PII にコンプライアンスがあるなら、ローカルまたは専有 Cloud Mac 推論の方が堅い——コスト優位がリスクを打ち消すわけではない。
ローカル推論 vs API:第三の道
- 日次呼び出しが予測可能:50K–500K token/日の 7B/14B パイプラインなら Mac mini M4 24GB + Ollama の限界費用はほぼゼロ(実測 7B 約 34–37 tok/s)
- データを国外に出さない:ソース、PII、医療・金融データは OpenRouter に載せない
- レイテンシ敏感:IDE インライン補完はローカルが RTT ゼロ
- CI と同機で時間帯分離:Cloud Mac で昼 xcodebuild、夜バッチ推論
200B+ MoE、スパイク負荷、GPU クラスタを持たずに新モデルを試すなら OpenRouter $0.10/M は H100 クラスタがない限り最強の選択肢だ。
2026 ハイブリッド構成
ローカル Ollama(日常 7B–14B)+ OpenRouter Flash 層(Agent 長チェーン)+ フロンティア層(最終 review)。Cloud Mac は検証層——実機購入前に同じ benchmark で Swap と tok/s を測り、API に上げる必要のない workload を切り分ける。
結論:28.9T token が語ること
28.9T は DeepSeek の PR 勝利でも、フロンティアの終焉宣言でもない。AI が「能力競争」から「コスト競争」へ入ったサインだ。コスト競争では最安 + 十分良い = デフォルト勝者。ベンチは上限、トークン流量は本当の選択——答えはもう出ている。
まだデフォルトで最強モデルを Agent に走らせているなら、10 倍のコストで「結果にほぼ影響しない選択」を買っているかもしれない。
今すぐ Claude や GPT を捨てろという話ではない。デフォルトの model string は誰が書いた?ベンチか、請求書か? Agent 時代、後者が生存問題だ。
よくある質問
Q: OpenRouter で最も使われているモデルは?
A: DeepSeek V4 Flash。単体週 3.43T、入力 ~$0.10/M。2 位は腾讯 Hy3 preview。
Q: なぜ中国系のトークンが米国を上回る?
A: 攻めた価格 + MoE の成熟 + 自前デプロイ可能さ + Agent 時代の「叩き放題」需要。品質の全面勝利ではなくコスト構造の勝利。
Q: 安いモデルは本番向き?
A: 揺れ許容・自動リトライ・フロンティア fallback があるタスク向き。1 回の失敗が致命的な領域には不向き。
Q: 実コストの監視は?
A: OpenRouter dashboard のモデル別日次。アプリに middleware で model と token を記録——さもないと Agent ループが月末に「サプライズ」をくれる。