OpenRouter の価格の真実:なぜ最安モデルが 28.9T token を「支配」しているのか

AI ノート  ·  2026.06.08  ·  約9分

OpenRouter 28.9T 週間トークンと低価モデル価格構造を読み解く分析チャート

MMLU や GPT-Score でモデルを選んでいるなら、率直に言って間違った物差しに課金している可能性が高い。しかも請求書は毎月きつくなる一方だ。

OpenRouter の直近 7 日間データが示すのは、あまり心地よくない真実:AI の勝者は最強モデルではなく、最安で「思い切り叩ける」モデルだ。2026 年 6 月初旬、週間トークンは 28.9T(+7.4%)。DeepSeek V4 Flash だけで 3.43T——上位はほぼ入力 $0.10/M 級の低価 MoE で、GPT-4o でも Claude Opus でも、ベンチで比較しまくった「最強」でもない。

ここからは数字の裏にあるコスト断層三層市場の分裂、そして API ルーティングとローカル Ollama 推論のどちらに賭けるかを整理する。結論から言う:AI は「能力競争」から「コスト競争」へ——最安 + 十分良い = デフォルトの勝者

28.9T
OpenRouter 週間トークン
3.43T
DeepSeek V4 Flash 単体
26×
Flash vs Sonnet の Agent 単価差

28.9T token:業界のルールを書き換えつつある数字

OpenRouter は LLM API の集約ルーター——開発者が実際に叩くモデルは、どのベンチより「本番の戦場」に近い。2026 年 6 月第 1 週:

  • 全站週間トークン:28.9T、5 週連続増、前週比 +7.4%
  • 中国系モデル:9.2T、米国系 4.9T の約 2 倍
  • DeepSeek V4 Flash:単体 1 位、週 3.43T、日次ピーク 800B 超
  • 腾讯 Hy3 preview:公開数週で世界 2 位
  • xAI:絶対量 -73%、上位で唯一のマイナス成長

上位はほぼ「低価 MoE」。GPT-4o でもない。Claude Opus でもない。「最強モデル」でもない。

Anthropic はシェアを伸ばした数少ない欧米フロンティアだが、絶対トークンは DeepSeek 系に大差で負けている。マーケの勝利ではなく、財布の投票だ——日本のスタートアップの API 請求も同じ票を投じている。

データ出典

OpenRouter 公開のモデル別利用グラフとコミュニティの provider ranking 分析(2026 年 6 月初)。実際の課金はアカウント請求が正とする。

直感に反する事実:高いモデルが「周縁」へ

ベンチだけ見ると 賢いモデルほど使われるはず と錯覚する。現実は逆:

  • Claude / GPT:品質は高いが、1 コールごとに予算を燃やす
  • DeepSeek / Hy3 / MiMo:十分良い + 極安——開発者は無限リトライできる

だから耳の痛い一言になる:最強かどうかより、「大量に叩いても平気か」。昔は賢さの競争、今は「叩ける勇気」の競争。28.9T token はその証拠——トラフィックは嘘をつかない。月末の請求書も。

安いモデルが流量を支配する三つの理由(偶然ではない)

① Agent でトークンが爆発——単価差が生死を分ける

Agent は「一問一答」ではない。コードを読み、patch を書き、テストを回し、修正してループ。1 タスクは 2K から 50K–200K tokenへ——呼び出しが 50 倍になると、「1 回 $0.015 高い」と「$0.0001 高い」の差は最適化の余地ではなく構造的断層になる。

Claude Code や OpenHands が日常ツールになると、リトライ・探索・下書きまで Sonnet に任せるのは品質追求ではなく金の無駄。開発者がケチになったのではない——Agent が請求の乗算効果を机の上に置いただけだ。

② MoE が「安い + 十分強い」を現実にした

DeepSeek V4 Flash:総 284B、起動は ~13B。MiMo-V2-Flash:309B 中 15B 起動。コストは起動パラメータに紐づく——「最大」ではなく「最も効く起動」が欲しい。

MiMo-V2-Flash は SWE-bench Verified でオープンソース 1 位、Claude Sonnet 4.5 に近い性能で API 料金は約 3.5%。我慢ではなく能力は近いのにコストが断崖

③ 長コンテキスト + cache でコストがさらに崩れる

DeepSeek V4 Flash は 1M context、prompt caching のヒット率は一部 provider で 90%+。加重平均入力は ~$0.044/M(表示 $0.098/M)。同じ system prompt の 2 回目はほぼタダ。RAG では文書ブロックが重複し、「長コンテキストを恐れない」がデフォルト戦略になった。

OpenRouter の実価格——見えている価格ではない

「表示価格 = 実コスト」と思いがちだが、実際は三層:

  1. 表示価格:ページの $0.1 / $3 / $10 の input/output
  2. Provider ルーティングの加重:遅延・可用性・価格で backend を選択
  3. Cache 割引:繰り返し prefix は cache read 単価
モデル入力 /M出力 /Mcache 読 /Mcontext
DeepSeek V4 Flash~$0.098~$0.197一部 94% ヒット1M
MiMo-V2-Flash$0.10$0.30$0.01256K
Claude Sonnet 4.5(対照)~$3.00~$15.00あり200K
GPT-4o(対照)~$2.50~$10.00あり128K

極端例——Agent タスク(入力 100K + 出力 10K、入力 80% cache ヒット):DeepSeek V4 Flash ≈ $0.008、Claude Sonnet 4.5 ≈ $0.2126 倍差。1 日 500 回なら $4 vs $105。28.9T が安いモデルへ流れるのは必然だ。

起きている分裂:三層市場

役割代表モデルトークン比率の趨勢
Flash 実行層80% トークンを食うデフォルトDeepSeek V4 Flash, Hy3, MiMo↑ 拡大中
中間判断層重要ステップの補助判断Gemini Flash, Claude Sonnet→ 安定だが主戦場ではない
フロンティア奢侈品層主フローは走らずレビューのみGPT-4o, Claude Opus↓ 周縁化

Flash 実行層は 安い + 十分賢い + 無限に叩ける。フロンティア層は高級時計のように——品質は最高だが Agent の主戦場にはもう載らない。

能力の限界は残る

安いモデルが万能ではない。秘密鍵、コンプライアンス監査、多段証明、1 回の失敗が致命的な領域(自動売買、医療)ではフロンティアか人のレビューが必要。三層分裂はデフォルト流量の話で、「最強モデルの死」ではない。

エンジニアリング現実:安いほど「デフォルト」になる

デフォルトモデル = 流量モデル = 市場モデル。最強モデルではない。

SDK の初期値、フレームワーク preset、オンボーディング docs の最初の model string——それが流量の入口。DeepSeek V4 Flash の input が Sonnet の 1/30 で、SWE-bench の差が 30 倍未満なら、デフォルトは安い側へ滑る。誰かが宣言しなくても、財布と慣性が決める。

ルーティング戦略:三層を賢く使う

OpenRouter 層別ルーティング例
# Flash 実行層:80% のトークン
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

MCP 駆動の Agent ワークフローでは:「リポジトリ読み・検索・下書き patch」→ DeepSeek V4 Flash;「merge 前の diff レビュー」→ Sonnet。フロンティアを使わないのではなく、主フローに載せない

安い API ≠ データを何でも送っていい

OpenRouter は複数 provider へルーティングし、リクエストは米国や第三国を経由しうる。ソースコードや PII にコンプライアンスがあるなら、ローカルまたは専有 Cloud Mac 推論の方が堅い——コスト優位がリスクを打ち消すわけではない。

ローカル推論 vs API:第三の道

  • 日次呼び出しが予測可能:50K–500K token/日の 7B/14B パイプラインなら Mac mini M4 24GB + Ollama の限界費用はほぼゼロ(実測 7B 約 34–37 tok/s
  • データを国外に出さない:ソース、PII、医療・金融データは OpenRouter に載せない
  • レイテンシ敏感:IDE インライン補完はローカルが RTT ゼロ
  • CI と同機で時間帯分離:Cloud Mac で昼 xcodebuild、夜バッチ推論

200B+ MoE、スパイク負荷、GPU クラスタを持たずに新モデルを試すなら OpenRouter $0.10/M は H100 クラスタがない限り最強の選択肢だ。

2026 ハイブリッド構成

ローカル Ollama(日常 7B–14B)+ OpenRouter Flash 層(Agent 長チェーン)+ フロンティア層(最終 review)Cloud Mac は検証層——実機購入前に同じ benchmark で Swap と tok/s を測り、API に上げる必要のない workload を切り分ける。

結論:28.9T token が語ること

28.9T は DeepSeek の PR 勝利でも、フロンティアの終焉宣言でもない。AI が「能力競争」から「コスト競争」へ入ったサインだ。コスト競争では最安 + 十分良い = デフォルト勝者。ベンチは上限、トークン流量は本当の選択——答えはもう出ている。

まだデフォルトで最強モデルを Agent に走らせているなら、10 倍のコストで「結果にほぼ影響しない選択」を買っているかもしれない。

今すぐ Claude や GPT を捨てろという話ではない。デフォルトの model string は誰が書いた?ベンチか、請求書か? Agent 時代、後者が生存問題だ。

よくある質問

Q: OpenRouter で最も使われているモデルは?
A: DeepSeek V4 Flash。単体週 3.43T、入力 ~$0.10/M。2 位は腾讯 Hy3 preview。

Q: なぜ中国系のトークンが米国を上回る?
A: 攻めた価格 + MoE の成熟 + 自前デプロイ可能さ + Agent 時代の「叩き放題」需要。品質の全面勝利ではなくコスト構造の勝利

Q: 安いモデルは本番向き?
A: 揺れ許容・自動リトライ・フロンティア fallback があるタスク向き。1 回の失敗が致命的な領域には不向き。

Q: 実コストの監視は?
A: OpenRouter dashboard のモデル別日次。アプリに middleware で model と token を記録——さもないと Agent ループが月末に「サプライズ」をくれる。

Cloud MacMac mini をオンラインで借りる