なぜ安いモデルがこれほど多くのトークンを占める？

Agent ループ、RAG 再ランク、一括要約は単発品質の許容度が高くトークン消費が巨大。低価モデルなら長コンテキストと多段リトライを恐れず、毎回 Sonnet 級を叩く必要がない。

OpenRouter の実価格は表示より安い？

安くなることがある。DeepSeek V4 Flash の加重平均入力は約 $0.04/M まで下がりうる。prompt caching ヒット率 50–94% で繰り返し system prompt と RAG 文脈が cache 課金される。

API とローカル Ollama、いつどちら？

プライバシー敏感度が低くスパイクや 200B+ MoE が必要なら OpenRouter API。データを国外に出さず 7B–14B の固定ワークロードで日次呼び出しが予測可能なら Mac mini ローカル Ollama が安い。

OpenRouter の価格の真実：なぜ最安モデルが 28.9T token を「支配」しているのか | ZavCloud

Q: OpenRouter で最も使われているモデルは？

2026 年 6 月時点で DeepSeek V4 Flash が首位、腾讯 Hy3 preview が 2 位。いずれも低価 MoE で入力約 $0.10/M token。

MMLU や GPT-Score でモデルを選んでいるなら、率直に言って間違った物差しに課金している可能性が高い。しかも請求書は毎月きつくなる一方だ。

OpenRouter の直近 7 日間データが示すのは、あまり心地よくない真実：AI の勝者は最強モデルではなく、最安で「思い切り叩ける」モデルだ。2026 年 6 月初旬、週間トークンは 28.9T（+7.4%）。DeepSeek V4 Flash だけで 3.43T——上位はほぼ入力 $0.10/M 級の低価 MoE で、GPT-4o でも Claude Opus でも、ベンチで比較しまくった「最強」でもない。

ここからは数字の裏にあるコスト断層と三層市場の分裂、そして API ルーティングとローカル Ollama 推論のどちらに賭けるかを整理する。結論から言う：AI は「能力競争」から「コスト競争」へ——最安 + 十分良い = デフォルトの勝者。

28.9T

OpenRouter 週間トークン

3.43T

DeepSeek V4 Flash 単体

26×

Flash vs Sonnet の Agent 単価差

28.9T token：業界のルールを書き換えつつある数字

OpenRouter は LLM API の集約ルーター——開発者が実際に叩くモデルは、どのベンチより「本番の戦場」に近い。2026 年 6 月第 1 週：

全站週間トークン：28.9T、5 週連続増、前週比 +7.4%
中国系モデル：9.2T、米国系 4.9T の約 2 倍
DeepSeek V4 Flash：単体 1 位、週 3.43T、日次ピーク 800B 超
腾讯 Hy3 preview：公開数週で世界 2 位
xAI：絶対量 -73%、上位で唯一のマイナス成長

上位はほぼ「低価 MoE」。GPT-4o でもない。Claude Opus でもない。「最強モデル」でもない。

Anthropic はシェアを伸ばした数少ない欧米フロンティアだが、絶対トークンは DeepSeek 系に大差で負けている。マーケの勝利ではなく、財布の投票だ——日本のスタートアップの API 請求も同じ票を投じている。

データ出典

OpenRouter 公開のモデル別利用グラフとコミュニティの provider ranking 分析（2026 年 6 月初）。実際の課金はアカウント請求が正とする。

直感に反する事実：高いモデルが「周縁」へ

ベンチだけ見ると 賢いモデルほど使われるはず と錯覚する。現実は逆：

Claude / GPT：品質は高いが、1 コールごとに予算を燃やす
DeepSeek / Hy3 / MiMo：十分良い + 極安——開発者は無限リトライできる

だから耳の痛い一言になる：最強かどうかより、「大量に叩いても平気か」。昔は賢さの競争、今は「叩ける勇気」の競争。28.9T token はその証拠——トラフィックは嘘をつかない。月末の請求書も。

安いモデルが流量を支配する三つの理由（偶然ではない）

① Agent でトークンが爆発——単価差が生死を分ける

Agent は「一問一答」ではない。コードを読み、patch を書き、テストを回し、修正してループ。1 タスクは 2K から 50K–200K tokenへ——呼び出しが 50 倍になると、「1 回 $0.015 高い」と「$0.0001 高い」の差は最適化の余地ではなく構造的断層になる。

Claude Code や OpenHands が日常ツールになると、リトライ・探索・下書きまで Sonnet に任せるのは品質追求ではなく金の無駄。開発者がケチになったのではない——Agent が請求の乗算効果を机の上に置いただけだ。

② MoE が「安い + 十分強い」を現実にした

DeepSeek V4 Flash：総 284B、起動は ~13B。MiMo-V2-Flash：309B 中 15B 起動。コストは起動パラメータに紐づく——「最大」ではなく「最も効く起動」が欲しい。

MiMo-V2-Flash は SWE-bench Verified でオープンソース 1 位、Claude Sonnet 4.5 に近い性能で API 料金は約 3.5%。我慢ではなく能力は近いのにコストが断崖。

③ 長コンテキスト + cache でコストがさらに崩れる

DeepSeek V4 Flash は 1M context、prompt caching のヒット率は一部 provider で 90%+。加重平均入力は ~$0.044/M（表示 $0.098/M）。同じ system prompt の 2 回目はほぼタダ。RAG では文書ブロックが重複し、「長コンテキストを恐れない」がデフォルト戦略になった。

OpenRouter の実価格——見えている価格ではない

「表示価格 = 実コスト」と思いがちだが、実際は三層：

表示価格：ページの $0.1 / $3 / $10 の input/output
Provider ルーティングの加重：遅延・可用性・価格で backend を選択
Cache 割引：繰り返し prefix は cache read 単価

モデル	入力 /M	出力 /M	cache 読 /M	context
DeepSeek V4 Flash	~$0.098	~$0.197	一部 94% ヒット	1M
MiMo-V2-Flash	$0.10	$0.30	$0.01	256K
Claude Sonnet 4.5（対照）	~$3.00	~$15.00	あり	200K
GPT-4o（対照）	~$2.50	~$10.00	あり	128K

極端例——Agent タスク（入力 100K + 出力 10K、入力 80% cache ヒット）：DeepSeek V4 Flash ≈ $0.008、Claude Sonnet 4.5 ≈ $0.21。26 倍差。1 日 500 回なら $4 vs $105。28.9T が安いモデルへ流れるのは必然だ。

起きている分裂：三層市場

層	役割	代表モデル	トークン比率の趨勢
Flash 実行層	80% トークンを食うデフォルト	DeepSeek V4 Flash, Hy3, MiMo	↑ 拡大中
中間判断層	重要ステップの補助判断	Gemini Flash, Claude Sonnet	→ 安定だが主戦場ではない
フロンティア奢侈品層	主フローは走らずレビューのみ	GPT-4o, Claude Opus	↓ 周縁化

Flash 実行層は 安い + 十分賢い + 無限に叩ける。フロンティア層は高級時計のように——品質は最高だが Agent の主戦場にはもう載らない。

能力の限界は残る

安いモデルが万能ではない。秘密鍵、コンプライアンス監査、多段証明、1 回の失敗が致命的な領域（自動売買、医療）ではフロンティアか人のレビューが必要。三層分裂はデフォルト流量の話で、「最強モデルの死」ではない。

エンジニアリング現実：安いほど「デフォルト」になる

デフォルトモデル = 流量モデル = 市場モデル。最強モデルではない。

SDK の初期値、フレームワーク preset、オンボーディング docs の最初の model string——それが流量の入口。DeepSeek V4 Flash の input が Sonnet の 1/30 で、SWE-bench の差が 30 倍未満なら、デフォルトは安い側へ滑る。誰かが宣言しなくても、財布と慣性が決める。

ルーティング戦略：三層を賢く使う

OpenRouter 層別ルーティング例

# Flash 実行層：80% のトークン
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

MCP 駆動の Agent ワークフローでは：「リポジトリ読み・検索・下書き patch」→ DeepSeek V4 Flash；「merge 前の diff レビュー」→ Sonnet。フロンティアを使わないのではなく、主フローに載せない。

安い API ≠ データを何でも送っていい

OpenRouter は複数 provider へルーティングし、リクエストは米国や第三国を経由しうる。ソースコードや PII にコンプライアンスがあるなら、ローカルまたは専有 Cloud Mac 推論の方が堅い——コスト優位がリスクを打ち消すわけではない。

ローカル推論 vs API：第三の道

日次呼び出しが予測可能：50K–500K token/日の 7B/14B パイプラインなら Mac mini M4 24GB + Ollama の限界費用はほぼゼロ（実測 7B 約 34–37 tok/s）
データを国外に出さない：ソース、PII、医療・金融データは OpenRouter に載せない
レイテンシ敏感：IDE インライン補完はローカルが RTT ゼロ
CI と同機で時間帯分離：Cloud Mac で昼 xcodebuild、夜バッチ推論

200B+ MoE、スパイク負荷、GPU クラスタを持たずに新モデルを試すなら OpenRouter $0.10/M は H100 クラスタがない限り最強の選択肢だ。

2026 ハイブリッド構成

ローカル Ollama（日常 7B–14B）+ OpenRouter Flash 層（Agent 長チェーン）+ フロンティア層（最終 review）。Cloud Mac は検証層——実機購入前に同じ benchmark で Swap と tok/s を測り、API に上げる必要のない workload を切り分ける。

結論：28.9T token が語ること

28.9T は DeepSeek の PR 勝利でも、フロンティアの終焉宣言でもない。AI が「能力競争」から「コスト競争」へ入ったサインだ。コスト競争では最安 + 十分良い = デフォルト勝者。ベンチは上限、トークン流量は本当の選択——答えはもう出ている。

まだデフォルトで最強モデルを Agent に走らせているなら、10 倍のコストで「結果にほぼ影響しない選択」を買っているかもしれない。

今すぐ Claude や GPT を捨てろという話ではない。デフォルトの model string は誰が書いた？ベンチか、請求書か？ Agent 時代、後者が生存問題だ。

よくある質問

Q: OpenRouter で最も使われているモデルは？
A: DeepSeek V4 Flash。単体週 3.43T、入力 ~$0.10/M。2 位は腾讯 Hy3 preview。

Q: なぜ中国系のトークンが米国を上回る？
A: 攻めた価格 + MoE の成熟 + 自前デプロイ可能さ + Agent 時代の「叩き放題」需要。品質の全面勝利ではなくコスト構造の勝利。

Q: 安いモデルは本番向き？
A: 揺れ許容・自動リトライ・フロンティア fallback があるタスク向き。1 回の失敗が致命的な領域には不向き。

Q: 実コストの監視は？
A: OpenRouter dashboard のモデル別日次。アプリに middleware で model と token を記録——さもないと Agent ループが月末に「サプライズ」をくれる。