OpenRouter 的價格真相:為什麼最便宜的模型正在「統治」28.9T token?

AI 手記  ·  2026.06.08  ·  約 9 分鐘閱讀

分析圖表與數據趨勢,解讀 OpenRouter 28.9T 週 token 用量與低價模型定價結構

如果你還在用 MMLU、GPT-Score 這類 benchmark 挑模型,老實說,你很可能正在為錯誤的標準買單——而且帳單會越來越難看。

OpenRouter 最新 7 天數據丟出一個不太舒服的真相:AI 戰場的贏家,不是最強的模型,而是最便宜、最敢被狂 call 的模型。2026 年 6 月初,全站週 token 量 28.9T(+7.4%),DeepSeek V4 Flash 單模型就吃掉 3.43T——榜單前排幾乎全是輸入價 $0.10/M 等級的平價 MoE,不是 GPT-4o,不是 Claude Opus,更不是你在技術論壇裡比來比去的那顆「最強模型」。

下面拆解這串數字背後的成本斷層、正在發生的三層市場分裂,以及台灣開發者該怎麼在 API 路由與本機 Ollama 推理之間站隊。技術細節都在,但結論先講:AI 正從「能力競賽」滑進「成本競賽」——而在成本競賽裡,最便宜 + 夠好用 = 預設贏家。

28.9T
OpenRouter 週 token 量
3.43T
DeepSeek V4 Flash 單模型
26×
Flash vs Sonnet 單次 Agent 成本差

28.9T token:一個正在改寫產業規則的數字

OpenRouter 是 LLM API 聚合路由層——工程師實際 call 什麼,比任何 leaderboard 都更接近真實戰場。2026 年 6 月第一週:

  • 全站週 token:28.9T,連續五週成長,月增 +7.4%
  • 中國模型:9.2T token,是美國模型 4.9T 的近兩倍
  • DeepSeek V4 Flash:單模型第一,週用量 3.43T,日峰值超 800B
  • 騰訊 Hy3 preview:發布數週即登頂全球第二
  • xAI:絕對用量下降 73%,前排唯一負成長

排行榜前列幾乎全是「低價 MoE 模型」。不是 GPT-4o。不是 Claude Opus。甚至不是「最強模型」。

Anthropic 是少數份額成長的西方前沿實驗室,但絕對 token 量仍被 DeepSeek 系遠遠甩開。這不是行銷勝利,是錢包投票的結果——台灣團隊的 API 帳單也在投同一票。

資料來源

數字來自 OpenRouter 公開模型頁用量圖表與社群 provider ranking 分析(2026 年 6 月初)。OpenRouter 按 provider 路由請求,實際計費以帳戶帳單為準。

反直覺事實:最貴的模型正在「被邊緣化」

只看 benchmark 會得到錯覺:更聰明的模型 → 應該被更多人用。真實情況恰恰相反:

  • Claude / GPT:品質高,但成本高——每次呼叫都在燒預算
  • DeepSeek / Hy3 / MiMo:夠好用 + 極低成本——開發者敢無限重試

結果就變成一句不太中聽的話:不是誰最強,而是誰「敢被大量呼叫」。過去比的是「誰更聰明」;現在比的是「誰更敢被 call」。28.9T token 就是這個轉變的硬證據——流量不會說謊,月底帳單更不會。

便宜模型統治流量的三個原因(不是巧合)

① Agent 讓 token 消耗爆炸——價差變成生死差距

AI Agent 不再是「問一次答一次」。它讀 code、寫 patch、跑測試、修錯、再迴圈。一次任務從 2K token 膨脹到 50K–200K token——呼叫次數放大 50 倍之後,「每次貴 $0.015」和「每次貴 $0.0001」就從優化空間變成結構性斷層

Claude Code 或 OpenHands 變成日常工具,把「重試、探索、草稿」階段全丟給 Sonnet 不是「追求品質」,是燒錢。開發者不是變小氣——是 Agent 把帳單的乘法效應擺到桌面上,沒人裝得下去。

② MoE 讓「便宜 + 夠強」成為現實

DeepSeek V4 Flash:284B 總參數,每次只啟動 ~13B。MiMo-V2-Flash:309B 總量,15B 啟動。推理成本跟啟動參數量掛鉤,不是總參數——你不需要「最大模型」,你需要「最有效啟動」。

MiMo-V2-Flash 在 SWE-bench Verified 排名開源第一,效能接近 Claude Sonnet 4.5,卻只付約 3.5% 的 API 費用。這不是「將就用」,是能力接近、成本斷崖

③ 長上下文 + cache 讓成本進一步崩塌

DeepSeek V4 Flash 支援 1M context,部分 provider 的 prompt caching 命中率高達 90%+,加權平均輸入價可低至 ~$0.044/M(標稱 $0.098/M)。同一段 system prompt,第二次呼叫接近免費。RAG 場景裡文件塊高度重複——「敢開長上下文」從成本禁忌變成預設策略。

OpenRouter 的真實價格機制,不是你看到的那樣

很多人以為「標價 = 實際成本」。現實是三層結構:

  1. 標價:頁面上 $0.1 / $3 / $10 的 input/output 單價
  2. Provider 路由加權:OpenRouter 按延遲、可用性、價格選 backend
  3. Cache 折扣:重複 prompt 前綴按 cache read 價計費
模型輸入標價 /M輸出標價 /M快取讀 /M上下文
DeepSeek V4 Flash~$0.098~$0.197部分 provider 94% 命中1M
MiMo-V2-Flash$0.10$0.30$0.01256K
Claude Sonnet 4.5(對照)~$3.00~$15.00200K
GPT-4o(對照)~$2.50~$10.00128K

極端對比——Agent 任務(100K 輸入 + 10K 輸出,80% 輸入命中快取):DeepSeek V4 Flash ≈ $0.008;Claude Sonnet 4.5 ≈ $0.21差 26 倍。日跑 500 次 = $4 vs $105。28.9T token 流向低價模型,不是偶然,是必然。

正在發生的真實分裂:三層市場

層級角色典型模型token 占比趨勢
Flash 執行層吃掉 80% token 的預設模型DeepSeek V4 Flash, Hy3, MiMo↑ 持續擴張
中間判斷層關鍵步驟的輔助判斷Gemini Flash, Claude Sonnet→ 穩定但非主流程
前沿奢侈品層不再跑主流程,只做審查GPT-4o, Claude Opus↓ 被邊緣化

Flash 執行層的特點:便宜 + 夠聰明 + 可無限呼叫。前沿層越來越像奢侈品——品質頂級,但 Agent 主流程已經用不起了。

能力邊界仍然存在

便宜模型不是萬能。金鑰處理、合規審計、多步數學證明、單次失敗成本極高的場景,仍需要 frontier 模型或人工 review。三層分裂說的是預設流量分配,不是「最強模型已死」。

工程現實:誰便宜,誰就成為「預設模型」

預設模型 = 流量模型 = 市場模型。不是最強模型。

SDK 預設值、框架 preset、團隊 onboarding 文件裡寫的第一個 model string——那就是流量入口。當 DeepSeek V4 Flash 的 input 價是 Sonnet 的 1/30,而 SWE-bench 差距遠小於 30 倍時,「預設」會自動滑向便宜那邊。不需要誰宣布,錢包和工程慣性會替你做決定。

工程路由策略:聰明地用三層,而不是硬扛一層

OpenRouter 分層路由示意
# Flash 執行層:處理 80% token
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

對於 MCP 驅動的 Agent 工作流:「讀 repo、搜檔案、生成草稿 patch」→ DeepSeek V4 Flash;「最終 merge 前的 review diff」→ Sonnet。不是不用 frontier,是別讓它跑主流程。

便宜 API ≠ 可以隨便送資料

OpenRouter 路由到多家 provider,請求可能經過美國或第三國節點。程式碼 repo、使用者 PII 有合規要求時,本機或獨享 Cloud Mac 推理是更穩妥的選項——成本優勢不能覆蓋合規風險。

本機推理 vs API:第三條路

  • 日呼叫量可預測:固定 50K–500K token/天的 7B/14B 流水線,Mac mini M4 24GB 跑 Ollama 邊際成本趨近於零(實測 7B 約 34–37 tok/s
  • 資料不出境:原始碼、PII、醫療/金融資料不該上 OpenRouter
  • 延遲敏感:IDE 內聯補全,本機無網路 RTT
  • 與 CI 同機錯峰:Cloud Mac 白天 xcodebuild、夜間批推理

需要 200B+ MoE 能力、突發峰值、或快速試新模型而不想維護 GPU 叢集時,OpenRouter $0.10/M 幾乎無可匹敵——除非你有 H100 叢集。

2026 混合架構

本機 Ollama(日常 7B–14B)+ OpenRouter Flash 層(Agent 長鏈路)+ Frontier 層(最終 review)Cloud Mac 是驗證層——採購實體機前,用同一套 benchmark 腳本測 Swap 與 tok/s,確認哪些 workload 根本不必上 API。

結論:28.9T token 在告訴你什麼

28.9T token 不是 DeepSeek 的行銷勝利,也不是 frontier 模型的死亡宣告。它說明的是:AI 正從「能力競賽」進入「成本競賽階段」。在成本競賽裡,最便宜 + 夠好用 = 預設贏家。benchmark 衡量的是上限,token 流量衡量的是真實選擇——而真實選擇已經給出答案。

如果你還在預設用最強模型跑 Agent,你可能正在用 10 倍成本買一個「幾乎不影響結果」的選擇。

這不是要你立刻換掉 Claude 或 GPT。這是讓你重新審視:你的預設 model string 是誰寫的?是基於 benchmark,還是基於帳單?在 Agent 時代,後者才是生存問題。

常見問題

Q: OpenRouter 上用量最大的模型是什麼?
A: DeepSeek V4 Flash,單模型週用量 3.43T,輸入價 ~$0.10/M。騰訊 Hy3 preview 第二。

Q: 為什麼中國模型 token 量超過美國?
A: 價格激進 + MoE 架構成熟 + 開源可自部署,疊加 Agent 時代「敢用、敢重試」的需求。不是品質全面碾壓,是成本結構碾壓

Q: 便宜模型適合正式環境嗎?
A: 適合可容忍偶發波動、可自動重試、有 frontier 兜底的任務。不適合單次失敗成本極高的場景。

Q: 如何監控實際花費?
A: OpenRouter dashboard 按模型/日統計。應用層加 middleware 記錄每次呼叫的 model 與 token 數——否則 Agent 迴圈會在月底給你一個「驚喜」。

Cloud Mac線上租用 Mac mini