為什麼便宜模型能占這麼多 token 量？

Agent 迴圈、RAG 重排、批量摘要等任務對單次品質容忍度高，但 token 消耗極大；低價模型讓開發者敢開長上下文、多輪重試，而不必每次呼叫 Claude Sonnet 級別模型。

OpenRouter 的實際價格比標價更低嗎？

可能更低。DeepSeek V4 Flash 的加權平均輸入價可低至約 $0.04/M，因為 prompt caching 命中率可達 50–94%，重複 system prompt 與 RAG 上下文會被快取計費。

什麼時候該用 API，什麼時候該本機跑 Ollama？

低隱私敏感度、突發峰值、需要 200B+ 級 MoE 能力時用 OpenRouter API；資料不出境、7B–14B 固定工作流、日呼叫量穩定且可預測時用 Mac mini 本機 Ollama 更省。

OpenRouter 的價格真相：為什麼最便宜的模型正在「統治」28.9T token？ | ZavCloud

Q: OpenRouter 上用量最大的模型是什麼？

截至 2026 年 6 月，DeepSeek V4 Flash 在 OpenRouter 上用量居首，騰訊 Hy3 preview 排名第二。兩者均為低價 MoE 架構，輸入約 $0.10/M token。

如果你還在用 MMLU、GPT-Score 這類 benchmark 挑模型，老實說，你很可能正在為錯誤的標準買單——而且帳單會越來越難看。

OpenRouter 最新 7 天數據丟出一個不太舒服的真相：AI 戰場的贏家，不是最強的模型，而是最便宜、最敢被狂 call 的模型。2026 年 6 月初，全站週 token 量 28.9T（+7.4%），DeepSeek V4 Flash 單模型就吃掉 3.43T——榜單前排幾乎全是輸入價 $0.10/M 等級的平價 MoE，不是 GPT-4o，不是 Claude Opus，更不是你在技術論壇裡比來比去的那顆「最強模型」。

下面拆解這串數字背後的成本斷層、正在發生的三層市場分裂，以及台灣開發者該怎麼在 API 路由與本機 Ollama 推理之間站隊。技術細節都在，但結論先講：AI 正從「能力競賽」滑進「成本競賽」——而在成本競賽裡，最便宜 + 夠好用 = 預設贏家。

28.9T

OpenRouter 週 token 量

3.43T

DeepSeek V4 Flash 單模型

26×

Flash vs Sonnet 單次 Agent 成本差

28.9T token：一個正在改寫產業規則的數字

OpenRouter 是 LLM API 聚合路由層——工程師實際 call 什麼，比任何 leaderboard 都更接近真實戰場。2026 年 6 月第一週：

全站週 token：28.9T，連續五週成長，月增 +7.4%
中國模型：9.2T token，是美國模型 4.9T 的近兩倍
DeepSeek V4 Flash：單模型第一，週用量 3.43T，日峰值超 800B
騰訊 Hy3 preview：發布數週即登頂全球第二
xAI：絕對用量下降 73%，前排唯一負成長

排行榜前列幾乎全是「低價 MoE 模型」。不是 GPT-4o。不是 Claude Opus。甚至不是「最強模型」。

Anthropic 是少數份額成長的西方前沿實驗室，但絕對 token 量仍被 DeepSeek 系遠遠甩開。這不是行銷勝利，是錢包投票的結果——台灣團隊的 API 帳單也在投同一票。

資料來源

數字來自 OpenRouter 公開模型頁用量圖表與社群 provider ranking 分析（2026 年 6 月初）。OpenRouter 按 provider 路由請求，實際計費以帳戶帳單為準。

反直覺事實：最貴的模型正在「被邊緣化」

只看 benchmark 會得到錯覺：更聰明的模型 → 應該被更多人用。真實情況恰恰相反：

Claude / GPT：品質高，但成本高——每次呼叫都在燒預算
DeepSeek / Hy3 / MiMo：夠好用 + 極低成本——開發者敢無限重試

結果就變成一句不太中聽的話：不是誰最強，而是誰「敢被大量呼叫」。過去比的是「誰更聰明」；現在比的是「誰更敢被 call」。28.9T token 就是這個轉變的硬證據——流量不會說謊，月底帳單更不會。

便宜模型統治流量的三個原因（不是巧合）

① Agent 讓 token 消耗爆炸——價差變成生死差距

AI Agent 不再是「問一次答一次」。它讀 code、寫 patch、跑測試、修錯、再迴圈。一次任務從 2K token 膨脹到 50K–200K token——呼叫次數放大 50 倍之後，「每次貴 $0.015」和「每次貴 $0.0001」就從優化空間變成結構性斷層。

當 Claude Code 或 OpenHands 變成日常工具，把「重試、探索、草稿」階段全丟給 Sonnet 不是「追求品質」，是燒錢。開發者不是變小氣——是 Agent 把帳單的乘法效應擺到桌面上，沒人裝得下去。

② MoE 讓「便宜 + 夠強」成為現實

DeepSeek V4 Flash：284B 總參數，每次只啟動 ~13B。MiMo-V2-Flash：309B 總量，15B 啟動。推理成本跟啟動參數量掛鉤，不是總參數——你不需要「最大模型」，你需要「最有效啟動」。

MiMo-V2-Flash 在 SWE-bench Verified 排名開源第一，效能接近 Claude Sonnet 4.5，卻只付約 3.5% 的 API 費用。這不是「將就用」，是能力接近、成本斷崖。

③ 長上下文 + cache 讓成本進一步崩塌

DeepSeek V4 Flash 支援 1M context，部分 provider 的 prompt caching 命中率高達 90%+，加權平均輸入價可低至 ~$0.044/M（標稱 $0.098/M）。同一段 system prompt，第二次呼叫接近免費。RAG 場景裡文件塊高度重複——「敢開長上下文」從成本禁忌變成預設策略。

OpenRouter 的真實價格機制，不是你看到的那樣

很多人以為「標價 = 實際成本」。現實是三層結構：

標價：頁面上 $0.1 / $3 / $10 的 input/output 單價
Provider 路由加權：OpenRouter 按延遲、可用性、價格選 backend
Cache 折扣：重複 prompt 前綴按 cache read 價計費

模型	輸入標價 /M	輸出標價 /M	快取讀 /M	上下文
DeepSeek V4 Flash	~$0.098	~$0.197	部分 provider 94% 命中	1M
MiMo-V2-Flash	$0.10	$0.30	$0.01	256K
Claude Sonnet 4.5（對照）	~$3.00	~$15.00	有	200K
GPT-4o（對照）	~$2.50	~$10.00	有	128K

極端對比——Agent 任務（100K 輸入 + 10K 輸出，80% 輸入命中快取）：DeepSeek V4 Flash ≈ $0.008；Claude Sonnet 4.5 ≈ $0.21。差 26 倍。日跑 500 次 = $4 vs $105。28.9T token 流向低價模型，不是偶然，是必然。

正在發生的真實分裂：三層市場

層級	角色	典型模型	token 占比趨勢
Flash 執行層	吃掉 80% token 的預設模型	DeepSeek V4 Flash, Hy3, MiMo	↑ 持續擴張
中間判斷層	關鍵步驟的輔助判斷	Gemini Flash, Claude Sonnet	→ 穩定但非主流程
前沿奢侈品層	不再跑主流程，只做審查	GPT-4o, Claude Opus	↓ 被邊緣化

Flash 執行層的特點：便宜 + 夠聰明 + 可無限呼叫。前沿層越來越像奢侈品——品質頂級，但 Agent 主流程已經用不起了。

能力邊界仍然存在

便宜模型不是萬能。金鑰處理、合規審計、多步數學證明、單次失敗成本極高的場景，仍需要 frontier 模型或人工 review。三層分裂說的是預設流量分配，不是「最強模型已死」。

工程現實：誰便宜，誰就成為「預設模型」

預設模型 = 流量模型 = 市場模型。不是最強模型。

SDK 預設值、框架 preset、團隊 onboarding 文件裡寫的第一個 model string——那就是流量入口。當 DeepSeek V4 Flash 的 input 價是 Sonnet 的 1/30，而 SWE-bench 差距遠小於 30 倍時，「預設」會自動滑向便宜那邊。不需要誰宣布，錢包和工程慣性會替你做決定。

工程路由策略：聰明地用三層，而不是硬扛一層

OpenRouter 分層路由示意

# Flash 執行層：處理 80% token
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

對於 MCP 驅動的 Agent 工作流：「讀 repo、搜檔案、生成草稿 patch」→ DeepSeek V4 Flash；「最終 merge 前的 review diff」→ Sonnet。不是不用 frontier，是別讓它跑主流程。

便宜 API ≠ 可以隨便送資料

OpenRouter 路由到多家 provider，請求可能經過美國或第三國節點。程式碼 repo、使用者 PII 有合規要求時，本機或獨享 Cloud Mac 推理是更穩妥的選項——成本優勢不能覆蓋合規風險。

本機推理 vs API：第三條路

日呼叫量可預測：固定 50K–500K token/天的 7B/14B 流水線，Mac mini M4 24GB 跑 Ollama 邊際成本趨近於零（實測 7B 約 34–37 tok/s）
資料不出境：原始碼、PII、醫療/金融資料不該上 OpenRouter
延遲敏感：IDE 內聯補全，本機無網路 RTT
與 CI 同機錯峰：Cloud Mac 白天 xcodebuild、夜間批推理

需要 200B+ MoE 能力、突發峰值、或快速試新模型而不想維護 GPU 叢集時，OpenRouter $0.10/M 幾乎無可匹敵——除非你有 H100 叢集。

2026 混合架構

本機 Ollama（日常 7B–14B）+ OpenRouter Flash 層（Agent 長鏈路）+ Frontier 層（最終 review）。Cloud Mac 是驗證層——採購實體機前，用同一套 benchmark 腳本測 Swap 與 tok/s，確認哪些 workload 根本不必上 API。

結論：28.9T token 在告訴你什麼

28.9T token 不是 DeepSeek 的行銷勝利，也不是 frontier 模型的死亡宣告。它說明的是：AI 正從「能力競賽」進入「成本競賽階段」。在成本競賽裡，最便宜 + 夠好用 = 預設贏家。benchmark 衡量的是上限，token 流量衡量的是真實選擇——而真實選擇已經給出答案。

如果你還在預設用最強模型跑 Agent，你可能正在用 10 倍成本買一個「幾乎不影響結果」的選擇。

這不是要你立刻換掉 Claude 或 GPT。這是讓你重新審視：你的預設 model string 是誰寫的？是基於 benchmark，還是基於帳單？在 Agent 時代，後者才是生存問題。

常見問題

Q: OpenRouter 上用量最大的模型是什麼？
A: DeepSeek V4 Flash，單模型週用量 3.43T，輸入價 ~$0.10/M。騰訊 Hy3 preview 第二。

Q: 為什麼中國模型 token 量超過美國？
A: 價格激進 + MoE 架構成熟 + 開源可自部署，疊加 Agent 時代「敢用、敢重試」的需求。不是品質全面碾壓，是成本結構碾壓。

Q: 便宜模型適合正式環境嗎？
A: 適合可容忍偶發波動、可自動重試、有 frontier 兜底的任務。不適合單次失敗成本極高的場景。

Q: 如何監控實際花費？
A: OpenRouter dashboard 按模型/日統計。應用層加 middleware 記錄每次呼叫的 model 與 token 數——否則 Agent 迴圈會在月底給你一個「驚喜」。