結論先行:1 億 token 在 Flash 層約 $10–14,Sonnet 約 $540,Opus 約 $2,700。下文四張表直接給 2026 年 6 月最新標價,每張表後一句話說明,文末附族群推薦。
表 1:Flash 執行層 — 2026 年 6 月 API 單價
OpenRouter / 官方定價頁,單位:美元 / 百萬 token($/M)。
Agent 主迴圈預設檔 — 敢開長上下文、敢重試
| 模型 | 輸入 /M | 輸出 /M | 快取讀 /M | 上下文 |
|---|---|---|---|---|
| DeepSeek V4 Flash 用量第一 | $0.098 | $0.197 | ~$0.01 | 1M |
| Hy3 Preview | ~$0.10 | ~$0.20 | 有 | 256K+ |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Gemini 2.5 Flash | $0.15 | $0.60 | 有 | 1M |
| Kimi K2 | ~$0.15 | ~$0.50 | 有 | 128K |
| GPT-4o mini | $0.15 | $0.60 | 有 | 128K |
| Owl Alpha | ~$0.12 | ~$0.35 | — | 200K |
表 1 說明:這一檔吃掉 80% 的 Agent token。OpenRouter 週用量 Top 10 前排幾乎全是這一層;DeepSeek + Hy3 合計超 20T/週。選預設 model string 優先從這裡挑。
表 2:Frontier 審查層 — 2026 年 6 月 API 單價
只升檔、不當預設 — 合併前審查 / 架構決策
| 模型 | 輸入 /M | 輸出 /M | 上下文 | OpenRouter 趨勢 |
|---|---|---|---|---|
| Claude Sonnet 4.6 | ~$3.00 | ~$15.00 | 200K | 審查層主力 |
| Claude Opus 4.7 | ~$15.00 | ~$75.00 | 200K | 簽字畫押層 |
| GPT-4o | $2.50 | $10.00 | 128K | 跌出 Top 8 |
| Gemini 2.5 Pro | ~$1.25 | ~$10.00 | 1M | 多模態長文 |
| o3 / o4-mini(推理檔) | $1.10–4.00 | $4.40–16.00 | 200K | 數學 / 證明專用 |
表 2 說明:品質頂級,但 Agent 主迴圈用不起。Claude Opus 仍有 7T+ 週用量——角色是審查,不是預設。GPT-4o 正被 Flash 替換出主流程。
表 3:1 億 Token 帳單對照
統一標尺:100M token = 1 億。三種配比:純輸入 / 80·20 對話 / 90·10 Agent。
同量 token,最貴與最便宜差 200×
| 模型 | 純輸入 1 億 | 80/20 混合 | 90/10 Agent | vs DeepSeek |
|---|---|---|---|---|
| Flash 執行層 | ||||
| DeepSeek V4 Flash | ~$10 | ~$12 | ~$11 | 1× |
| Hy3 Preview | ~$10 | ~$13 | ~$11 | 1.1× |
| Gemini 2.5 Flash | ~$15 | ~$24 | ~$19 | 2× |
| Frontier 審查層 | ||||
| GPT-4o | ~$250 | ~$400 | ~$325 | 33× |
| Claude Sonnet 4.6 | ~$300 | ~$540 | ~$420 | 45× |
| Claude Opus 4.7 | ~$1,500 | ~$2,700 | ~$2,100 | 225× |
表 3 說明:月消耗 10 億 token → DeepSeek 約 $120,Sonnet 約 $5,400。Agent 場景輸入佔比高,優先看「90/10」欄;高快取命中時 Flash 層實付可再低 50%+。
表 4:典型 Agent 單次任務成本
假設:100K input + 10K output,80% 輸入命中 cache。日跑 500 次時的日帳單。
日 500 次:DeepSeek $4 vs Sonnet $105
| 模型 | 輸入 /M | 單次任務 | 日 500 次 | vs DeepSeek |
|---|---|---|---|---|
| Flash 執行層 | ||||
| DeepSeek V4 Flash | ~$0.10 | $0.008 | ~$4 | 1× |
| Hy3 Preview | ~$0.10 | $0.009 | ~$5 | 1.1× |
| Gemini 2.5 Flash | ~$0.15 | $0.02 | ~$10 | 2.5× |
| Kimi K2 | ~$0.15 | $0.018 | ~$9 | 2.3× |
| Frontier 審查層 | ||||
| Claude Sonnet 4.6 | ~$3.00 | $0.21 | ~$105 | 26× |
| Claude Opus 4.7 | ~$15.00 | $1.05 | ~$525 | 131× |
| GPT-4o | ~$2.50 | $0.18 | ~$90 | 23× |
表 4 說明:這是 Claude Code / OpenHands 一類工具的真實消耗量級。品質差距遠小於 26 倍——所以主迴圈不該預設 Sonnet。
族群推薦:你是誰,就用哪張表裡的哪一行
主模型 + 升檔模型 + 月預算量級
| 族群 | 主模型(80% token) | 升檔模型(5–10%) | 月 API 預算參考 |
|---|---|---|---|
| 個人開發者 · IDE 補全 | Cursor / Copilot 訂閱內建 | — | $20–40 訂閱 |
| 獨立全端 · 輕量 Agent | DeepSeek V4 Flash | Claude Sonnet(review) | $20–80 |
| 中文業務 · 長鏈路 Agent | Hy3 Preview | Kimi K2 / Sonnet | $50–200 |
| 小團隊 RAG 產品 | DeepSeek Flash + 快取 | Sonnet 合併前審查 | $200–800 |
| 日 500+ Agent 任務 | DeepSeek / Hy3 雙路由 | Opus 僅關鍵節點 | $120–600(Flash 主) |
| 原始碼敏感 · 資料不出境 | Mac mini Ollama 7B–14B | Flash API 僅非敏感任務 | 硬體攤銷 > API |
| 金融 / 醫療 · 單次失敗極貴 | Flash 草稿 + 檢索 | Opus / GPT-4o 人工閘門 | 按合規規定,不設上限 |
推薦原則:Flash 吃流量,Frontier 守關口。預設組合 = DeepSeek / Hy3 + Claude Sonnet。詳細用量趨勢見 OpenRouter 價格真相。
一句話總結:看價格選 Flash,看風險升 Sonnet/Opus。1 億 token 是標尺,族群推薦是答案。
ZavCloud
本機能扛的 workload,不必按 $3/M 送 API
在 Cloud Mac 上跑 Ollama,摸清 7B/14B 的日 token 上限——再決定 Flash API 預算開多少。
查看 Cloud Mac 方案