结论先行:1 亿 token 在 Flash 层约 $10–14,Sonnet 约 $540,Opus 约 $2,700。下文四张表直接给 2026 年 6 月最新标价,每张表后一句话说明,文末附群体推荐。
表 1:Flash 执行层 — 2026 年 6 月 API 单价
OpenRouter / 官方定价页,单位:美元 / 百万 token($/M)。
Agent 主流程默认档 — 敢开长上下文、敢重试
| 模型 | 输入 /M | 输出 /M | 缓存读 /M | 上下文 |
|---|---|---|---|---|
| DeepSeek V4 Flash 用量第一 | $0.098 | $0.197 | ~$0.01 | 1M |
| Hy3 Preview | ~$0.10 | ~$0.20 | 有 | 256K+ |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Gemini 2.5 Flash | $0.15 | $0.60 | 有 | 1M |
| Kimi K2 | ~$0.15 | ~$0.50 | 有 | 128K |
| GPT-4o mini | $0.15 | $0.60 | 有 | 128K |
| Owl Alpha | ~$0.12 | ~$0.35 | — | 200K |
表 1 说明:这一档吃掉 80% 的 Agent token。OpenRouter 周用量 Top 10 前排几乎全是这一层;DeepSeek + Hy3 合计超 20T/周。选默认 model string 优先从这里挑。
表 2:Frontier 审查层 — 2026 年 6 月 API 单价
只升档、不当默认 — merge 前审查 / 架构决策
| 模型 | 输入 /M | 输出 /M | 上下文 | OpenRouter 趋势 |
|---|---|---|---|---|
| Claude Sonnet 4.6 | ~$3.00 | ~$15.00 | 200K | 审查层主力 |
| Claude Opus 4.7 | ~$15.00 | ~$75.00 | 200K | 签字画押层 |
| GPT-4o | $2.50 | $10.00 | 128K | 跌出 Top 8 |
| Gemini 2.5 Pro | ~$1.25 | ~$10.00 | 1M | 多模态长文 |
| o3 / o4-mini(推理档) | $1.10–4.00 | $4.40–16.00 | 200K | 数学 / 证明专用 |
表 2 说明:质量顶级,但 Agent 主循环用不起。Claude Opus 仍有 7T+ 周用量——角色是审查,不是默认。GPT-4o 正被 Flash 替换出主流程。
表 3:1 亿 Token 账单对照
统一标尺:100M token = 1 亿。三种配比:纯输入 / 80·20 对话 / 90·10 Agent。
同量 token,最贵与最便宜差 200×
| 模型 | 纯输入 1 亿 | 80/20 混合 | 90/10 Agent | vs DeepSeek |
|---|---|---|---|---|
| Flash 执行层 | ||||
| DeepSeek V4 Flash | ~$10 | ~$12 | ~$11 | 1× |
| Hy3 Preview | ~$10 | ~$13 | ~$11 | 1.1× |
| Gemini 2.5 Flash | ~$15 | ~$24 | ~$19 | 2× |
| Frontier 审查层 | ||||
| GPT-4o | ~$250 | ~$400 | ~$325 | 33× |
| Claude Sonnet 4.6 | ~$300 | ~$540 | ~$420 | 45× |
| Claude Opus 4.7 | ~$1,500 | ~$2,700 | ~$2,100 | 225× |
表 3 说明:月消耗 10 亿 token → DeepSeek 约 $120,Sonnet 约 $5,400。Agent 场景输入占比高,优先看「90/10」列;高缓存命中时 Flash 层实付可再低 50%+。
表 4:典型 Agent 单次任务成本
假设:100K input + 10K output,80% 输入命中 cache。日跑 500 次时的日账单。
日 500 次:DeepSeek $4 vs Sonnet $105
| 模型 | 输入 /M | 单次任务 | 日 500 次 | vs DeepSeek |
|---|---|---|---|---|
| Flash 执行层 | ||||
| DeepSeek V4 Flash | ~$0.10 | $0.008 | ~$4 | 1× |
| Hy3 Preview | ~$0.10 | $0.009 | ~$5 | 1.1× |
| Gemini 2.5 Flash | ~$0.15 | $0.02 | ~$10 | 2.5× |
| Kimi K2 | ~$0.15 | $0.018 | ~$9 | 2.3× |
| Frontier 审查层 | ||||
| Claude Sonnet 4.6 | ~$3.00 | $0.21 | ~$105 | 26× |
| Claude Opus 4.7 | ~$15.00 | $1.05 | ~$525 | 131× |
| GPT-4o | ~$2.50 | $0.18 | ~$90 | 23× |
表 4 说明:这是 Claude Code / OpenHands 一类工具的真实消耗量级。质量差距远小于 26 倍——所以主流程不该默认 Sonnet。
群体推荐:你是谁,就用哪张表里的哪一行
主模型 + 升档模型 + 月预算量级
| 群体 | 主模型(80% token) | 升档模型(5–10%) | 月 API 预算参考 |
|---|---|---|---|
| 个人开发者 · IDE 补全 | Cursor / Copilot 订阅内置 | — | $20–40 订阅 |
| 独立全栈 · 轻量 Agent | DeepSeek V4 Flash | Claude Sonnet(review) | $20–80 |
| 中文业务 · 长链路 Agent | Hy3 Preview | Kimi K2 / Sonnet | $50–200 |
| 小团队 RAG 产品 | DeepSeek Flash + 缓存 | Sonnet merge 前审查 | $200–800 |
| 日 500+ Agent 任务 | DeepSeek / Hy3 双路由 | Opus 仅关键节点 | $120–600(Flash 主) |
| 源码敏感 · 数据不出境 | Mac mini Ollama 7B–14B | Flash API 仅非敏感任务 | 硬件摊销 > API |
| 金融 / 医疗 · 单次失败极贵 | Flash 草稿 + 检索 | Opus / GPT-4o 人工闸门 | 按合规定,不设上限 |
推荐原则:Flash 吃流量,Frontier 守关口。默认组合 = DeepSeek / Hy3 + Claude Sonnet。详细用量趋势见 OpenRouter 价格真相。
一句话总结:看价格选 Flash,看风险升 Sonnet/Opus。1 亿 token 是标尺,群体推荐是答案。
ZavCloud
本地能扛的 workload,不必按 $3/M 送 API
在 Cloud Mac 上跑 Ollama,摸清 7B/14B 的日 token 上限——再决定 Flash API 预算开多少。
查看 Cloud Mac 方案