如果你还在用 MMLU、GPT-Score 这类 benchmark 来选模型,你大概率已经在为错误的标准付费。
OpenRouter 最新 7 天数据给了一个不太舒服的事实:AI 世界的胜利者,不是最强模型,而是最便宜、最敢用的模型。2026 年 6 月初,全站周 token 量 28.9T(+7.4%),DeepSeek V4 Flash 单模型独占 3.43T——榜单前列几乎全是输入价 $0.10/M 量级的低价 MoE,不是 GPT-4o,不是 Claude Opus,甚至不是你在 benchmark 里反复对比的「最强模型」。
下面拆解这个数字背后的成本断层、正在发生的三层市场分裂,以及开发者该如何在 API 路由与本地 Ollama 推理之间站队。技术细节都在,但结论先说:AI 正在从「能力竞争」进入「成本竞争」——而在成本竞争里,最便宜 + 足够好 = 默认赢家。
28.9T token:一个正在改写行业规则的数字
OpenRouter 是 LLM API 聚合路由层——开发者在这里用什么,比任何 benchmark 都更接近「真实战场」。2026 年 6 月第一周:
- 全站周 token:28.9T,连续五周增长,环比 +7.4%
- 中国模型:9.2T token,是美国模型 4.9T 的近两倍
- DeepSeek V4 Flash:单模型第一,周用量 3.43T,日峰值超 800B
- 腾讯 Hy3 preview:紧随其后,发布数周即登顶全球第二
- xAI:绝对用量下降 73%,前排唯一负增长
排行榜前列几乎全部是「低价 MoE 模型」。不是 GPT-4o。不是 Claude Opus。甚至不是「最强模型」。
Anthropic 是少数份额增长的西方前沿实验室,但绝对 token 量仍被 DeepSeek 系远远甩开。这不是营销胜利,是钱包投票的结果。
数据来源
数字来自 OpenRouter 公开模型页用量图表与社区 provider ranking 分析(2026 年 6 月初)。OpenRouter 按 provider 路由请求,实际计费以账户账单为准。
一个反直觉事实:最贵模型正在「被边缘化」
如果你只看 benchmark,会得到一个错误直觉:更聪明的模型 → 应该被更多使用。
真实情况恰好相反:
- Claude / GPT:高质量,但高成本——每次调用都在烧预算
- DeepSeek / Hy3 / MiMo:足够好 + 极低成本——开发者敢无限重试
于是结果变成一句不太中听的话:不是谁最强,而是谁「敢被大量调用」。
过去模型竞争比的是「谁更聪明」;现在比的是「谁更敢被调用」。28.9T token 就是这个转变的硬证据——流量不会说谎,账单更不会。
便宜模型统治流量的三个原因(不是巧合)
① Agent 让 token 消耗爆炸——价格差变成生死差距
一个 AI Agent 不再是「问一次答一次」。它读代码、写 patch、跑测试、修复错误、再循环。一次任务从 2K token 膨胀到 50K–200K token——调用次数被放大 50 倍之后,「每次贵 $0.015」和「每次贵 $0.0001」的差距就从优化空间变成了结构性断层。
当 Claude Code 或 OpenHands 成为日常工具,把「重试、探索、草稿」阶段交给 Sonnet 不是「追求质量」,是烧钱。开发者不是变抠了——是 Agent 把账单的乘法效应摆到了桌面上。
② MoE 让「便宜 + 足够强」成为现实,不是口号
DeepSeek V4 Flash:284B 总参数,每次只激活 ~13B。MiMo-V2-Flash:309B 总量,15B 激活。推理成本与激活参数量挂钩,而非总参数量——你不需要「最大模型」,你需要「最有效激活」。
MiMo-V2-Flash 在 SWE-bench Verified 排名开源第一,性能接近 Claude Sonnet 4.5,却只付约 3.5% 的 API 费用。这不是「凑合用」,是能力接近、成本断崖——OpenRouter 页面上 MiMo 的标注就是这个对比。
③ 长上下文 + cache 让成本进一步崩塌
DeepSeek V4 Flash 支持 1M context,部分 provider 的 prompt caching 命中率高达 90%+,加权平均输入价可低至 ~$0.044/M(标称 $0.098/M)。同一段 system prompt,第二次调用接近免费。
RAG 场景里文档块高度重复——缓存命中后输入 token 几乎不计费。「敢开长上下文」从成本禁忌变成默认策略。这直接摧毁了传统 API 按 token 线性计费的逻辑:重复读不再是惩罚,而是优势。
OpenRouter 的真实价格机制,不是你看到的那样
很多人以为「标价 = 实际成本」。现实是三层结构,大多数人只看第一层:
- 标价:页面上 $0.1 / $3 / $10 的 input/output 单价
- Provider 路由加权:OpenRouter 按延迟、可用性、价格选 backend,加权平均可能更低
- Cache 折扣:重复 prompt 前缀按 cache read 价计费(MiMo-V2-Flash 缓存读 $0.01/M,约为输入价的 1/10)
| 模型 | 输入标价 /M | 输出标价 /M | 缓存读 /M | 上下文 |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~$0.098 | ~$0.197 | 部分 provider 94% 命中 | 1M |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Claude Sonnet 4.5(对照) | ~$3.00 | ~$15.00 | 有 | 200K |
| GPT-4o(对照) | ~$2.50 | ~$10.00 | 有 | 128K |
举个极端对比——一个 Agent 任务(100K 输入 + 10K 输出,80% 输入命中缓存):
- DeepSeek V4 Flash:≈ $0.008
- Claude Sonnet 4.5:≈ $0.21
差 26 倍。日跑 500 次 Agent 任务 = $4 vs $105。这不是优化空间,是结构性断层——28.9T token 流向低价模型,不是偶然,是必然。
行业正在发生的真实分裂:三层市场
AI 市场不再是一个「选最强模型」的单层结构。OpenRouter 数据描绘出清晰的三层:
| 层级 | 角色 | 典型模型 | token 占比趋势 |
|---|---|---|---|
| Flash 执行层 | 吃掉 80% token 的默认模型 | DeepSeek V4 Flash, Hy3, MiMo 系列 | ↑ 持续扩张 |
| 中间判断层 | 关键步骤的辅助判断 | Gemini Flash, Claude Sonnet | → 稳定但非主流程 |
| 前沿奢侈品层 | 不再跑主流程,只做审查 | GPT-4o, Claude Opus | ↓ 被边缘化 |
Flash 执行层的特点是:便宜 + 足够聪明 + 可无限调用。前沿层越来越像奢侈品——质量顶级,但 Agent 主流程已经用不起了。中间层夹在两者之间,负责「这一步需要更谨慎」的节点。
能力边界仍然存在
便宜模型不是万能。密钥处理、合规审计、多步数学证明、单次失败成本极高的场景(自动交易、医疗诊断),仍需要 frontier 模型或人工 review。三层分裂说的是默认流量分配,不是「最强模型已死」。
工程现实:谁便宜,谁就成为「默认模型」
在 Agent 时代,有一个很多人没意识到的等式:
默认模型 = 流量模型 = 市场模型。不是最强模型。
SDK 默认值、框架 preset、团队 onboarding 文档里写的第一个 model string——那就是流量入口。当 DeepSeek V4 Flash 的 input 价是 Sonnet 的 1/30,而 SWE-bench 差距远小于 30 倍时,「默认」会自动滑向便宜的那边。不需要谁宣布,钱包和工程惯性会替你做决定。
28.9T token 里 3.43T 属于单一 Flash 模型——这不是分散的「各取所需」,是一个默认值统治一切的信号。
工程路由策略:聪明地用三层,而不是硬扛一层
控制成本的核心不是「永远用最便宜的模型」,而是按任务风险分层路由——让 Flash 层吃掉 80% token,frontier 层只守 20% 的关键关口:
# Flash 执行层:处理 80% token cheap_model = "deepseek/deepseek-v4-flash" frontier_model = "anthropic/claude-sonnet-4.5" # 质量不达标才 fallback——不是默认就用 frontier response = openrouter.chat(model=cheap_model, messages=msgs) if quality_check(response) == FAIL: response = openrouter.chat(model=frontier_model, messages=msgs) # system prompt 固定化 → 最大化 cache 命中 messages = [system_prompt, *cached_context, user_query]
OpenRouter 原生支持 model fallbacks 和 provider routing。对于 MCP 驱动的 Agent 工作流:「读仓库、搜文件、生成草稿 patch」→ DeepSeek V4 Flash;「最终 merge 前的 review diff」→ Sonnet。token 大头在前者,质量关口在后者——不是不用 frontier,是别让它跑主流程。
便宜 API ≠ 可以随便送数据
OpenRouter 路由到多家 provider,请求可能经过美国或第三国节点。代码仓库、用户 PII 有合规要求时,本地或独享 Cloud Mac 推理是更稳妥的选项——成本优势不能覆盖合规风险。
本地推理 vs API:第三条路
28.9T token 的故事不意味着「所有人都该拥抱 API」。本地推理在以下场景仍有结构性优势:
- 日调用量可预测:固定 50K–500K token/天的 7B/14B 流水线,Mac mini M4 24GB 跑 Ollama 边际成本趋近于零(实测 7B 约 34–37 tok/s)
- 数据不出境:源码、PII、医疗/金融数据不应上 OpenRouter
- 延迟敏感:IDE 内联补全,本地无网络 RTT
- 与 CI 同机错峰:Cloud Mac 白天 xcodebuild、夜间批推理
需要 200B+ MoE 能力、突发峰值、或快速试验新模型而不想维护 GPU 集群时,OpenRouter $0.10/M 几乎无可匹敌——除非你有 H100 集群。
2026 混合架构
本地 Ollama(日常 7B–14B)+ OpenRouter Flash 层(Agent 长链路)+ Frontier 层(最终 review)。Cloud Mac 是验证层——采购实体机前,用同一套 benchmark 脚本测 Swap 与 tok/s,确认哪些 workload 根本不必上 API。
结论:28.9T token 在告诉你什么
28.9T token 不是 DeepSeek 的营销胜利,不是中国模型的民族主义叙事,也不是 frontier 模型的死亡宣告。
它说明的是:AI 正在从「能力竞争」进入「成本竞争阶段」。在成本竞争里,最便宜 + 足够好 = 默认赢家。benchmark 衡量的是上限,token 流量衡量的是真实选择——而真实选择已经给出了答案。
如果你还在默认用最强模型跑 Agent,你可能正在用 10 倍成本买一个「几乎不影响结果」的选择。
这不是让你立刻换掉 Claude 或 GPT。这是让你重新审视:你的默认 model string 是谁写的?是基于 benchmark,还是基于账单?在 Agent 时代,后者才是生存问题。
常见问题
Q: OpenRouter 上用量最大的模型是什么?
A: DeepSeek V4 Flash,单模型周用量 3.43T,输入价 ~$0.10/M。腾讯 Hy3 preview 第二。
Q: 为什么中国模型 token 量超过美国?
A: 价格激进 + MoE 架构成熟 + 开源可自部署,叠加 Agent 时代「敢用、敢重试」的需求。不是质量全面碾压,是成本结构碾压。
Q: 便宜模型适合生产环境吗?
A: 适合可容忍偶发波动、可自动重试、有 frontier 兜底的任务。不适合单次失败成本极高的场景。
Q: 如何监控实际花费?
A: OpenRouter dashboard 按模型/日统计。应用层加 middleware 记录每次调用的 model 与 token 数——否则 Agent 循环会在月底给你一个「惊喜」。
ZavCloud
先测本地能 cover 多少,再决定 API 预算
用 Ollama benchmark 摸清 7B/14B 的 tok/s 与 Swap 边界——本地能扛的工作负载,不必用 26 倍溢价送上 OpenRouter。
查看 Cloud Mac 方案