OpenRouter 的价格真相:为什么最便宜的模型正在「统治」28.9T token?

AI 手记  ·  2026.06.08  ·  约 9 分钟阅读

分析图表与数据趋势,解读 OpenRouter 28.9T 周 token 用量与低价模型定价结构

如果你还在用 MMLU、GPT-Score 这类 benchmark 来选模型,你大概率已经在为错误的标准付费。

OpenRouter 最新 7 天数据给了一个不太舒服的事实:AI 世界的胜利者,不是最强模型,而是最便宜、最敢用的模型。2026 年 6 月初,全站周 token 量 28.9T(+7.4%),DeepSeek V4 Flash 单模型独占 3.43T——榜单前列几乎全是输入价 $0.10/M 量级的低价 MoE,不是 GPT-4o,不是 Claude Opus,甚至不是你在 benchmark 里反复对比的「最强模型」。

下面拆解这个数字背后的成本断层、正在发生的三层市场分裂,以及开发者该如何在 API 路由与本地 Ollama 推理之间站队。技术细节都在,但结论先说:AI 正在从「能力竞争」进入「成本竞争」——而在成本竞争里,最便宜 + 足够好 = 默认赢家。

28.9T
OpenRouter 周 token 量
3.43T
DeepSeek V4 Flash 单模型
26×
Flash vs Sonnet 单次 Agent 成本差

28.9T token:一个正在改写行业规则的数字

OpenRouter 是 LLM API 聚合路由层——开发者在这里用什么,比任何 benchmark 都更接近「真实战场」。2026 年 6 月第一周:

  • 全站周 token:28.9T,连续五周增长,环比 +7.4%
  • 中国模型:9.2T token,是美国模型 4.9T 的近两倍
  • DeepSeek V4 Flash:单模型第一,周用量 3.43T,日峰值超 800B
  • 腾讯 Hy3 preview:紧随其后,发布数周即登顶全球第二
  • xAI:绝对用量下降 73%,前排唯一负增长

排行榜前列几乎全部是「低价 MoE 模型」。不是 GPT-4o。不是 Claude Opus。甚至不是「最强模型」。

Anthropic 是少数份额增长的西方前沿实验室,但绝对 token 量仍被 DeepSeek 系远远甩开。这不是营销胜利,是钱包投票的结果。

数据来源

数字来自 OpenRouter 公开模型页用量图表与社区 provider ranking 分析(2026 年 6 月初)。OpenRouter 按 provider 路由请求,实际计费以账户账单为准。

一个反直觉事实:最贵模型正在「被边缘化」

如果你只看 benchmark,会得到一个错误直觉:更聪明的模型 → 应该被更多使用。

真实情况恰好相反:

  • Claude / GPT:高质量,但高成本——每次调用都在烧预算
  • DeepSeek / Hy3 / MiMo:足够好 + 极低成本——开发者敢无限重试

于是结果变成一句不太中听的话:不是谁最强,而是谁「敢被大量调用」。

过去模型竞争比的是「谁更聪明」;现在比的是「谁更敢被调用」。28.9T token 就是这个转变的硬证据——流量不会说谎,账单更不会。

便宜模型统治流量的三个原因(不是巧合)

① Agent 让 token 消耗爆炸——价格差变成生死差距

一个 AI Agent 不再是「问一次答一次」。它读代码、写 patch、跑测试、修复错误、再循环。一次任务从 2K token 膨胀到 50K–200K token——调用次数被放大 50 倍之后,「每次贵 $0.015」和「每次贵 $0.0001」的差距就从优化空间变成了结构性断层

Claude Code 或 OpenHands 成为日常工具,把「重试、探索、草稿」阶段交给 Sonnet 不是「追求质量」,是烧钱。开发者不是变抠了——是 Agent 把账单的乘法效应摆到了桌面上。

② MoE 让「便宜 + 足够强」成为现实,不是口号

DeepSeek V4 Flash:284B 总参数,每次只激活 ~13B。MiMo-V2-Flash:309B 总量,15B 激活。推理成本与激活参数量挂钩,而非总参数量——你不需要「最大模型」,你需要「最有效激活」。

MiMo-V2-Flash 在 SWE-bench Verified 排名开源第一,性能接近 Claude Sonnet 4.5,却只付约 3.5% 的 API 费用。这不是「凑合用」,是能力接近、成本断崖——OpenRouter 页面上 MiMo 的标注就是这个对比。

③ 长上下文 + cache 让成本进一步崩塌

DeepSeek V4 Flash 支持 1M context,部分 provider 的 prompt caching 命中率高达 90%+,加权平均输入价可低至 ~$0.044/M(标称 $0.098/M)。同一段 system prompt,第二次调用接近免费

RAG 场景里文档块高度重复——缓存命中后输入 token 几乎不计费。「敢开长上下文」从成本禁忌变成默认策略。这直接摧毁了传统 API 按 token 线性计费的逻辑:重复读不再是惩罚,而是优势。

OpenRouter 的真实价格机制,不是你看到的那样

很多人以为「标价 = 实际成本」。现实是三层结构,大多数人只看第一层:

  1. 标价:页面上 $0.1 / $3 / $10 的 input/output 单价
  2. Provider 路由加权:OpenRouter 按延迟、可用性、价格选 backend,加权平均可能更低
  3. Cache 折扣:重复 prompt 前缀按 cache read 价计费(MiMo-V2-Flash 缓存读 $0.01/M,约为输入价的 1/10)
模型 输入标价 /M 输出标价 /M 缓存读 /M 上下文
DeepSeek V4 Flash ~$0.098 ~$0.197 部分 provider 94% 命中 1M
MiMo-V2-Flash $0.10 $0.30 $0.01 256K
Claude Sonnet 4.5(对照) ~$3.00 ~$15.00 200K
GPT-4o(对照) ~$2.50 ~$10.00 128K

举个极端对比——一个 Agent 任务(100K 输入 + 10K 输出,80% 输入命中缓存):

  • DeepSeek V4 Flash:≈ $0.008
  • Claude Sonnet 4.5:≈ $0.21

差 26 倍。日跑 500 次 Agent 任务 = $4 vs $105。这不是优化空间,是结构性断层——28.9T token 流向低价模型,不是偶然,是必然。

行业正在发生的真实分裂:三层市场

AI 市场不再是一个「选最强模型」的单层结构。OpenRouter 数据描绘出清晰的三层:

层级 角色 典型模型 token 占比趋势
Flash 执行层 吃掉 80% token 的默认模型 DeepSeek V4 Flash, Hy3, MiMo 系列 ↑ 持续扩张
中间判断层 关键步骤的辅助判断 Gemini Flash, Claude Sonnet → 稳定但非主流程
前沿奢侈品层 不再跑主流程,只做审查 GPT-4o, Claude Opus ↓ 被边缘化

Flash 执行层的特点是:便宜 + 足够聪明 + 可无限调用。前沿层越来越像奢侈品——质量顶级,但 Agent 主流程已经用不起了。中间层夹在两者之间,负责「这一步需要更谨慎」的节点。

能力边界仍然存在

便宜模型不是万能。密钥处理、合规审计、多步数学证明、单次失败成本极高的场景(自动交易、医疗诊断),仍需要 frontier 模型或人工 review。三层分裂说的是默认流量分配,不是「最强模型已死」。

工程现实:谁便宜,谁就成为「默认模型」

在 Agent 时代,有一个很多人没意识到的等式:

默认模型 = 流量模型 = 市场模型。不是最强模型。

SDK 默认值、框架 preset、团队 onboarding 文档里写的第一个 model string——那就是流量入口。当 DeepSeek V4 Flash 的 input 价是 Sonnet 的 1/30,而 SWE-bench 差距远小于 30 倍时,「默认」会自动滑向便宜的那边。不需要谁宣布,钱包和工程惯性会替你做决定。

28.9T token 里 3.43T 属于单一 Flash 模型——这不是分散的「各取所需」,是一个默认值统治一切的信号。

工程路由策略:聪明地用三层,而不是硬扛一层

控制成本的核心不是「永远用最便宜的模型」,而是按任务风险分层路由——让 Flash 层吃掉 80% token,frontier 层只守 20% 的关键关口:

OpenRouter 分层路由示意
# Flash 执行层:处理 80% token
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"

# 质量不达标才 fallback——不是默认就用 frontier
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

# system prompt 固定化 → 最大化 cache 命中
messages = [system_prompt, *cached_context, user_query]

OpenRouter 原生支持 model fallbacksprovider routing。对于 MCP 驱动的 Agent 工作流:「读仓库、搜文件、生成草稿 patch」→ DeepSeek V4 Flash;「最终 merge 前的 review diff」→ Sonnet。token 大头在前者,质量关口在后者——不是不用 frontier,是别让它跑主流程。

便宜 API ≠ 可以随便送数据

OpenRouter 路由到多家 provider,请求可能经过美国或第三国节点。代码仓库、用户 PII 有合规要求时,本地或独享 Cloud Mac 推理是更稳妥的选项——成本优势不能覆盖合规风险。

本地推理 vs API:第三条路

28.9T token 的故事不意味着「所有人都该拥抱 API」。本地推理在以下场景仍有结构性优势:

  • 日调用量可预测:固定 50K–500K token/天的 7B/14B 流水线,Mac mini M4 24GB 跑 Ollama 边际成本趋近于零(实测 7B 约 34–37 tok/s
  • 数据不出境:源码、PII、医疗/金融数据不应上 OpenRouter
  • 延迟敏感:IDE 内联补全,本地无网络 RTT
  • 与 CI 同机错峰:Cloud Mac 白天 xcodebuild、夜间批推理

需要 200B+ MoE 能力、突发峰值、或快速试验新模型而不想维护 GPU 集群时,OpenRouter $0.10/M 几乎无可匹敌——除非你有 H100 集群。

2026 混合架构

本地 Ollama(日常 7B–14B)+ OpenRouter Flash 层(Agent 长链路)+ Frontier 层(最终 review)。Cloud Mac 是验证层——采购实体机前,用同一套 benchmark 脚本测 Swap 与 tok/s,确认哪些 workload 根本不必上 API。

结论:28.9T token 在告诉你什么

28.9T token 不是 DeepSeek 的营销胜利,不是中国模型的民族主义叙事,也不是 frontier 模型的死亡宣告。

它说明的是:AI 正在从「能力竞争」进入「成本竞争阶段」。在成本竞争里,最便宜 + 足够好 = 默认赢家。benchmark 衡量的是上限,token 流量衡量的是真实选择——而真实选择已经给出了答案。

如果你还在默认用最强模型跑 Agent,你可能正在用 10 倍成本买一个「几乎不影响结果」的选择。

这不是让你立刻换掉 Claude 或 GPT。这是让你重新审视:你的默认 model string 是谁写的?是基于 benchmark,还是基于账单?在 Agent 时代,后者才是生存问题。

常见问题

Q: OpenRouter 上用量最大的模型是什么?
A: DeepSeek V4 Flash,单模型周用量 3.43T,输入价 ~$0.10/M。腾讯 Hy3 preview 第二。

Q: 为什么中国模型 token 量超过美国?
A: 价格激进 + MoE 架构成熟 + 开源可自部署,叠加 Agent 时代「敢用、敢重试」的需求。不是质量全面碾压,是成本结构碾压

Q: 便宜模型适合生产环境吗?
A: 适合可容忍偶发波动、可自动重试、有 frontier 兜底的任务。不适合单次失败成本极高的场景。

Q: 如何监控实际花费?
A: OpenRouter dashboard 按模型/日统计。应用层加 middleware 记录每次调用的 model 与 token 数——否则 Agent 循环会在月底给你一个「惊喜」。

ZavCloud

先测本地能 cover 多少,再决定 API 预算

用 Ollama benchmark 摸清 7B/14B 的 tok/s 与 Swap 边界——本地能扛的工作负载,不必用 26 倍溢价送上 OpenRouter。

查看 Cloud Mac 方案
Cloud Mac在线租用 Mac mini