为什么便宜模型能占这么多 token 量？

Agent 循环、RAG 重排、批量摘要等任务对单次质量容忍度高，但 token 消耗极大；低价模型让开发者敢开长上下文、多轮重试，而不必每次调用 Claude Sonnet 级别模型。

OpenRouter 的实际价格比标价更低吗？

可能更低。DeepSeek V4 Flash 的加权平均输入价可低至约 $0.04/M，因为 prompt caching 命中率可达 50–94%，重复 system prompt 与 RAG 上下文会被缓存计费。

什么时候该用 API，什么时候该本地跑 Ollama？

低隐私敏感度、突发峰值、需要 200B+ 级 MoE 能力时用 OpenRouter API；数据不出境、7B–14B 固定工作流、日调用量稳定且可预测时用 Mac mini 本地 Ollama 更省。

OpenRouter 的价格真相：为什么最便宜的模型正在「统治」28.9T token？

Q: OpenRouter 上用量最大的模型是什么？

截至 2026 年 6 月，DeepSeek V4 Flash 在 OpenRouter 上用量居首，腾讯 Hy3 preview 排名第二。两者均为低价 MoE 架构，输入约 $0.10/M token。

如果你还在用 MMLU、GPT-Score 这类 benchmark 来选模型，你大概率已经在为错误的标准付费。

OpenRouter 最新 7 天数据给了一个不太舒服的事实：AI 世界的胜利者，不是最强模型，而是最便宜、最敢用的模型。2026 年 6 月初，全站周 token 量 28.9T（+7.4%），DeepSeek V4 Flash 单模型独占 3.43T——榜单前列几乎全是输入价 $0.10/M 量级的低价 MoE，不是 GPT-4o，不是 Claude Opus，甚至不是你在 benchmark 里反复对比的「最强模型」。

下面拆解这个数字背后的成本断层、正在发生的三层市场分裂，以及开发者该如何在 API 路由与本地 Ollama 推理之间站队。技术细节都在，但结论先说：AI 正在从「能力竞争」进入「成本竞争」——而在成本竞争里，最便宜 + 足够好 = 默认赢家。

28.9T

OpenRouter 周 token 量

3.43T

DeepSeek V4 Flash 单模型

26×

Flash vs Sonnet 单次 Agent 成本差

28.9T token：一个正在改写行业规则的数字

OpenRouter 是 LLM API 聚合路由层——开发者在这里用什么，比任何 benchmark 都更接近「真实战场」。2026 年 6 月第一周：

全站周 token：28.9T，连续五周增长，环比 +7.4%
中国模型：9.2T token，是美国模型 4.9T 的近两倍
DeepSeek V4 Flash：单模型第一，周用量 3.43T，日峰值超 800B
腾讯 Hy3 preview：紧随其后，发布数周即登顶全球第二
xAI：绝对用量下降 73%，前排唯一负增长

排行榜前列几乎全部是「低价 MoE 模型」。不是 GPT-4o。不是 Claude Opus。甚至不是「最强模型」。

Anthropic 是少数份额增长的西方前沿实验室，但绝对 token 量仍被 DeepSeek 系远远甩开。这不是营销胜利，是钱包投票的结果。

数据来源

数字来自 OpenRouter 公开模型页用量图表与社区 provider ranking 分析（2026 年 6 月初）。OpenRouter 按 provider 路由请求，实际计费以账户账单为准。

一个反直觉事实：最贵模型正在「被边缘化」

如果你只看 benchmark，会得到一个错误直觉：更聪明的模型 → 应该被更多使用。

真实情况恰好相反：

Claude / GPT：高质量，但高成本——每次调用都在烧预算
DeepSeek / Hy3 / MiMo：足够好 + 极低成本——开发者敢无限重试

于是结果变成一句不太中听的话：不是谁最强，而是谁「敢被大量调用」。

过去模型竞争比的是「谁更聪明」；现在比的是「谁更敢被调用」。28.9T token 就是这个转变的硬证据——流量不会说谎，账单更不会。

便宜模型统治流量的三个原因（不是巧合）

① Agent 让 token 消耗爆炸——价格差变成生死差距

一个 AI Agent 不再是「问一次答一次」。它读代码、写 patch、跑测试、修复错误、再循环。一次任务从 2K token 膨胀到 50K–200K token——调用次数被放大 50 倍之后，「每次贵 $0.015」和「每次贵 $0.0001」的差距就从优化空间变成了结构性断层。

当 Claude Code 或 OpenHands 成为日常工具，把「重试、探索、草稿」阶段交给 Sonnet 不是「追求质量」，是烧钱。开发者不是变抠了——是 Agent 把账单的乘法效应摆到了桌面上。

② MoE 让「便宜 + 足够强」成为现实，不是口号

DeepSeek V4 Flash：284B 总参数，每次只激活 ~13B。MiMo-V2-Flash：309B 总量，15B 激活。推理成本与激活参数量挂钩，而非总参数量——你不需要「最大模型」，你需要「最有效激活」。

MiMo-V2-Flash 在 SWE-bench Verified 排名开源第一，性能接近 Claude Sonnet 4.5，却只付约 3.5% 的 API 费用。这不是「凑合用」，是能力接近、成本断崖——OpenRouter 页面上 MiMo 的标注就是这个对比。

③ 长上下文 + cache 让成本进一步崩塌

DeepSeek V4 Flash 支持 1M context，部分 provider 的 prompt caching 命中率高达 90%+，加权平均输入价可低至 ~$0.044/M（标称 $0.098/M）。同一段 system prompt，第二次调用接近免费。

RAG 场景里文档块高度重复——缓存命中后输入 token 几乎不计费。「敢开长上下文」从成本禁忌变成默认策略。这直接摧毁了传统 API 按 token 线性计费的逻辑：重复读不再是惩罚，而是优势。

OpenRouter 的真实价格机制，不是你看到的那样

很多人以为「标价 = 实际成本」。现实是三层结构，大多数人只看第一层：

标价：页面上 $0.1 / $3 / $10 的 input/output 单价
Provider 路由加权：OpenRouter 按延迟、可用性、价格选 backend，加权平均可能更低
Cache 折扣：重复 prompt 前缀按 cache read 价计费（MiMo-V2-Flash 缓存读 $0.01/M，约为输入价的 1/10）

模型	输入标价 /M	输出标价 /M	缓存读 /M	上下文
DeepSeek V4 Flash	~$0.098	~$0.197	部分 provider 94% 命中	1M
MiMo-V2-Flash	$0.10	$0.30	$0.01	256K
Claude Sonnet 4.5（对照）	~$3.00	~$15.00	有	200K
GPT-4o（对照）	~$2.50	~$10.00	有	128K

举个极端对比——一个 Agent 任务（100K 输入 + 10K 输出，80% 输入命中缓存）：

DeepSeek V4 Flash：≈ $0.008
Claude Sonnet 4.5：≈ $0.21

差 26 倍。日跑 500 次 Agent 任务 = $4 vs $105。这不是优化空间，是结构性断层——28.9T token 流向低价模型，不是偶然，是必然。

行业正在发生的真实分裂：三层市场

AI 市场不再是一个「选最强模型」的单层结构。OpenRouter 数据描绘出清晰的三层：

层级	角色	典型模型	token 占比趋势
Flash 执行层	吃掉 80% token 的默认模型	DeepSeek V4 Flash, Hy3, MiMo 系列	↑ 持续扩张
中间判断层	关键步骤的辅助判断	Gemini Flash, Claude Sonnet	→ 稳定但非主流程
前沿奢侈品层	不再跑主流程，只做审查	GPT-4o, Claude Opus	↓ 被边缘化

Flash 执行层的特点是：便宜 + 足够聪明 + 可无限调用。前沿层越来越像奢侈品——质量顶级，但 Agent 主流程已经用不起了。中间层夹在两者之间，负责「这一步需要更谨慎」的节点。

能力边界仍然存在

便宜模型不是万能。密钥处理、合规审计、多步数学证明、单次失败成本极高的场景（自动交易、医疗诊断），仍需要 frontier 模型或人工 review。三层分裂说的是默认流量分配，不是「最强模型已死」。

工程现实：谁便宜，谁就成为「默认模型」

在 Agent 时代，有一个很多人没意识到的等式：

默认模型 = 流量模型 = 市场模型。不是最强模型。

SDK 默认值、框架 preset、团队 onboarding 文档里写的第一个 model string——那就是流量入口。当 DeepSeek V4 Flash 的 input 价是 Sonnet 的 1/30，而 SWE-bench 差距远小于 30 倍时，「默认」会自动滑向便宜的那边。不需要谁宣布，钱包和工程惯性会替你做决定。

28.9T token 里 3.43T 属于单一 Flash 模型——这不是分散的「各取所需」，是一个默认值统治一切的信号。

工程路由策略：聪明地用三层，而不是硬扛一层

控制成本的核心不是「永远用最便宜的模型」，而是按任务风险分层路由——让 Flash 层吃掉 80% token，frontier 层只守 20% 的关键关口：

OpenRouter 分层路由示意

# Flash 执行层：处理 80% token
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"

# 质量不达标才 fallback——不是默认就用 frontier
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

# system prompt 固定化 → 最大化 cache 命中
messages = [system_prompt, *cached_context, user_query]

OpenRouter 原生支持 model fallbacks 和 provider routing。对于 MCP 驱动的 Agent 工作流：「读仓库、搜文件、生成草稿 patch」→ DeepSeek V4 Flash；「最终 merge 前的 review diff」→ Sonnet。token 大头在前者，质量关口在后者——不是不用 frontier，是别让它跑主流程。

便宜 API ≠ 可以随便送数据

OpenRouter 路由到多家 provider，请求可能经过美国或第三国节点。代码仓库、用户 PII 有合规要求时，本地或独享 Cloud Mac 推理是更稳妥的选项——成本优势不能覆盖合规风险。

本地推理 vs API：第三条路

28.9T token 的故事不意味着「所有人都该拥抱 API」。本地推理在以下场景仍有结构性优势：

日调用量可预测：固定 50K–500K token/天的 7B/14B 流水线，Mac mini M4 24GB 跑 Ollama 边际成本趋近于零（实测 7B 约 34–37 tok/s）
数据不出境：源码、PII、医疗/金融数据不应上 OpenRouter
延迟敏感：IDE 内联补全，本地无网络 RTT
与 CI 同机错峰：Cloud Mac 白天 xcodebuild、夜间批推理

需要 200B+ MoE 能力、突发峰值、或快速试验新模型而不想维护 GPU 集群时，OpenRouter $0.10/M 几乎无可匹敌——除非你有 H100 集群。

2026 混合架构

本地 Ollama（日常 7B–14B）+ OpenRouter Flash 层（Agent 长链路）+ Frontier 层（最终 review）。Cloud Mac 是验证层——采购实体机前，用同一套 benchmark 脚本测 Swap 与 tok/s，确认哪些 workload 根本不必上 API。

结论：28.9T token 在告诉你什么

28.9T token 不是 DeepSeek 的营销胜利，不是中国模型的民族主义叙事，也不是 frontier 模型的死亡宣告。

它说明的是：AI 正在从「能力竞争」进入「成本竞争阶段」。在成本竞争里，最便宜 + 足够好 = 默认赢家。benchmark 衡量的是上限，token 流量衡量的是真实选择——而真实选择已经给出了答案。

如果你还在默认用最强模型跑 Agent，你可能正在用 10 倍成本买一个「几乎不影响结果」的选择。

这不是让你立刻换掉 Claude 或 GPT。这是让你重新审视：你的默认 model string 是谁写的？是基于 benchmark，还是基于账单？在 Agent 时代，后者才是生存问题。

常见问题

Q: OpenRouter 上用量最大的模型是什么？
A: DeepSeek V4 Flash，单模型周用量 3.43T，输入价 ~$0.10/M。腾讯 Hy3 preview 第二。

Q: 为什么中国模型 token 量超过美国？
A: 价格激进 + MoE 架构成熟 + 开源可自部署，叠加 Agent 时代「敢用、敢重试」的需求。不是质量全面碾压，是成本结构碾压。

Q: 便宜模型适合生产环境吗？
A: 适合可容忍偶发波动、可自动重试、有 frontier 兜底的任务。不适合单次失败成本极高的场景。

Q: 如何监控实际花费？
A: OpenRouter dashboard 按模型/日统计。应用层加 middleware 记录每次调用的 model 与 token 数——否则 Agent 循环会在月底给你一个「惊喜」。

ZavCloud

先测本地能 cover 多少，再决定 API 预算

用 Ollama benchmark 摸清 7B/14B 的 tok/s 与 Swap 边界——本地能扛的工作负载，不必用 26 倍溢价送上 OpenRouter。

查看 Cloud Mac 方案