OpenRouter 上用量最大的模型是什么？

2026 年 6 月中旬，DeepSeek V4 Flash 以约 10.9T 周 token 居首，腾讯 Hy3 Preview 以 10.7T 紧随其后。两者均为低价 MoE，合计吃掉全站约四分之三的增量流量。

Cursor 用户该选什么模型？

日常 Agent 与多文件编辑默认 DeepSeek V4 Flash；合并前 review 或复杂 refactor 升 Claude Sonnet 4.6。行内补全可继续用 Cursor 内置快速模型。

哪些模型适合本地 Mac 跑，哪些必须走 API？

Qwen 14B 等 7B–14B 模型适合 Mac mini M4 24GB 本地 Ollama；DeepSeek V4 Flash、Hy3 等 200B+ MoE 本地跑不动，应走 OpenRouter API；Hy3 长链路 Agent 推荐 Cloud Mac 执行 + OpenRouter 推理的组合。

OpenRouter 真实调用量排行榜：开发者正在抛弃哪些模型？

Q: 开发者正在抛弃哪些模型？

GPT-4o、xAI Grok 等高价 frontier 模型在主流程 token 占比持续下滑——不是能力消失，而是 Agent 时代开发者把主循环改到 Flash 层，仅保留 Claude Opus/Sonnet 做审查与关键决策。

结论先行：2026 年选模型，先看 OpenRouter 真实调用量，再看 benchmark。全站周 token 已破 28.9T，前排几乎被低价 MoE 霸占——DeepSeek V4 Flash 与 Hy3 Preview 各超 10T。GPT-4o、xAI Grok 等「默认最强」正在从主流程退场，不是被淘汰，是被开发者挪到审查层。下文直接给 Top 10 榜单、五大模型对比、场景推荐，以及每种模型对应的 Mac 配置。

1. 2026 OpenRouter Top 10（周 token 调用量）

数据来源：OpenRouter 公开模型页（2026 年 6 月中旬）。看排名，先看角色——谁跑主流程，谁只剩审查。

核心榜单

谁在吃 80% 的 Agent 流量？

默认执行层审查 / 升档层正在被替换

#	模型	周 Token	角色	趋势
1	DeepSeek V4 Flash	10.9T	2026 默认首选	↑ 榜首
2	Hy3 Preview	10.7T	Agent 长链路	↑ 追平第一
3	Claude Opus 4.7	7.4T	合并前签字	→ 审查刚需
4	Claude Sonnet 4.6	7.4T	IDE 升档默认	→ 中等复杂度
5	Owl Alpha	5.0T	Agent 新秀	↑ 快速爬升
6	MiMo-V2-Flash	4.2T	开源 Flash	↑
7	Kimi K2	3.8T	中文长文档	↑
8	Gemini 3.5 Flash	3.2T	批处理 / 多模态	→
9	GPT-4o	1.6T	跌出主流程	↓ 被 Flash 替换
10	xAI Grok-3	1.1T	开发者撤离	↓↓ -73%

一眼结论：Top 2 合计约 21.6T，占全站 28.9T 的 75%——默认 model string 已经是 Flash，不是 Opus。

28.9T

OpenRouter 全站周 token

75%

Top 2 模型合计占比

26×

Flash vs Sonnet 单次成本差

榜单告诉你的不是「谁最聪明」，而是谁正在成为 2026 年的默认 model string。

和 benchmark 的区别

MMLU、SWE-bench 衡量上限；OpenRouter 用量衡量敢不敢天天调用。Agent 循环一次 50K–200K token 时，便宜 + 足够好 = 流量赢家。详见 OpenRouter 价格真相。

2. Top 5 模型速览：各适合干什么

① DeepSeek V4 Flash — 2026 默认执行层

284B MoE，每次激活约 13B；支持 1M 上下文，输入价 ~$0.10/M，cache 命中后可低至 $0.04/M。适合：读仓库、写草稿 patch、Agent 主循环、RAG 重排。本地 Mac 跑不动，走 OpenRouter API 是唯一现实路径。

② Hy3 Preview — Agent 长链路新贵

腾讯出品，发布数周即冲到 10.7T。中文理解、多步 tool call、长上下文稳定性是卖点。适合：复杂 Agent 编排、国内业务文档、与 Gemini 互补的批处理管线。同样需要 API；执行环境建议放 Cloud Mac 与推理分离。

③ Claude Opus 4.7 — 签字画押层

7.4T 说明它没死——但角色变了。不再跑 80% 的 Agent 循环，而是merge 前审查、架构决策、安全审计。单价高，留给单次失败成本极高的 5% 任务。

④ Claude Sonnet 4.6 — IDE 中等复杂度主脑

与 Opus 同量级 token，但定位不同：跨模块 refactor、API 契约变更、Cursor / Claude Code 的「升档默认」。比 Flash 贵约 30 倍，比 Opus 便宜，是质量与成本的中间档。

⑤ Owl Alpha — Agent 专用探索模型

5.0T 的新面孔，社区反馈在 multi-step coding 与 tool use 上表现激进。适合愿意尝鲜的 Agent 开发者；生产环境建议与 DeepSeek Flash 做 fallback 双保险。

3. 五大模型能力横向对比

不是智商排名，是「值不值得当默认」。绿底 = 该维度最强档；红底 = 明显短板。

能力矩阵

编程 / Agent 都能打，差在成本和中文

能力	DeepSeek	Claude	Gemini	Kimi	Hy3	首选
编程	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	DeepSeek / Hy3
Agent	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	Hy3 长链路
长上下文	⭐⭐⭐⭐⭐ 1M	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	DeepSeek
中文业务	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	Kimi / Hy3
成本	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	DeepSeek

默认组合：主循环 DeepSeek / Hy3 + 审查 Claude Sonnet。Claude 贵不是不能用，是别当默认。

4. 价格对比：一次 Agent 任务要花多少钱

典型 Agent 任务：100K input + 10K output，80% 输入命中 cache。最后一列是相对 DeepSeek 的倍数——这才是选模型的关键数字。

成本断层

Sonnet 不是贵一点，是贵 26 倍

模型	输入 /M	单次任务	日 500 次	vs DeepSeek
Flash 执行层 — 敢当默认
DeepSeek V4 Flash 基准	~$0.10	$0.008	~$4	1×
Hy3 Preview	~$0.10	$0.009	~$5	1.1×
Gemini 3.5 Flash	~$0.15	$0.02	~$10	2.5×
Kimi K2	~$0.15	$0.018	~$9	2.3×
审查 / 高价层 — 只升档，不当默认
Claude Sonnet 4.6	~$3.00	$0.21	~$105	26×
Claude Opus 4.7	~$15.00	$1.05	~$525	131×
GPT-4o 跌出 Top 8	~$2.50	$0.18	~$90	23×

日跑 500 次 Agent：DeepSeek $4 vs Sonnet $105。质量差距远小于 26 倍——所以榜单前排是 Flash。

5. 开发者正在抛弃哪些模型？

「抛弃」= 从默认位下架，不是彻底不能用。

模型	现状	开发者转向
GPT-4o	Top 10 第 9 · 1.6T	主循环 → DeepSeek / Hy3；自身退为多模态特例
xAI Grok-3	环比 -73%	Agent 循环太贵，社区热度快速冷却
Claude Opus 当默认	绝对量仍 7.4T	新增调用多为「审查」，不再跑 80% 探索循环
DeepSeek V3 / GPT-4 Turbo	榜单消失	被 V4 Flash / 新 MoE 原地替换

别误读榜单

Claude 系合计仍超 14T——Anthropic 没有「输了」，而是从跑量层退到质量层。抛弃的是「一个模型打天下」，不是抛弃 Claude。

6. 不同场景怎么选

我是 Cursor 用户

推荐组合：

默认 Agent / 多文件编辑 → DeepSeek V4 Flash（OpenRouter 或 Cursor 自定义 OpenAI-compatible endpoint）
复杂 refactor、合并前 review → Claude Sonnet 4.6
行内补全 → 继续用 Cursor 内置快速模型，不必换

详见 Claude Code vs Cursor 的入口差异：Cursor 胜在 IDE 心流，模型分层靠你自己配。

我是 Claude Code 用户

推荐组合：

主循环（读仓库、跑测试、修 diff） → DeepSeek V4 Flash via OpenRouter
架构决策、安全相关改动、合并前终审 → Claude Opus 4.7 或 Sonnet 4.6
CLAUDE.md 规范 → 写清「何时升档」，避免每次探索都烧 Opus

Claude Code 原生绑 Anthropic，但 2026 年越来越多团队用 OpenRouter 做外接 Flash 主脑 + Claude 审查 的双轨配置。

我是 Agent 开发者

推荐组合：

长链路编排 / 国内文档 → Hy3 Preview
通用 coding Agent 主循环 → DeepSeek V4 Flash
批处理、日志归类、结构化输出 → Gemini 3.5 Flash
质量兜底 → Claude Sonnet，连续失败 2 次再升 Opus

配合代码知识图谱时，检索摘要走 Flash，终审走 Claude——token 大头在前者。

场景速查

你是谁 → 默认用什么 → 什么时候升档

你是谁	默认主模型	升档模型	别当默认
Cursor 用户	DeepSeek V4 Flash	Claude Sonnet 4.6	全员 Opus
Claude Code 用户	DeepSeek V4 Flash	Claude Opus 4.7	主循环 Sonnet
Agent 开发者	Hy3 + DeepSeek	Gemini Flash	单模型全链路
中文长文档	Kimi K2 + Hy3	Claude Sonnet	GPT-4o

7. 对应 Mac 怎么配：API 还是本地

模型选完，还差一半：推理放哪、Agent 执行放哪。

硬件匹配

284B MoE 走 API · 14B 本地跑 · 长链路 Agent 上 Cloud Mac

模型	推理	推荐 Mac	一句话
DeepSeek V4 Flash	OpenRouter API	任意 Mac	本地跑不动；Mac 只跑 git / 测试
Hy3 Preview	API	Cloud Mac M4 24GB	长链路 Agent 吃内存 → 执行上云、推理走 API
Qwen 14B / 7B	本地 Ollama	Mac mini M4 24GB	数据不出境；7B ~35 tok/s
Claude Sonnet / Opus	API	Mac mini 16GB 起	推理在云端；本地跑 Claude Code
CI Agent	Flash API	Cloud Mac + Runner	白天 xcodebuild、夜间批推理，同机错峰

记三句：MoE 巨无霸 → API；7B–14B → Mac mini 24GB；Hy3 / CI Agent → Cloud Mac。

常见问题

Q: OpenRouter Top 10 数据多久更新一次？
A: OpenRouter 模型页有实时用量图表，本文数字截自 2026 年 6 月中旬。排名趋势比精确数字更重要——Flash 层垄断主流程已是结构性事实。

Q: 只有 Claude 订阅，还能用 DeepSeek 吗？
A: 可以。Claude Code 支持配置 OpenRouter 作为备用 endpoint；或 IDE 用 Cursor + OpenRouter，审查仍走 Claude。关键是主循环别绑死在 Opus。

Q: Kimi 和 Hy3 怎么选？
A: 中文长文档、知识库问答优先 Kimi；多步 coding Agent、tool call 密集选 Hy3。两者价差不大，可按任务类型并行试用一周再定默认。

Q: 16GB Mac mini 够吗？
A: 只跑 Claude Code / Cursor + API 推理：够。要本地 Ollama 14B + IDE + Agent 并行：建议升到 24GB 或把重任务丢 Cloud Mac。

总结：默认模型 = 流量模型，不是最强模型

OpenRouter Top 10 给出的信号很清晰：DeepSeek V4 Flash 与 Hy3 吃掉主流程，Claude 守住审查层，GPT-4o 与 xAI 从默认位退场。 选模型时先问「这个任务敢不敢重试十次」——敢，就用 Flash；不敢，再升 Sonnet 或 Opus。

硬件侧记住三条：MoE 巨无霸走 API，小模型本地 Ollama，长链路 Agent 执行上 Cloud Mac。模型选对，账单腰斩；机器配对，Agent 才跑得稳。

ZavCloud

Hy3 + DeepSeek 走 API，Agent 执行放 Cloud Mac

M4 24GB 独享实例：跑 Claude Code、xcodebuild、GitHub Runner，与 OpenRouter 推理错峰——本地 16GB 不够时的标准解法。

查看 Cloud Mac 方案