Welches Modell hat auf OpenRouter das höchste Volumen?

Mitte Juni 2026 führt DeepSeek V4 Flash mit ca. 10,9T Wochen-Tokens, Tencent Hy3 Preview folgt mit 10,7T. Beide sind günstige MoE-Modelle und machen zusammen rund drei Viertel des Zuwachses aus.

Welches Modell für Cursor-Nutzer?

Default für Agent und Multi-File-Edits: DeepSeek V4 Flash. Vor dem Merge oder bei komplexen Refactors: Claude Sonnet 4.6. Inline-Completion kann beim Cursor-eigenen Schnellmodell bleiben.

Welche Modelle lokal auf dem Mac, welche per API?

Qwen 14B und andere 7B–14B-Modelle laufen auf Mac mini M4 24GB mit Ollama lokal. DeepSeek V4 Flash, Hy3 und 200B+ MoE brauchen OpenRouter API. Für lange Hy3-Agent-Ketten: Cloud Mac für Ausführung + OpenRouter für Inferenz.

OpenRouter-Nutzungsranking: Welche Modelle geben Entwickler 2026 auf?

Q: Welche Modelle geben Entwickler auf?

GPT-4o, xAI Grok und andere teure Frontier-Modelle verlieren im Main-Loop—nicht weil sie schlechter wurden, sondern weil Teams den Agent-Hauptloop auf Flash legen und Claude Opus/Sonnet nur für Review und kritische Entscheidungen behalten.

Kurz gesagt: 2026 zuerst OpenRouter-Nutzung lesen, dann Benchmarks. Wöchentlich über 28,9T Token auf der Plattform—vorne dominieren günstige MoE-Modelle. DeepSeek V4 Flash und Hy3 Preview liegen jeweils über 10T. GPT-4o und xAI Grok rutschen aus dem Main-Loop—nicht weil sie tot sind, sondern weil Teams sie in die Review-Schicht verschieben. Das Muster wiederholt sich quer durch Cursor-, Claude-Code- und Custom-Agent-Stacks. Unten: Top 10, Fünf-Modell-Vergleich, Szenario-Empfehlungen und passende Mac-Setups.

1. 2026 OpenRouter Top 10 (Wochen-Token)

Quelle: OpenRouter-Modellseite, Mitte Juni 2026. Ranking lesen heißt Rollen lesen—wer führt den Main-Loop, wer bleibt Review.

Kern-Ranking

Wer frisst 80 % des Agent-Traffics?

Default-Ausführung Review / Upgrade Wird ersetzt

#	Modell	Wochen-Token	Rolle	Trend
1	DeepSeek V4 Flash	10.9T	2026-Default	↑ Spitze
2	Hy3 Preview	10.7T	Lange Agent-Ketten	↑ Gleichauf
3	Claude Opus 4.7	7.4T	Vor-Merge-Sign-off	→ Review-Pflicht
4	Claude Sonnet 4.6	7.4T	IDE-Upgrade-Default	→ Mittlere Komplexität
5	Owl Alpha	5.0T	Agent-Neuling	↑ Steil
6	MiMo-V2-Flash	4.2T	Open-Source Flash	↑
7	Kimi K2	3.8T	Chinesische Langdokumente	↑
8	Gemini 3.5 Flash	3.2T	Batch / Multimodal	→
9	GPT-4o	1.6T	Aus Main-Loop	↓ Flash ersetzt
10	xAI Grok-3	1.1T	Dev-Exodus	↓↓ -73%

Auf einen Blick: Top 2 zusammen 21,6T—75 % von 28,9T. Der Default model string ist Flash, nicht Opus.

28.9T

OpenRouter Wochen-Token gesamt

75%

Top-2-Anteil

26×

Flash vs. Sonnet pro Task

Das Ranking zeigt nicht „wer am klügsten ist“, sondern wer 2026 zum Default model string wird.

Unterschied zu Benchmarks

MMLU und SWE-bench messen Decken; OpenRouter-Nutzung misst, ob man täglich aufruft. Bei 50K–200K Token pro Agent-Loop gewinnt günstig + gut genug. Mehr Kontext: OpenRouter-Preiswahrheit.

2. Top 5: wofür jedes Modell taugt

① DeepSeek V4 Flash — Default-Ausführungsschicht

284B MoE, ~13B aktiv pro Forward; 1M Kontext, Input ~$0,10/M, mit Cache bis $0,04/M. Ideal für: Repo lesen, Patch-Entwürfe, Agent-Main-Loop, RAG-Reranking. Lokal auf dem Mac nicht realistisch—OpenRouter API ist der Weg.

② Hy3 Preview — Neu in langen Agent-Ketten

Tencent-Modell, nach wenigen Wochen bei 10,7T. Stärken: Chinesisch, Multi-Step-Tool-Calls, stabiler Langkontext. Für komplexe Agent-Orchestrierung und Batch-Pipelines neben Gemini. Braucht API; Ausführung besser auf Cloud Mac, Inferenz getrennt.

③ Claude Opus 4.7 — Sign-off-Schicht

7,4T heißt nicht tot—nur andere Rolle. Nicht mehr 80 % der Agent-Loops, sondern Merge-Review, Architekturentscheidungen, Security-Audit. Teuer, reserviert für die 5 % Tasks mit katastrophalem Fehlkosten-Risiko.

④ Claude Sonnet 4.6 — IDE-Mittelklasse

Ähnliches Token-Volumen wie Opus, andere Aufgabe: modulübergreifende Refactors, API-Vertragsänderungen, „Upgrade-Default“ in Cursor/Claude Code. ~30× teurer als Flash, günstiger als Opus—Mitte zwischen Qualität und Kosten.

⑤ Owl Alpha — Agent-Experiment

5,0T Neuling; Community berichtet aggressives Multi-Step-Coding und Tool Use. Für Early Adopter; in Produktion DeepSeek Flash als Fallback empfohlen.

3. Fünf Modelle: Fähigkeitsmatrix

Kein IQ-Ranking, sondern „lohnt sich als Default?“. Grün = stärkste Stufe; Rot = klare Schwäche.

Fähigkeitsmatrix

Coding und Agent stark—Unterschied bei Kosten und Chinesisch

Fähigkeit	DeepSeek	Claude	Gemini	Kimi	Hy3	Pick
Coding	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	DeepSeek / Hy3
Agent	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	Hy3 lange Ketten
Langkontext	⭐⭐⭐⭐⭐ 1M	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	DeepSeek
Chinesisch	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	Kimi / Hy3
Kosten	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	DeepSeek

Default-Stack: Main-Loop DeepSeek / Hy3 + Review Claude Sonnet. Claude ist nicht verboten—nur nicht Default.

4. Preisvergleich: was ein Agent-Task kostet

Typischer Task: 100K Input + 10K Output, 80 % Input aus Cache. Letzte Spalte: Faktor vs. DeepSeek—die Zahl, die zählt.

Kostenbruch

Sonnet ist nicht etwas teurer—sondern 26×

Modell	Input /M	Pro Task	500/Tag	vs DeepSeek
Flash-Ausführung — Default-tauglich
DeepSeek V4 Flash Basis	~$0.10	$0.008	~$4	1×
Hy3 Preview	~$0.10	$0.009	~$5	1.1×
Gemini 3.5 Flash	~$0.15	$0.02	~$10	2.5×
Kimi K2	~$0.15	$0.018	~$9	2.3×
Review / Premium — nur Upgrade, kein Default
Claude Sonnet 4.6	~$3.00	$0.21	~$105	26×
Claude Opus 4.7	~$15.00	$1.05	~$525	131×
GPT-4o aus Top 8	~$2.50	$0.18	~$90	23×

500 Agent-Runs/Tag: DeepSeek $4 vs. Sonnet $105. Qualitätslücke weit unter 26×—deshalb Flash vorne.

5. Welche Modelle geben Entwickler auf?

„Aufgeben“ = vom Default-Platz, nicht „nie mehr nutzen“.

Modell	Status	Wohin wechseln Teams
GPT-4o	Top 10 #9 · 1,6T	Main-Loop → DeepSeek / Hy3; selbst nur noch Multimodal-Spezialfall
xAI Grok-3	WoW -73%	Agent-Loop zu teuer, Community-Hype kühlt ab
Claude Opus als Default	Absolut noch 7,4T	Neue Calls meist „Review“, nicht mehr 80 % Explore-Loops
DeepSeek V3 / GPT-4 Turbo	Aus Ranking verschwunden	Ersetzt durch V4 Flash / neue MoE

Ranking nicht falsch lesen

Claude-Familie zusammen noch über 14T—Anthropic hat nicht „verloren“, sondern von Volumen- zu Qualitätsschicht gewechselt. Aufgegeben wird „ein Modell für alles“, nicht Claude.

6. Empfehlungen nach Szenario

Cursor-Nutzer

Empfohlener Stack:

Default Agent / Multi-File → DeepSeek V4 Flash (OpenRouter oder Cursor OpenAI-compatible Endpoint)
Komplexe Refactors, Pre-Merge-Review → Claude Sonnet 4.6
Inline-Completion → Cursor-Schnellmodell behalten

Siehe Claude Code vs Cursor: Cursor gewinnt am IDE-Flow, Modell-Tiers konfigurieren Sie selbst.

Claude-Code-Nutzer

Empfohlener Stack:

Main-Loop (Repo, Tests, Diffs) → DeepSeek V4 Flash via OpenRouter
Architektur, Security, Final Review → Claude Opus 4.7 oder Sonnet 4.6
CLAUDE.md → Upgrade-Regeln festhalten, nicht jede Exploration mit Opus bezahlen

Claude Code bindet Anthropic nativ—2026 setzen viele Teams externes Flash-Hirn + Claude-Review über OpenRouter auf.

Agent-Entwickler

Empfohlener Stack:

Lange Orchestrierung / CN-Dokumente → Hy3 Preview
Generischer Coding-Agent → DeepSeek V4 Flash
Batch, Log-Klassifikation, strukturierte Outputs → Gemini 3.5 Flash
Qualitäts-Fallback → Claude Sonnet, nach 2 Fehlschlägen Opus

Mit Code-Knowledge-Graph: Retrieval-Summary per Flash, Final Review per Claude—Token-Masse liegt vorn.

Szenario-Kurzreferenz

Wer Sie sind → Default → wann upgraden

Profil	Default	Upgrade	Nicht als Default
Cursor	DeepSeek V4 Flash	Claude Sonnet 4.6	überall Opus
Claude Code	DeepSeek V4 Flash	Claude Opus 4.7	Sonnet im Main-Loop
Agent-Dev	Hy3 + DeepSeek	Gemini Flash	ein Modell End-to-End
CN-Langdokumente	Kimi K2 + Hy3	Claude Sonnet	GPT-4o

7. Mac-Setup: API oder lokal

Modell gewählt—noch fehlt: wo Inferenz, wo Agent-Ausführung.

Hardware-Match

284B MoE → API · 14B lokal · lange Agent-Ketten → Cloud Mac

Modell	Inferenz	Empfohlener Mac	Kurz
DeepSeek V4 Flash	OpenRouter API	Beliebiger Mac	Lokal unmöglich; Mac nur für git/Tests
Hy3 Preview	API	Cloud Mac M4 24GB	Lange Agent-Ketten fressen RAM → Ausführung Cloud, Inferenz API
Qwen 14B / 7B	Lokal Ollama	Mac mini M4 24GB	Daten bleiben lokal; 7B ~35 tok/s
Claude Sonnet / Opus	API	Mac mini 16GB+	Inferenz Cloud; lokal Claude Code
CI Agent	Flash API	Cloud Mac + Runner	Tags xcodebuild, nachts Batch-Inferenz—Zeitschnitt

Drei Regeln: MoE-Riesen → API; 7B–14B → Mac mini 24GB; Hy3/CI Agent → Cloud Mac.

FAQ

F: Wie oft aktualisiert sich OpenRouter Top 10?
A: Die Modellseite hat Live-Charts; Zahlen hier aus Mitte Juni 2026. Trend wichtiger als exakte Werte—Flash dominiert strukturell.

F: Nur Claude-Abo—trotzdem DeepSeek?
A: Ja. Claude Code kann OpenRouter als Fallback; oder Cursor + OpenRouter, Review weiter per Claude. Wichtig: Main-Loop nicht an Opus binden.

F: Kimi oder Hy3?
A: Chinesische Langdokumente und KB-QA: Kimi. Multi-Step-Coding-Agent mit dichten Tool Calls: Hy3. Preis ähnlich—eine Woche parallel testen.

F: Reicht 16GB Mac mini?
A: Nur Claude Code/Cursor + API: ja. Ollama 14B + IDE + Agent parallel: 24GB oder schwere Jobs auf Cloud Mac.

Fazit: Default = Traffic-Modell, nicht stärkstes Modell

OpenRouter Top 10 ist eindeutig: DeepSeek V4 Flash und Hy3 führen den Main-Loop, Claude hält die Review-Schicht, GPT-4o und xAI verlieren den Default. Fragen Sie vor jedem Modellwechsel: „Darf ich diesen Task zehnmal wiederholen?“—wenn ja, Flash; wenn nein, Sonnet oder Opus. Genau diese Logik erklärt, warum Token-Traffic schneller kippt als Eval-Sheets.

Hardware: MoE-Riesen per API, kleine Modelle lokal mit Ollama, lange Agent-Ausführung auf Cloud Mac. Richtiges Modell halbiert die Rechnung; richtiger Mac hält den Agent stabil—und verhindert, dass teure Frontier-Calls nur wegen RAM-Engpässen langsamer wirken.

ZavCloud

Hy3 + DeepSeek per API, Agent-Ausführung auf Cloud Mac

M4 24GB dediziert: Claude Code, xcodebuild, GitHub Runner—Zeitschnitt mit OpenRouter-Inferenz. Standardlösung, wenn 16GB lokal nicht reichen.

Cloud-Mac-Tarife ansehen