Welches Modell wird auf OpenRouter am meisten genutzt?

Stand Juni 2026 führt DeepSeek V4 Flash; Tencent Hy3 preview ist zweitplatziert. Beide sind günstige MoE-Modelle um $0,10/M Input.

Warum machen billige Modelle so viele Tokens aus?

Agent-Loops, RAG-Reranking und Batch-Zusammenfassungen tolerieren Qualitätsschwankungen, verbrauchen aber enorme Token-Mengen; günstige Modelle erlauben lange Kontexte und Retries ohne Sonnet-Preise.

Ist OpenRouter günstiger als der Listenpreis?

Oft ja. DeepSeek V4 Flash kann gewichtet ~$0,04/M Input erreichen, wenn Prompt-Cache 50–94 % trifft bei wiederholten System-Prompts und RAG-Kontext.

Wann API, wann lokales Ollama?

OpenRouter bei geringer Datenschutz-Sensibilität, Burst-Peaks und 200B+ MoE; lokales Mac-mini-Ollama bei Datenresidenz, stabilen 7B–14B-Workflows und planbarem Tagesvolumen.

Die OpenRouter-Preiswahrheit: Warum die günstigsten Modelle 28,9 Billionen Token „beherrschen“

Wer Modelle noch über MMLU und GPT-Score auswählt, zahlt sehr wahrscheinlich für das falsche Kriterium.

Die jüngste Sieben-Tage-Auswertung von OpenRouter liefert eine unbequeme Wahrheit: Die Gewinner in der KI sind nicht die klügsten Modelle, sondern die günstigsten, die Entwickler ohne Scham in großem Maßstab aufrufen. Anfang Juni 2026 erreichte das wöchentliche Token-Volumen 28,9 Billionen (+7,4 % WoW). Allein DeepSeek V4 Flash verbrauchte 3,43 Billionen. Oben auf der Rangliste dominieren MoE-Modelle um $0,10/M Input—nicht GPT-4o, nicht Claude Opus, nicht das „stärkste“ Modell aus Ihrem Eval-Sheet.

Im Folgenden zerlegen wir die Kostenbruchstelle hinter dieser Zahl, die sichtbare Drei-Ebenen-Marktspaltung und die Frage, wo Engineers zwischen API-Routing und lokaler Ollama-Inferenz stehen sollten. Alle technischen Details sind dabei—doch die Kernaussage ist klar: KI wechselt vom Leistungs- zum Kostenwettbewerb; dort gewinnt günstig + gut genug als Default.

28,9T

OpenRouter-Wochen-Tokens

3,43T

DeepSeek V4 Flash allein

26×

Flash vs. Sonnet pro Agent-Task

28,9 Billionen Token: eine Zahl, die Branchenregeln umschreibt

OpenRouter ist die Aggregations-Schicht, in der Entwickler LLM-Aufrufe wirklich routen—was hier genutzt wird, ist näher am echten Schlachtfeld als jeder statische Benchmark. Erste Juniwoche 2026:

Plattform-Wochen-Tokens: 28,9T, fünfte Wachstumswoche in Folge, +7,4 % WoW
Chinesische Modelle: 9,2T—fast doppelt so viel wie US-Modelle mit 4,9T
DeepSeek V4 Flash: Modell #1, 3,43T wöchentlich, Tages-Spitzen über 800B
Tencent Hy3 preview: weltweit #2 wenige Wochen nach Launch
xAI: absolutes Volumen −73 %—einziger großer Western-Name mit Schrumpfung oben

Die Spitze der Rangliste besteht fast nur aus günstigen MoE-Modellen. Nicht GPT-4o. Nicht Claude Opus. Nicht das „stärkste Modell“ aus Ihrer Tabelle.

Anthropic gehört zu den wenigen Western-Labs mit wachsendem Anteil—absolutes Token-Volumen liegt dennoch weit hinter DeepSeek. Das ist kein Marketing-Erfolg, sondern eine Abstimmung mit dem Geldbeutel.

Datenquelle

Zahlen aus öffentlichen OpenRouter-Nutzungscharts und Community-Provider-Rankings (Anfang Juni 2026). OpenRouter routet über Provider; maßgeblich ist Ihre Rechnung.

Kontraintuitiv: teure Modelle werden marginalisiert

Benchmark-Denken suggeriert: klügeres Modell → mehr Nutzung.

Die Realität läuft umgekehrt:

Claude / GPT: exzellente Qualität, brutale Stückkosten—jeder Call frisst Budget
DeepSeek / Hy3 / MiMo: gut genug bei extrem niedrigen Preisen—Teams retryen ohne Zögern

Unverblümt: Nicht wer am stärksten ist, sondern wer ohne Angst massenhaft aufgerufen wird.

Früher zählte „Wer ist klüger?“ Heute zählt „Wer überlebt eine Million Tool-Loops?“ 28,9T Token sind harte Evidenz. Traffic lügt nicht; die Monatsrechnung auch nicht.

Drei Gründe, warum billige Modelle Traffic dominieren

① Agents explodieren Token-Verbrauch—Preisabstände werden existenziell

Ein Agent ist nicht mehr eine Frage, eine Antwort. Er liest Code, patcht, testet, repariert, looped. Eine Aufgabe wächst von 2K auf 50K–200K Token. Bei 50-facher Aufrufzahl wird die Lücke zwischen „$0,015 pro Call“ und „$0,0001 pro Call“ zur strukturellen Kluft—nicht zum Feintuning.

Wenn Claude Code oder OpenHands Alltags-Infrastruktur ist, Retry- und Entwurfsphasen über Sonnet zu schicken ist kein Qualitätsstreben—es ist Geld verbrennen. Entwickler wurden nicht plötzlich geizig; Agents legen den Multiplikator auf den Tisch der Finanzabteilung.

② MoE macht „günstig + stark genug“ real

DeepSeek V4 Flash: 284B Parameter gesamt, ~13B aktiviert pro Forward. MiMo-V2-Flash: 309B gesamt, 15B aktiviert. Inferenzkosten hängen an aktivierten Parametern, nicht an Marketing-Zahlen—Sie brauchen nicht das größte Modell, sondern die effizienteste Aktivierung.

MiMo-V2-Flash führt bei SWE-bench Verified unter Open-Source-Modellen, nahe Claude Sonnet 4.5, bei rund 3,5 % der API-Kosten. Kein „reicht für Demos“—nahe-Frontier-Fähigkeit zum Abgrundpreis.

③ Langer Kontext + Cache stürzen Kosten erneut

DeepSeek V4 Flash: 1M Kontext; bei manchen Providern Prompt-Cache-Treffer über 90 %, gewichteter Input ~$0,044/M bei Listenpreis ~$0,098/M. Derselbe System-Prompt beim zweiten Call ist fast gratis.

In RAG wiederholen sich Dokumentblöcke—gecachter Input wird kaum berechnet. Lange Kontexte sind kein Budget-Tabu mehr. Das zerstört lineares Token-Denken: Wiederlesen ist kein Strafzoll, sondern Hebel.

OpenRouter-Preise sind nicht der Listenpreis

Die meisten Teams nehmen an: Listenpreis = Landed Cost. Realität hat drei Schichten:

Listenpreis: $0,1 / $3 / $10 Input/Output auf der Modellseite
Provider-Routing-Mix: OpenRouter wählt Backends nach Latenz, Verfügbarkeit, Preis—gewichteter Durchschnitt kann tiefer liegen
Cache-Rabatt: wiederholte Prompt-Präfixe zum Cache-Read-Preis (MiMo-V2-Flash Cache-Read $0,01/M—ca. ein Zehntel Input)

Modell	Input Listen /M	Output Listen /M	Cache-Read /M	Kontext
DeepSeek V4 Flash	~$0,098	~$0,197	bis ~94 % Treffer je Provider	1M
MiMo-V2-Flash	$0,10	$0,30	$0,01	256K
Claude Sonnet 4.5 (Referenz)	~$3,00	~$15,00	ja	200K
GPT-4o (Referenz)	~$2,50	~$10,00	ja	128K

Extremvergleich—ein Agent-Task (100K Input + 10K Output, 80 % Input cache-hit):

DeepSeek V4 Flash: ≈ $0,008
Claude Sonnet 4.5: ≈ $0,21

26-facher Unterschied. 500 Agent-Läufe/Tag ≈ $4 vs. $105. Kein Optimierungsspielraum—strukturelle Kluft. 28,9T Token zu günstigen Modellen ist Arithmetik, kein Zufall.

Drei Ebenen: wie sich der Markt wirklich spaltet

KI ist kein flacher „stärkstes Modell gewinnt“-Markt mehr. OpenRouter-Nutzung zeigt drei Schichten:

Ebene	Rolle	Typische Modelle	Token-Trend
Flash-Ausführung	Default frisst ~80 % Token	DeepSeek V4 Flash, Hy3, MiMo	↑ expandiert
Mittlere Urteilsebene	Kritische Schritte absichern	Gemini Flash, Claude Sonnet	→ stabil, nicht Main-Flow
Frontier-Luxus	Kein Main-Flow mehr—nur Review	GPT-4o, Claude Opus	↓ marginalisiert

Flash-Ausführung heißt: günstig + schlau genug + schuldfrei aufrufbar. Frontier wird Luxus—top Qualität, unbezahlbar als Agent-Hauptschleife. Die Mitte fängt Schritte ab, wo jemand flüstert: „Hier brauchen wir mehr Sorgfalt.“

Grenzen bleiben

Billige Modelle sind nicht allmächtig. Schlüssel, Compliance, Beweise, Szenarien mit katastrophalem Einzelfehler (Trading, Diagnose) brauchen Frontier oder Menschen. Drei Ebenen beschreiben Default-Traffic—nicht „Frontier ist tot“.

Engineering-Realität: günstig wird Default

In der Agent-Ära gilt oft übersehen:

Default-Modell = Traffic-Modell = Markt-Modell. Nicht stärkstes Modell.

Der erste model-String in SDK-Defaults, Framework-Presets und Onboarding ist das Tor zum Traffic. Wenn DeepSeek V4 Flash Input ~1/30 von Sonnet kostet, SWE-bench-Lücke aber weit unter 30× liegt, rutscht der Default zum Günstigen—ohne Memo. Geldbeutel und Trägheit entscheiden.

3,43T von 28,9T auf einem Flash-Modell ist kein „jeder sein Pferd“—es signalisiert: ein Default kann alles regieren.

Routing: drei Ebenen klug nutzen

Kostenkontrolle heißt nicht „immer am billigsten hängen“, sondern nach Task-Risiko routen—Flash ~80 % Token, Frontier ~20 % kritische Tore:

OpenRouter-Tier-Routing (Skizze)

# Flash-Ausführung: ~80 % Token
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"

# Fallback bei Qualitätsfail—nicht Default Frontier
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

# System-Prompt stabil → Cache maximieren
messages = [system_prompt, *cached_context, user_query]

OpenRouter unterstützt Model-Fallbacks und Provider-Routing. Für MCP-gesteuerte Agent-Workflows: „Repo lesen, suchen, Patch-Entwurf“ → DeepSeek V4 Flash; „Merge-Review auf Diff“ → Sonnet. Token-Masse vorn, Qualitätstor hinten—Frontier nicht abschaffen, nur aus dem Main-Loop halten.

Billige API ≠ Daten überall hin

OpenRouter streut über Provider; Requests können US- oder Drittstaaten-Knoten passieren. Quellcode und PII unter Compliance gehören auf lokale oder dedizierte Cloud-Mac-Inferenz—Kostenvorteil tilgt Regulierungsrisiko nicht.

Lokal vs. API: der dritte Weg gewinnt noch

28,9T heißt nicht „alle auf API“. Lokal hat strukturelle Vorteile:

Planbares Tagesvolumen: feste 50K–500K Token/Tag 7B/14B auf Mac mini M4 24GB—Ollama-Marginalkosten → 0 (gemessen ~34–37 tok/s bei 7B)
Datenresidenz: Quellcode, PII, Health/Finance nicht über OpenRouter
Latenz: IDE-Inline-Completion ohne Netz-RTT
CI-Zeitschnitt: Cloud Mac tags xcodebuild, nachts Batch-Inferenz

Bei 200B+ MoE, Burst-Peaks oder schnellen Modell-Experimenten ohne GPU-Farm ist OpenRouter ~$0,10/M kaum schlagbar—außer Sie besitzen bereits H100-Cluster.

Hybrid-Stack 2026

Lokal Ollama (7B–14B) + OpenRouter Flash (lange Agent-Ketten) + Frontier (Final Review). Cloud Mac als Validierung—vor Hardware-Kauf dieselben Benchmark-Skripte für Swap und tok/s; lernen, welche Workloads nie API brauchten.

Fazit: was 28,9T Token sagen

28,9T ist kein DeepSeek-Marketing, kein Nationalismus-Narrativ, kein Todesurteil für Frontier-Labs.

Es sagt: KI tritt in die Kostenphase. Dort gewinnt günstig + gut genug als Default. Benchmarks messen Decken; Token-Traffic misst echte Wahl—und die Wahl ist gefallen.

Wenn Ihr Agent noch standardmäßig das stärkste Modell nutzt, zahlen Sie vielleicht 10× den Preis für eine Wahl, die Ergebnisse kaum verschiebt.

Kein Befehl, Claude oder GPT sofort zu werfen—sondern die Frage: Wer schrieb Ihren Default model string—Benchmark-Hype oder Rechnungs-Mathe? In der Agent-Ära ist Letzteres Überleben.

FAQ

F: Welches Modell führt OpenRouter-Nutzung an?
A: DeepSeek V4 Flash—3,43T/Woche, Input ~$0,10/M. Tencent Hy3 preview Platz zwei.

F: Warum mehr chinesische als US-Token?
A: Aggressive Preise + reife MoE + Self-Host-Option, verstärkt durch Agent-„frei aufrufen“. Keine universelle Qualitätsüberlegenheit—Kostenstruktur dominiert.

F: Sind billige Modelle produktionstauglich?
A: Ja bei Toleranz, Auto-Retry, Frontier-Fallback. Nein bei katastrophalem Einzelfehler.

F: Wie Ausgaben tracken?
A: OpenRouter-Dashboard pro Modell/Tag; App-Middleware für Modell + Tokens—or Agent-Loops „überraschen“ Finance.

ZavCloud

Erst messen, was lokal reicht—dann API budgetieren

Ollama-Benchmarks für 7B/14B tok/s und Swap-Grenzen—Workloads, die lokal schon laufen, nicht mit 26× Aufschlag zu OpenRouter schicken.

Cloud-Mac-Angebote