Wer Modelle noch über MMLU und GPT-Score auswählt, zahlt sehr wahrscheinlich für das falsche Kriterium.
Die jüngste Sieben-Tage-Auswertung von OpenRouter liefert eine unbequeme Wahrheit: Die Gewinner in der KI sind nicht die klügsten Modelle, sondern die günstigsten, die Entwickler ohne Scham in großem Maßstab aufrufen. Anfang Juni 2026 erreichte das wöchentliche Token-Volumen 28,9 Billionen (+7,4 % WoW). Allein DeepSeek V4 Flash verbrauchte 3,43 Billionen. Oben auf der Rangliste dominieren MoE-Modelle um $0,10/M Input—nicht GPT-4o, nicht Claude Opus, nicht das „stärkste“ Modell aus Ihrem Eval-Sheet.
Im Folgenden zerlegen wir die Kostenbruchstelle hinter dieser Zahl, die sichtbare Drei-Ebenen-Marktspaltung und die Frage, wo Engineers zwischen API-Routing und lokaler Ollama-Inferenz stehen sollten. Alle technischen Details sind dabei—doch die Kernaussage ist klar: KI wechselt vom Leistungs- zum Kostenwettbewerb; dort gewinnt günstig + gut genug als Default.
28,9 Billionen Token: eine Zahl, die Branchenregeln umschreibt
OpenRouter ist die Aggregations-Schicht, in der Entwickler LLM-Aufrufe wirklich routen—was hier genutzt wird, ist näher am echten Schlachtfeld als jeder statische Benchmark. Erste Juniwoche 2026:
- Plattform-Wochen-Tokens: 28,9T, fünfte Wachstumswoche in Folge, +7,4 % WoW
- Chinesische Modelle: 9,2T—fast doppelt so viel wie US-Modelle mit 4,9T
- DeepSeek V4 Flash: Modell #1, 3,43T wöchentlich, Tages-Spitzen über 800B
- Tencent Hy3 preview: weltweit #2 wenige Wochen nach Launch
- xAI: absolutes Volumen −73 %—einziger großer Western-Name mit Schrumpfung oben
Die Spitze der Rangliste besteht fast nur aus günstigen MoE-Modellen. Nicht GPT-4o. Nicht Claude Opus. Nicht das „stärkste Modell“ aus Ihrer Tabelle.
Anthropic gehört zu den wenigen Western-Labs mit wachsendem Anteil—absolutes Token-Volumen liegt dennoch weit hinter DeepSeek. Das ist kein Marketing-Erfolg, sondern eine Abstimmung mit dem Geldbeutel.
Datenquelle
Zahlen aus öffentlichen OpenRouter-Nutzungscharts und Community-Provider-Rankings (Anfang Juni 2026). OpenRouter routet über Provider; maßgeblich ist Ihre Rechnung.
Kontraintuitiv: teure Modelle werden marginalisiert
Benchmark-Denken suggeriert: klügeres Modell → mehr Nutzung.
Die Realität läuft umgekehrt:
- Claude / GPT: exzellente Qualität, brutale Stückkosten—jeder Call frisst Budget
- DeepSeek / Hy3 / MiMo: gut genug bei extrem niedrigen Preisen—Teams retryen ohne Zögern
Unverblümt: Nicht wer am stärksten ist, sondern wer ohne Angst massenhaft aufgerufen wird.
Früher zählte „Wer ist klüger?“ Heute zählt „Wer überlebt eine Million Tool-Loops?“ 28,9T Token sind harte Evidenz. Traffic lügt nicht; die Monatsrechnung auch nicht.
Drei Gründe, warum billige Modelle Traffic dominieren
① Agents explodieren Token-Verbrauch—Preisabstände werden existenziell
Ein Agent ist nicht mehr eine Frage, eine Antwort. Er liest Code, patcht, testet, repariert, looped. Eine Aufgabe wächst von 2K auf 50K–200K Token. Bei 50-facher Aufrufzahl wird die Lücke zwischen „$0,015 pro Call“ und „$0,0001 pro Call“ zur strukturellen Kluft—nicht zum Feintuning.
Wenn Claude Code oder OpenHands Alltags-Infrastruktur ist, Retry- und Entwurfsphasen über Sonnet zu schicken ist kein Qualitätsstreben—es ist Geld verbrennen. Entwickler wurden nicht plötzlich geizig; Agents legen den Multiplikator auf den Tisch der Finanzabteilung.
② MoE macht „günstig + stark genug“ real
DeepSeek V4 Flash: 284B Parameter gesamt, ~13B aktiviert pro Forward. MiMo-V2-Flash: 309B gesamt, 15B aktiviert. Inferenzkosten hängen an aktivierten Parametern, nicht an Marketing-Zahlen—Sie brauchen nicht das größte Modell, sondern die effizienteste Aktivierung.
MiMo-V2-Flash führt bei SWE-bench Verified unter Open-Source-Modellen, nahe Claude Sonnet 4.5, bei rund 3,5 % der API-Kosten. Kein „reicht für Demos“—nahe-Frontier-Fähigkeit zum Abgrundpreis.
③ Langer Kontext + Cache stürzen Kosten erneut
DeepSeek V4 Flash: 1M Kontext; bei manchen Providern Prompt-Cache-Treffer über 90 %, gewichteter Input ~$0,044/M bei Listenpreis ~$0,098/M. Derselbe System-Prompt beim zweiten Call ist fast gratis.
In RAG wiederholen sich Dokumentblöcke—gecachter Input wird kaum berechnet. Lange Kontexte sind kein Budget-Tabu mehr. Das zerstört lineares Token-Denken: Wiederlesen ist kein Strafzoll, sondern Hebel.
OpenRouter-Preise sind nicht der Listenpreis
Die meisten Teams nehmen an: Listenpreis = Landed Cost. Realität hat drei Schichten:
- Listenpreis: $0,1 / $3 / $10 Input/Output auf der Modellseite
- Provider-Routing-Mix: OpenRouter wählt Backends nach Latenz, Verfügbarkeit, Preis—gewichteter Durchschnitt kann tiefer liegen
- Cache-Rabatt: wiederholte Prompt-Präfixe zum Cache-Read-Preis (MiMo-V2-Flash Cache-Read $0,01/M—ca. ein Zehntel Input)
| Modell | Input Listen /M | Output Listen /M | Cache-Read /M | Kontext |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~$0,098 | ~$0,197 | bis ~94 % Treffer je Provider | 1M |
| MiMo-V2-Flash | $0,10 | $0,30 | $0,01 | 256K |
| Claude Sonnet 4.5 (Referenz) | ~$3,00 | ~$15,00 | ja | 200K |
| GPT-4o (Referenz) | ~$2,50 | ~$10,00 | ja | 128K |
Extremvergleich—ein Agent-Task (100K Input + 10K Output, 80 % Input cache-hit):
- DeepSeek V4 Flash: ≈ $0,008
- Claude Sonnet 4.5: ≈ $0,21
26-facher Unterschied. 500 Agent-Läufe/Tag ≈ $4 vs. $105. Kein Optimierungsspielraum—strukturelle Kluft. 28,9T Token zu günstigen Modellen ist Arithmetik, kein Zufall.
Drei Ebenen: wie sich der Markt wirklich spaltet
KI ist kein flacher „stärkstes Modell gewinnt“-Markt mehr. OpenRouter-Nutzung zeigt drei Schichten:
| Ebene | Rolle | Typische Modelle | Token-Trend |
|---|---|---|---|
| Flash-Ausführung | Default frisst ~80 % Token | DeepSeek V4 Flash, Hy3, MiMo | ↑ expandiert |
| Mittlere Urteilsebene | Kritische Schritte absichern | Gemini Flash, Claude Sonnet | → stabil, nicht Main-Flow |
| Frontier-Luxus | Kein Main-Flow mehr—nur Review | GPT-4o, Claude Opus | ↓ marginalisiert |
Flash-Ausführung heißt: günstig + schlau genug + schuldfrei aufrufbar. Frontier wird Luxus—top Qualität, unbezahlbar als Agent-Hauptschleife. Die Mitte fängt Schritte ab, wo jemand flüstert: „Hier brauchen wir mehr Sorgfalt.“
Grenzen bleiben
Billige Modelle sind nicht allmächtig. Schlüssel, Compliance, Beweise, Szenarien mit katastrophalem Einzelfehler (Trading, Diagnose) brauchen Frontier oder Menschen. Drei Ebenen beschreiben Default-Traffic—nicht „Frontier ist tot“.
Engineering-Realität: günstig wird Default
In der Agent-Ära gilt oft übersehen:
Default-Modell = Traffic-Modell = Markt-Modell. Nicht stärkstes Modell.
Der erste model-String in SDK-Defaults, Framework-Presets und Onboarding ist das Tor zum Traffic. Wenn DeepSeek V4 Flash Input ~1/30 von Sonnet kostet, SWE-bench-Lücke aber weit unter 30× liegt, rutscht der Default zum Günstigen—ohne Memo. Geldbeutel und Trägheit entscheiden.
3,43T von 28,9T auf einem Flash-Modell ist kein „jeder sein Pferd“—es signalisiert: ein Default kann alles regieren.
Routing: drei Ebenen klug nutzen
Kostenkontrolle heißt nicht „immer am billigsten hängen“, sondern nach Task-Risiko routen—Flash ~80 % Token, Frontier ~20 % kritische Tore:
# Flash-Ausführung: ~80 % Token cheap_model = "deepseek/deepseek-v4-flash" frontier_model = "anthropic/claude-sonnet-4.5" # Fallback bei Qualitätsfail—nicht Default Frontier response = openrouter.chat(model=cheap_model, messages=msgs) if quality_check(response) == FAIL: response = openrouter.chat(model=frontier_model, messages=msgs) # System-Prompt stabil → Cache maximieren messages = [system_prompt, *cached_context, user_query]
OpenRouter unterstützt Model-Fallbacks und Provider-Routing. Für MCP-gesteuerte Agent-Workflows: „Repo lesen, suchen, Patch-Entwurf“ → DeepSeek V4 Flash; „Merge-Review auf Diff“ → Sonnet. Token-Masse vorn, Qualitätstor hinten—Frontier nicht abschaffen, nur aus dem Main-Loop halten.
Billige API ≠ Daten überall hin
OpenRouter streut über Provider; Requests können US- oder Drittstaaten-Knoten passieren. Quellcode und PII unter Compliance gehören auf lokale oder dedizierte Cloud-Mac-Inferenz—Kostenvorteil tilgt Regulierungsrisiko nicht.
Lokal vs. API: der dritte Weg gewinnt noch
28,9T heißt nicht „alle auf API“. Lokal hat strukturelle Vorteile:
- Planbares Tagesvolumen: feste 50K–500K Token/Tag 7B/14B auf Mac mini M4 24GB—Ollama-Marginalkosten → 0 (gemessen ~34–37 tok/s bei 7B)
- Datenresidenz: Quellcode, PII, Health/Finance nicht über OpenRouter
- Latenz: IDE-Inline-Completion ohne Netz-RTT
- CI-Zeitschnitt: Cloud Mac tags
xcodebuild, nachts Batch-Inferenz
Bei 200B+ MoE, Burst-Peaks oder schnellen Modell-Experimenten ohne GPU-Farm ist OpenRouter ~$0,10/M kaum schlagbar—außer Sie besitzen bereits H100-Cluster.
Hybrid-Stack 2026
Lokal Ollama (7B–14B) + OpenRouter Flash (lange Agent-Ketten) + Frontier (Final Review). Cloud Mac als Validierung—vor Hardware-Kauf dieselben Benchmark-Skripte für Swap und tok/s; lernen, welche Workloads nie API brauchten.
Fazit: was 28,9T Token sagen
28,9T ist kein DeepSeek-Marketing, kein Nationalismus-Narrativ, kein Todesurteil für Frontier-Labs.
Es sagt: KI tritt in die Kostenphase. Dort gewinnt günstig + gut genug als Default. Benchmarks messen Decken; Token-Traffic misst echte Wahl—und die Wahl ist gefallen.
Wenn Ihr Agent noch standardmäßig das stärkste Modell nutzt, zahlen Sie vielleicht 10× den Preis für eine Wahl, die Ergebnisse kaum verschiebt.
Kein Befehl, Claude oder GPT sofort zu werfen—sondern die Frage: Wer schrieb Ihren Default model string—Benchmark-Hype oder Rechnungs-Mathe? In der Agent-Ära ist Letzteres Überleben.
FAQ
F: Welches Modell führt OpenRouter-Nutzung an?
A: DeepSeek V4 Flash—3,43T/Woche, Input ~$0,10/M. Tencent Hy3 preview Platz zwei.
F: Warum mehr chinesische als US-Token?
A: Aggressive Preise + reife MoE + Self-Host-Option, verstärkt durch Agent-„frei aufrufen“. Keine universelle Qualitätsüberlegenheit—Kostenstruktur dominiert.
F: Sind billige Modelle produktionstauglich?
A: Ja bei Toleranz, Auto-Retry, Frontier-Fallback. Nein bei katastrophalem Einzelfehler.
F: Wie Ausgaben tracken?
A: OpenRouter-Dashboard pro Modell/Tag; App-Middleware für Modell + Tokens—or Agent-Loops „überraschen“ Finance.
ZavCloud
Erst messen, was lokal reicht—dann API budgetieren
Ollama-Benchmarks für 7B/14B tok/s und Swap-Grenzen—Workloads, die lokal schon laufen, nicht mit 26× Aufschlag zu OpenRouter schicken.
Cloud-Mac-Angebote