Die OpenRouter-Preiswahrheit: Warum die günstigsten Modelle 28,9 Billionen Token „beherrschen“

AI Notes  ·  2026.06.08  ·  ~9 Min. Lesezeit

Diagramm und Trendanalyse: OpenRouter 28,9T Wochen-Tokens und günstige Modell-Preisstruktur

Wer Modelle noch über MMLU und GPT-Score auswählt, zahlt sehr wahrscheinlich für das falsche Kriterium.

Die jüngste Sieben-Tage-Auswertung von OpenRouter liefert eine unbequeme Wahrheit: Die Gewinner in der KI sind nicht die klügsten Modelle, sondern die günstigsten, die Entwickler ohne Scham in großem Maßstab aufrufen. Anfang Juni 2026 erreichte das wöchentliche Token-Volumen 28,9 Billionen (+7,4 % WoW). Allein DeepSeek V4 Flash verbrauchte 3,43 Billionen. Oben auf der Rangliste dominieren MoE-Modelle um $0,10/M Input—nicht GPT-4o, nicht Claude Opus, nicht das „stärkste“ Modell aus Ihrem Eval-Sheet.

Im Folgenden zerlegen wir die Kostenbruchstelle hinter dieser Zahl, die sichtbare Drei-Ebenen-Marktspaltung und die Frage, wo Engineers zwischen API-Routing und lokaler Ollama-Inferenz stehen sollten. Alle technischen Details sind dabei—doch die Kernaussage ist klar: KI wechselt vom Leistungs- zum Kostenwettbewerb; dort gewinnt günstig + gut genug als Default.

28,9T
OpenRouter-Wochen-Tokens
3,43T
DeepSeek V4 Flash allein
26×
Flash vs. Sonnet pro Agent-Task

28,9 Billionen Token: eine Zahl, die Branchenregeln umschreibt

OpenRouter ist die Aggregations-Schicht, in der Entwickler LLM-Aufrufe wirklich routen—was hier genutzt wird, ist näher am echten Schlachtfeld als jeder statische Benchmark. Erste Juniwoche 2026:

  • Plattform-Wochen-Tokens: 28,9T, fünfte Wachstumswoche in Folge, +7,4 % WoW
  • Chinesische Modelle: 9,2T—fast doppelt so viel wie US-Modelle mit 4,9T
  • DeepSeek V4 Flash: Modell #1, 3,43T wöchentlich, Tages-Spitzen über 800B
  • Tencent Hy3 preview: weltweit #2 wenige Wochen nach Launch
  • xAI: absolutes Volumen −73 %—einziger großer Western-Name mit Schrumpfung oben

Die Spitze der Rangliste besteht fast nur aus günstigen MoE-Modellen. Nicht GPT-4o. Nicht Claude Opus. Nicht das „stärkste Modell“ aus Ihrer Tabelle.

Anthropic gehört zu den wenigen Western-Labs mit wachsendem Anteil—absolutes Token-Volumen liegt dennoch weit hinter DeepSeek. Das ist kein Marketing-Erfolg, sondern eine Abstimmung mit dem Geldbeutel.

Datenquelle

Zahlen aus öffentlichen OpenRouter-Nutzungscharts und Community-Provider-Rankings (Anfang Juni 2026). OpenRouter routet über Provider; maßgeblich ist Ihre Rechnung.

Kontraintuitiv: teure Modelle werden marginalisiert

Benchmark-Denken suggeriert: klügeres Modell → mehr Nutzung.

Die Realität läuft umgekehrt:

  • Claude / GPT: exzellente Qualität, brutale Stückkosten—jeder Call frisst Budget
  • DeepSeek / Hy3 / MiMo: gut genug bei extrem niedrigen Preisen—Teams retryen ohne Zögern

Unverblümt: Nicht wer am stärksten ist, sondern wer ohne Angst massenhaft aufgerufen wird.

Früher zählte „Wer ist klüger?“ Heute zählt „Wer überlebt eine Million Tool-Loops?“ 28,9T Token sind harte Evidenz. Traffic lügt nicht; die Monatsrechnung auch nicht.

Drei Gründe, warum billige Modelle Traffic dominieren

① Agents explodieren Token-Verbrauch—Preisabstände werden existenziell

Ein Agent ist nicht mehr eine Frage, eine Antwort. Er liest Code, patcht, testet, repariert, looped. Eine Aufgabe wächst von 2K auf 50K–200K Token. Bei 50-facher Aufrufzahl wird die Lücke zwischen „$0,015 pro Call“ und „$0,0001 pro Call“ zur strukturellen Kluft—nicht zum Feintuning.

Wenn Claude Code oder OpenHands Alltags-Infrastruktur ist, Retry- und Entwurfsphasen über Sonnet zu schicken ist kein Qualitätsstreben—es ist Geld verbrennen. Entwickler wurden nicht plötzlich geizig; Agents legen den Multiplikator auf den Tisch der Finanzabteilung.

② MoE macht „günstig + stark genug“ real

DeepSeek V4 Flash: 284B Parameter gesamt, ~13B aktiviert pro Forward. MiMo-V2-Flash: 309B gesamt, 15B aktiviert. Inferenzkosten hängen an aktivierten Parametern, nicht an Marketing-Zahlen—Sie brauchen nicht das größte Modell, sondern die effizienteste Aktivierung.

MiMo-V2-Flash führt bei SWE-bench Verified unter Open-Source-Modellen, nahe Claude Sonnet 4.5, bei rund 3,5 % der API-Kosten. Kein „reicht für Demos“—nahe-Frontier-Fähigkeit zum Abgrundpreis.

③ Langer Kontext + Cache stürzen Kosten erneut

DeepSeek V4 Flash: 1M Kontext; bei manchen Providern Prompt-Cache-Treffer über 90 %, gewichteter Input ~$0,044/M bei Listenpreis ~$0,098/M. Derselbe System-Prompt beim zweiten Call ist fast gratis.

In RAG wiederholen sich Dokumentblöcke—gecachter Input wird kaum berechnet. Lange Kontexte sind kein Budget-Tabu mehr. Das zerstört lineares Token-Denken: Wiederlesen ist kein Strafzoll, sondern Hebel.

OpenRouter-Preise sind nicht der Listenpreis

Die meisten Teams nehmen an: Listenpreis = Landed Cost. Realität hat drei Schichten:

  1. Listenpreis: $0,1 / $3 / $10 Input/Output auf der Modellseite
  2. Provider-Routing-Mix: OpenRouter wählt Backends nach Latenz, Verfügbarkeit, Preis—gewichteter Durchschnitt kann tiefer liegen
  3. Cache-Rabatt: wiederholte Prompt-Präfixe zum Cache-Read-Preis (MiMo-V2-Flash Cache-Read $0,01/M—ca. ein Zehntel Input)
Modell Input Listen /M Output Listen /M Cache-Read /M Kontext
DeepSeek V4 Flash ~$0,098 ~$0,197 bis ~94 % Treffer je Provider 1M
MiMo-V2-Flash $0,10 $0,30 $0,01 256K
Claude Sonnet 4.5 (Referenz) ~$3,00 ~$15,00 ja 200K
GPT-4o (Referenz) ~$2,50 ~$10,00 ja 128K

Extremvergleich—ein Agent-Task (100K Input + 10K Output, 80 % Input cache-hit):

  • DeepSeek V4 Flash: ≈ $0,008
  • Claude Sonnet 4.5: ≈ $0,21

26-facher Unterschied. 500 Agent-Läufe/Tag ≈ $4 vs. $105. Kein Optimierungsspielraum—strukturelle Kluft. 28,9T Token zu günstigen Modellen ist Arithmetik, kein Zufall.

Drei Ebenen: wie sich der Markt wirklich spaltet

KI ist kein flacher „stärkstes Modell gewinnt“-Markt mehr. OpenRouter-Nutzung zeigt drei Schichten:

Ebene Rolle Typische Modelle Token-Trend
Flash-Ausführung Default frisst ~80 % Token DeepSeek V4 Flash, Hy3, MiMo ↑ expandiert
Mittlere Urteilsebene Kritische Schritte absichern Gemini Flash, Claude Sonnet → stabil, nicht Main-Flow
Frontier-Luxus Kein Main-Flow mehr—nur Review GPT-4o, Claude Opus ↓ marginalisiert

Flash-Ausführung heißt: günstig + schlau genug + schuldfrei aufrufbar. Frontier wird Luxus—top Qualität, unbezahlbar als Agent-Hauptschleife. Die Mitte fängt Schritte ab, wo jemand flüstert: „Hier brauchen wir mehr Sorgfalt.“

Grenzen bleiben

Billige Modelle sind nicht allmächtig. Schlüssel, Compliance, Beweise, Szenarien mit katastrophalem Einzelfehler (Trading, Diagnose) brauchen Frontier oder Menschen. Drei Ebenen beschreiben Default-Traffic—nicht „Frontier ist tot“.

Engineering-Realität: günstig wird Default

In der Agent-Ära gilt oft übersehen:

Default-Modell = Traffic-Modell = Markt-Modell. Nicht stärkstes Modell.

Der erste model-String in SDK-Defaults, Framework-Presets und Onboarding ist das Tor zum Traffic. Wenn DeepSeek V4 Flash Input ~1/30 von Sonnet kostet, SWE-bench-Lücke aber weit unter 30× liegt, rutscht der Default zum Günstigen—ohne Memo. Geldbeutel und Trägheit entscheiden.

3,43T von 28,9T auf einem Flash-Modell ist kein „jeder sein Pferd“—es signalisiert: ein Default kann alles regieren.

Routing: drei Ebenen klug nutzen

Kostenkontrolle heißt nicht „immer am billigsten hängen“, sondern nach Task-Risiko routen—Flash ~80 % Token, Frontier ~20 % kritische Tore:

OpenRouter-Tier-Routing (Skizze)
# Flash-Ausführung: ~80 % Token
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"

# Fallback bei Qualitätsfail—nicht Default Frontier
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

# System-Prompt stabil → Cache maximieren
messages = [system_prompt, *cached_context, user_query]

OpenRouter unterstützt Model-Fallbacks und Provider-Routing. Für MCP-gesteuerte Agent-Workflows: „Repo lesen, suchen, Patch-Entwurf“ → DeepSeek V4 Flash; „Merge-Review auf Diff“ → Sonnet. Token-Masse vorn, Qualitätstor hinten—Frontier nicht abschaffen, nur aus dem Main-Loop halten.

Billige API ≠ Daten überall hin

OpenRouter streut über Provider; Requests können US- oder Drittstaaten-Knoten passieren. Quellcode und PII unter Compliance gehören auf lokale oder dedizierte Cloud-Mac-Inferenz—Kostenvorteil tilgt Regulierungsrisiko nicht.

Lokal vs. API: der dritte Weg gewinnt noch

28,9T heißt nicht „alle auf API“. Lokal hat strukturelle Vorteile:

  • Planbares Tagesvolumen: feste 50K–500K Token/Tag 7B/14B auf Mac mini M4 24GB—Ollama-Marginalkosten → 0 (gemessen ~34–37 tok/s bei 7B)
  • Datenresidenz: Quellcode, PII, Health/Finance nicht über OpenRouter
  • Latenz: IDE-Inline-Completion ohne Netz-RTT
  • CI-Zeitschnitt: Cloud Mac tags xcodebuild, nachts Batch-Inferenz

Bei 200B+ MoE, Burst-Peaks oder schnellen Modell-Experimenten ohne GPU-Farm ist OpenRouter ~$0,10/M kaum schlagbar—außer Sie besitzen bereits H100-Cluster.

Hybrid-Stack 2026

Lokal Ollama (7B–14B) + OpenRouter Flash (lange Agent-Ketten) + Frontier (Final Review). Cloud Mac als Validierung—vor Hardware-Kauf dieselben Benchmark-Skripte für Swap und tok/s; lernen, welche Workloads nie API brauchten.

Fazit: was 28,9T Token sagen

28,9T ist kein DeepSeek-Marketing, kein Nationalismus-Narrativ, kein Todesurteil für Frontier-Labs.

Es sagt: KI tritt in die Kostenphase. Dort gewinnt günstig + gut genug als Default. Benchmarks messen Decken; Token-Traffic misst echte Wahl—und die Wahl ist gefallen.

Wenn Ihr Agent noch standardmäßig das stärkste Modell nutzt, zahlen Sie vielleicht 10× den Preis für eine Wahl, die Ergebnisse kaum verschiebt.

Kein Befehl, Claude oder GPT sofort zu werfen—sondern die Frage: Wer schrieb Ihren Default model string—Benchmark-Hype oder Rechnungs-Mathe? In der Agent-Ära ist Letzteres Überleben.

FAQ

F: Welches Modell führt OpenRouter-Nutzung an?
A: DeepSeek V4 Flash—3,43T/Woche, Input ~$0,10/M. Tencent Hy3 preview Platz zwei.

F: Warum mehr chinesische als US-Token?
A: Aggressive Preise + reife MoE + Self-Host-Option, verstärkt durch Agent-„frei aufrufen“. Keine universelle Qualitätsüberlegenheit—Kostenstruktur dominiert.

F: Sind billige Modelle produktionstauglich?
A: Ja bei Toleranz, Auto-Retry, Frontier-Fallback. Nein bei katastrophalem Einzelfehler.

F: Wie Ausgaben tracken?
A: OpenRouter-Dashboard pro Modell/Tag; App-Middleware für Modell + Tokens—or Agent-Loops „überraschen“ Finance.

ZavCloud

Erst messen, was lokal reicht—dann API budgetieren

Ollama-Benchmarks für 7B/14B tok/s und Swap-Grenzen—Workloads, die lokal schon laufen, nicht mit 26× Aufschlag zu OpenRouter schicken.

Cloud-Mac-Angebote
Cloud MacMac mini online mieten