Was sind Tokens? Was kosten 100 Mio. Tokens? Vollständiger KI-Modell-Preisvergleich 2026

AI Notes  ·   ·  ~6 Min. Lesezeit

KI-Token-Abrechnungseinheiten und LLM-API-Preisvergleich

Kurz gesagt: 100 Mio. Tokens kosten auf Flash-Stufe etwa $10–14, auf Sonnet ~$540, auf Opus ~$2.700 — alles in USD. Vier Tabellen unten listen die Listenpreise vom Juni 2026. Unter jeder Tabelle eine Zeile Fazit; am Ende Empfehlungen nach Zielgruppe.

Wer ein Agent-Budget plant oder Cursor-Defaults mit einem selbst gehosteten API-Stack vergleicht, sollte hier anfangen — nicht bei Benchmark-Scores. Alle Werte unten sind US-Dollar pro Million Tokens ($/M), sofern nicht anders angegeben. Modellnamen und Stufen entsprechen dem, was Entwickler Mitte Juni 2026 tatsächlich über OpenRouter routen; Ihre Rechnung kann durch Caching, Routing oder Enterprise-Rabatte leicht abweichen. Wer nur einen Anbieter direkt abrechnet, findet oft ähnliche Größenordnungen — der Unterschied liegt eher in I/O-Mix und Cache-Hit-Rate als im Modellnamen allein.

$0.10
Flash-Input Ø /M
~$12
100 Mio. Tokens Untergrenze
26×
Sonnet vs DeepSeek

Tabelle 1: Flash-Ausführungsstufe — API-Preise Juni 2026

OpenRouter und offizielle Preisseiten. Einheit: USD pro Million Tokens ($/M).

Flash-Stufe

Default für Agent-Hauptschleifen — langer Kontext und Retries ohne Budgetpanik

Modell Input /M Output /M Cache read /M Kontext
DeepSeek V4 Flash #1 Nutzung $0.098 $0.197 ~$0.01 1M
Hy3 Preview ~$0.10 ~$0.20 Ja 256K+
MiMo-V2-Flash $0.10 $0.30 $0.01 256K
Gemini 2.5 Flash $0.15 $0.60 Ja 1M
Kimi K2 ~$0.15 ~$0.50 Ja 128K
GPT-4o mini $0.15 $0.60 Ja 128K
Owl Alpha ~$0.12 ~$0.35 200K

Tabelle 1: Diese Stufe frisst ~80 % der Agent-Tokens. Die OpenRouter-Wochen-Top-10 besteht fast nur aus Flash; DeepSeek + Hy3 zusammen über 20T/Woche. Hier zuerst den Default-Modellstring wählen. Liegt „Cache read“ bei ~$0,01/M, werden wiederholte System-Prompts und RAG-Chunks schnell günstig — deshalb wagen Teams 200K-Token-Repo-Reads auf Flash statt auf Sonnet.

Flash-Modelle sind kein „schlechteres GPT“ — sie sind MoE-Architekturen für Hochvolumen-Schleifen. DeepSeek V4 Flash führt beim Rohvolumen, weil 1M Kontext auf sub-$0,10/M Input trifft. Hy3 und Kimi zählen, wenn Ihre Pipeline CJK-lastig oder tool-call-dicht ist. Gemini 2.5 Flash und GPT-4o mini sind die Western-Vendor-Äquivalente bei rund 1,5–2× DeepSeeks Listenpreis. Für Teams, die bereits Prompt-Caching nutzen, lohnt sich ein Blick auf die Cache-read-Spalte: dort liegt oft der größte Hebel, bevor man über Modellwechsel diskutiert.

Tabelle 2: Frontier-Review-Stufe — API-Preise Juni 2026

Frontier-Stufe

Nur eskalieren — Pre-Merge-Review und Architekturentscheidungen, nicht die Default-Schleife

Modell Input /M Output /M Kontext OpenRouter-Trend
Claude Sonnet 4.6 ~$3.00 ~$15.00 200K Review-Arbeitspferd
Claude Opus 4.7 ~$15.00 ~$75.00 200K Freigabe-Stufe
GPT-4o $2.50 $10.00 128K Aus Top 8 gefallen
Gemini 2.5 Pro ~$1.25 ~$10.00 1M Multimodal Long-Form
o3 / o4-mini (Reasoning) $1.10–4.00 $4.40–16.00 200K Mathe / Beweise

Tabelle 2: Top-Qualität, aber zu teuer für die Agent-Hauptschleife. Claude Opus verarbeitet weiterhin 7T+ Wochen-Tokens — in einer Review-Rolle, nicht als Default. GPT-4o wird aus Primärflows zugunsten von Flash ausgetauscht. Sonnet 4.6 ist der sinnvolle „Step-up“, wenn ein Diff sorgfältiges Urteil braucht; Opus ist für Freigaben, wo ein Fehler mehr kostet als die API-Rechnung.

Frontier-Preise erklären, warum „einfach das beste Modell nehmen“ aufhörte, sobald Agents 50K–200K Tokens pro Aufgabe verbrannten. Ein einzelnes Sonnet-Review ist bezahlbar; Sonnet als Default für jeden Dateizugriff nicht. Gemini 2.5 Pro und o-Series-Reasoning-Modelle füllen Nischen — lange multimodale Docs oder formale Beweise —, nicht den täglichen Coding-Loop. In der Praxis reicht Sonnet oft für Merge-Reviews und Architektur-Entscheidungen; Opus bleibt für Fälle, in denen ein Fehler Compliance oder Umsatz trifft.

Tabelle 3: Vergleich der 100-Mio.-Token-Rechnungen

Gängiger Maßstab: 100 Mio. Tokens. Drei Mischungen: nur Input / 80·20 Chat / 90·10 Agent.

100 Mio. Tokens

Gleiches Volumen, bis zu 200× Spanne günstigstes vs teuerstes

Modell Nur Input 100M 80/20-Mix 90/10 Agent vs DeepSeek
Flash-Ausführungsstufe
DeepSeek V4 Flash ~$10 ~$12 ~$11
Hy3 Preview ~$10 ~$13 ~$11 1.1×
Gemini 2.5 Flash ~$15 ~$24 ~$19
Frontier-Review-Stufe
GPT-4o ~$250 ~$400 ~$325 33×
Claude Sonnet 4.6 ~$300 ~$540 ~$420 45×
Claude Opus 4.7 ~$1,500 ~$2,700 ~$2,100 225×

Tabelle 3: 1 Mrd. Tokens/Monat → DeepSeek ~$120, Sonnet ~$5.400. Agent-Workloads sind input-lastig — die 90/10-Spalte gewichten. Hohe Cache-Trefferquoten können Flash-Istkosten um 50 %+ senken. Nutzen Sie diese Tabelle, wenn Finance fragt „was passiert bei 10× Traffic?“ — der Multiplikator trifft Frontier-Zeilen viel härter als Flash-Zeilen.

„100 Mio. Tokens“ ist eine hilfreiche Denkeinheit: ungefähr eine arbeitsreiche Woche für einen kleinen Agent-Piloten oder ein paar Stunden für einen hochvolumigen RAG-Dienst. Die reine-Input-Spalte modelliert ingestion-lastige Pipelines (Search, Rerank, Classify). Der 80/20-Mix passt zu Chat-Produkten. Die 90/10-Agent-Spalte gilt zum Stress-Testen, wenn Ihr Tool ganze Repositories liest, bevor es einen kurzen Patch schreibt. Steigt Ihr Token-Verbrauch schneller als die Nutzerzahl, ist diese Spalte der realistischere Anker.

Tabelle 4: Typische Kosten einer Agent-Aufgabe

Annahme: 100K Input + 10K Output, 80 % Input-Cache-Treffer. Tagesrechnung bei 500 Läufen.

Ein Agent-Lauf

500/Tag: DeepSeek $4 vs Sonnet $105

Modell Input /M Pro Aufgabe 500/Tag vs DeepSeek
Flash-Ausführungsstufe
DeepSeek V4 Flash ~$0.10 $0.008 ~$4
Hy3 Preview ~$0.10 $0.009 ~$5 1.1×
Gemini 2.5 Flash ~$0.15 $0.02 ~$10 2.5×
Kimi K2 ~$0.15 $0.018 ~$9 2.3×
Frontier-Review-Stufe
Claude Sonnet 4.6 ~$3.00 $0.21 ~$105 26×
Claude Opus 4.7 ~$15.00 $1.05 ~$525 131×
GPT-4o ~$2.50 $0.18 ~$90 23×

Tabelle 4: Realistischer Verbrauch für Claude Code / OpenHands-ähnliche Tools. Qualitätslücke ist viel kleiner als 26× — Sonnet sollte nicht Default in der Hauptschleife sein. Bei 500 Läufen pro Tag ist Sonnet allein auf dieser Workload-Form ein Posten von $3.000+/Monat; Flash bleibt im zweistelligen Bereich.

Die Zeile pro Aufgabe gehört ins Spreadsheet der Engineering-Leads: multiplizieren mit erwarteten täglichen Agent-Aufrufen, dann Puffer für Retries. Wenn Ihr Produkt bei jedem CI-Failure, jedem Support-Ticket und jedem Nacht-Job ein LLM triggert, skaliert Tabelle 4 linear — es gibt kein „Unlimited-Tier“ bei Raw-API-Preisen. Planen Sie deshalb lieber mit 500 Läufen pro Tag als Untergrenze, sobald Agent-Features produktiv gehen.

Empfehlungen nach Zielgruppe: wer du bist → welche Zeile

Routing-Empfehlungen

Primärmodell + Eskalationsmodell + monatliches Budgetband

Zielgruppe Primär (80 % Tokens) Eskalation (5–10 %) Monatliches API-Budget
Solo-Dev · IDE-Vervollständigung Cursor / Copilot-Abo $20–40 Abo
Indie Full-Stack · leichter Agent DeepSeek V4 Flash Claude Sonnet (Review) $20–80
CJK-Business · lange Agent-Ketten Hy3 Preview Kimi K2 / Sonnet $50–200
Kleines Team · RAG-Produkt DeepSeek Flash + Cache Sonnet Pre-Merge-Review $200–800
500+ Agent-Aufgaben/Tag DeepSeek / Hy3 Dual-Route Opus nur an kritischen Knoten $120–600 (Flash-lastig)
Quellcode-sensibel · Datenresidenz Mac mini Ollama 7B–14B Flash-API nur für unkritische Daten Hardware > API
Finanzen / Gesundheit · teure Fehler Flash-Entwürfe + Retrieval Opus / GPT-4o + Human Gate Compliance-getrieben

Faustregel: Flash trägt Volumen; Frontier bewacht Tore. Default-Stack = DeepSeek / Hy3 + Claude Sonnet. Nutzungstrends: OpenRouter-Preisrealität.

Kurznotizen pro Zielgruppe

  • Solo-Dev / IDE: Abo-Tools bündeln Token-Kosten — Sie optimieren Zeit, nicht $/M. API-Preise erst neu prüfen, wenn die inkludierten Fast Requests nicht mehr reichen.
  • Indie-Agent: DeepSeek als Default plus Sonnet beim Merge ist die reibungsarmste Aufteilung; $20–80 budgetieren, bis Usage-Dashboards Gegenteiliges zeigen.
  • CJK lange Ketten: Hy3s Tool-Stabilität schlägt oft rohes $/M; Kimi dazu, wenn Dokumente stark mainland-chinesisch sind.
  • RAG-Produkt: System-Prompt und Doc-Präfixe cachen; Flash plus Sonnet-Review schlägt Single-Model-Sonnet um Größenordnungen. Messen Sie Cache-Hits monatlich — ohne Metriken raten Teams oft am falschen Modell.
  • 500+ Aufgaben/Tag: Dual-Route DeepSeek/Hy3, bevor Opus in Frage kommt; Opus nur für human-gated Steps.
  • Datenresidenz: Lokales 7B–14B entfernt Per-Token-Billing für planbare Workloads; API für Bursts und 200B+-MoE-Fähigkeit.
  • Reguliert: Preis ist sekundär zu Audit-Trails — Bulk-Token-Volumen trotzdem über Flash, nicht Opus. Dokumentieren Sie Eskalationspfade und Human-Gates für Compliance-Reviews.

In einem Satz: Preis wählt Flash; Risiko wählt Sonnet/Opus. 100 Mio. Tokens ist der Maßstab; die Zielgruppentabelle ist die Antwort. Beides zusammen reicht für die meisten Budgetgespräche im Engineering.

Diese Seite neu besuchen, wenn Anbieter Flash-Preise wieder senken — Juni 2026 bewegte sich schneller als Frontier-Listen 2025. Exportieren Sie monatlich Ihre eigene Usage-Split; Tabellen altern gut, aber Ihr Input/Output-Verhältnis bewegt die Rechnung wirklich. Wer Agent-Loops mit festen Review-Gates baut, kann Sonnet gezielt budgetieren, statt es als versteckten Default in der IDE zu tragen.

ZavCloud

Erst klären, was lokale Inferenz abdeckt — dann API-Budget planen

Ollama auf Cloud Mac: Tages-Token-Obergrenze für 7B/14B finden, dann Flash-API-Budget festlegen.

Cloud-Mac-Tarife ansehen
Cloud MacMac mini online mieten