Was kosten 100 Mio. Tokens bei den günstigsten Modellen?

Stand Juni 2026 kosten DeepSeek V4 Flash und vergleichbare Flash-Modelle bei typischer 80/20 Input/Output-Mischung auf 100 Mio. Tokens etwa $12; rein Input etwa $10 USD.

Welche Modellstufe sollte 2026 der Default sein?

Agent-Hauptschleifen auf Flash (DeepSeek V4 Flash / Hy3). Vor dem Merge auf Claude Sonnet eskalieren. Opus nur für Knoten, wo ein einzelner Fehler extrem teuer ist.

Was sind Tokens? Was kosten 100 Mio. Tokens? Vollständiger KI-Modell-Preisvergleich 2026

Kurz gesagt: 100 Mio. Tokens kosten auf Flash-Stufe etwa $10–14, auf Sonnet ~$540, auf Opus ~$2.700 — alles in USD. Vier Tabellen unten listen die Listenpreise vom Juni 2026. Unter jeder Tabelle eine Zeile Fazit; am Ende Empfehlungen nach Zielgruppe.

Wer ein Agent-Budget plant oder Cursor-Defaults mit einem selbst gehosteten API-Stack vergleicht, sollte hier anfangen — nicht bei Benchmark-Scores. Alle Werte unten sind US-Dollar pro Million Tokens ($/M), sofern nicht anders angegeben. Modellnamen und Stufen entsprechen dem, was Entwickler Mitte Juni 2026 tatsächlich über OpenRouter routen; Ihre Rechnung kann durch Caching, Routing oder Enterprise-Rabatte leicht abweichen. Wer nur einen Anbieter direkt abrechnet, findet oft ähnliche Größenordnungen — der Unterschied liegt eher in I/O-Mix und Cache-Hit-Rate als im Modellnamen allein.

$0.10

Flash-Input Ø /M

~$12

100 Mio. Tokens Untergrenze

26×

Sonnet vs DeepSeek

Tabelle 1: Flash-Ausführungsstufe — API-Preise Juni 2026

OpenRouter und offizielle Preisseiten. Einheit: USD pro Million Tokens ($/M).

Flash-Stufe

Default für Agent-Hauptschleifen — langer Kontext und Retries ohne Budgetpanik

Modell	Input /M	Output /M	Cache read /M	Kontext
DeepSeek V4 Flash #1 Nutzung	$0.098	$0.197	~$0.01	1M
Hy3 Preview	~$0.10	~$0.20	Ja	256K+
MiMo-V2-Flash	$0.10	$0.30	$0.01	256K
Gemini 2.5 Flash	$0.15	$0.60	Ja	1M
Kimi K2	~$0.15	~$0.50	Ja	128K
GPT-4o mini	$0.15	$0.60	Ja	128K
Owl Alpha	~$0.12	~$0.35	—	200K

Tabelle 1: Diese Stufe frisst ~80 % der Agent-Tokens. Die OpenRouter-Wochen-Top-10 besteht fast nur aus Flash; DeepSeek + Hy3 zusammen über 20T/Woche. Hier zuerst den Default-Modellstring wählen. Liegt „Cache read“ bei ~$0,01/M, werden wiederholte System-Prompts und RAG-Chunks schnell günstig — deshalb wagen Teams 200K-Token-Repo-Reads auf Flash statt auf Sonnet.

Flash-Modelle sind kein „schlechteres GPT“ — sie sind MoE-Architekturen für Hochvolumen-Schleifen. DeepSeek V4 Flash führt beim Rohvolumen, weil 1M Kontext auf sub-$0,10/M Input trifft. Hy3 und Kimi zählen, wenn Ihre Pipeline CJK-lastig oder tool-call-dicht ist. Gemini 2.5 Flash und GPT-4o mini sind die Western-Vendor-Äquivalente bei rund 1,5–2× DeepSeeks Listenpreis. Für Teams, die bereits Prompt-Caching nutzen, lohnt sich ein Blick auf die Cache-read-Spalte: dort liegt oft der größte Hebel, bevor man über Modellwechsel diskutiert.

Tabelle 2: Frontier-Review-Stufe — API-Preise Juni 2026

Frontier-Stufe

Nur eskalieren — Pre-Merge-Review und Architekturentscheidungen, nicht die Default-Schleife

Modell	Input /M	Output /M	Kontext	OpenRouter-Trend
Claude Sonnet 4.6	~$3.00	~$15.00	200K	Review-Arbeitspferd
Claude Opus 4.7	~$15.00	~$75.00	200K	Freigabe-Stufe
GPT-4o	$2.50	$10.00	128K	Aus Top 8 gefallen
Gemini 2.5 Pro	~$1.25	~$10.00	1M	Multimodal Long-Form
o3 / o4-mini (Reasoning)	$1.10–4.00	$4.40–16.00	200K	Mathe / Beweise

Tabelle 2: Top-Qualität, aber zu teuer für die Agent-Hauptschleife. Claude Opus verarbeitet weiterhin 7T+ Wochen-Tokens — in einer Review-Rolle, nicht als Default. GPT-4o wird aus Primärflows zugunsten von Flash ausgetauscht. Sonnet 4.6 ist der sinnvolle „Step-up“, wenn ein Diff sorgfältiges Urteil braucht; Opus ist für Freigaben, wo ein Fehler mehr kostet als die API-Rechnung.

Frontier-Preise erklären, warum „einfach das beste Modell nehmen“ aufhörte, sobald Agents 50K–200K Tokens pro Aufgabe verbrannten. Ein einzelnes Sonnet-Review ist bezahlbar; Sonnet als Default für jeden Dateizugriff nicht. Gemini 2.5 Pro und o-Series-Reasoning-Modelle füllen Nischen — lange multimodale Docs oder formale Beweise —, nicht den täglichen Coding-Loop. In der Praxis reicht Sonnet oft für Merge-Reviews und Architektur-Entscheidungen; Opus bleibt für Fälle, in denen ein Fehler Compliance oder Umsatz trifft.

Tabelle 3: Vergleich der 100-Mio.-Token-Rechnungen

Gängiger Maßstab: 100 Mio. Tokens. Drei Mischungen: nur Input / 80·20 Chat / 90·10 Agent.

100 Mio. Tokens

Gleiches Volumen, bis zu 200× Spanne günstigstes vs teuerstes

Modell	Nur Input 100M	80/20-Mix	90/10 Agent	vs DeepSeek
Flash-Ausführungsstufe
DeepSeek V4 Flash	~$10	~$12	~$11	1×
Hy3 Preview	~$10	~$13	~$11	1.1×
Gemini 2.5 Flash	~$15	~$24	~$19	2×
Frontier-Review-Stufe
GPT-4o	~$250	~$400	~$325	33×
Claude Sonnet 4.6	~$300	~$540	~$420	45×
Claude Opus 4.7	~$1,500	~$2,700	~$2,100	225×

Tabelle 3: 1 Mrd. Tokens/Monat → DeepSeek ~$120, Sonnet ~$5.400. Agent-Workloads sind input-lastig — die 90/10-Spalte gewichten. Hohe Cache-Trefferquoten können Flash-Istkosten um 50 %+ senken. Nutzen Sie diese Tabelle, wenn Finance fragt „was passiert bei 10× Traffic?“ — der Multiplikator trifft Frontier-Zeilen viel härter als Flash-Zeilen.

„100 Mio. Tokens“ ist eine hilfreiche Denkeinheit: ungefähr eine arbeitsreiche Woche für einen kleinen Agent-Piloten oder ein paar Stunden für einen hochvolumigen RAG-Dienst. Die reine-Input-Spalte modelliert ingestion-lastige Pipelines (Search, Rerank, Classify). Der 80/20-Mix passt zu Chat-Produkten. Die 90/10-Agent-Spalte gilt zum Stress-Testen, wenn Ihr Tool ganze Repositories liest, bevor es einen kurzen Patch schreibt. Steigt Ihr Token-Verbrauch schneller als die Nutzerzahl, ist diese Spalte der realistischere Anker.

Tabelle 4: Typische Kosten einer Agent-Aufgabe

Annahme: 100K Input + 10K Output, 80 % Input-Cache-Treffer. Tagesrechnung bei 500 Läufen.

Ein Agent-Lauf

500/Tag: DeepSeek $4 vs Sonnet $105

Modell	Input /M	Pro Aufgabe	500/Tag	vs DeepSeek
Flash-Ausführungsstufe
DeepSeek V4 Flash	~$0.10	$0.008	~$4	1×
Hy3 Preview	~$0.10	$0.009	~$5	1.1×
Gemini 2.5 Flash	~$0.15	$0.02	~$10	2.5×
Kimi K2	~$0.15	$0.018	~$9	2.3×
Frontier-Review-Stufe
Claude Sonnet 4.6	~$3.00	$0.21	~$105	26×
Claude Opus 4.7	~$15.00	$1.05	~$525	131×
GPT-4o	~$2.50	$0.18	~$90	23×

Tabelle 4: Realistischer Verbrauch für Claude Code / OpenHands-ähnliche Tools. Qualitätslücke ist viel kleiner als 26× — Sonnet sollte nicht Default in der Hauptschleife sein. Bei 500 Läufen pro Tag ist Sonnet allein auf dieser Workload-Form ein Posten von $3.000+/Monat; Flash bleibt im zweistelligen Bereich.

Die Zeile pro Aufgabe gehört ins Spreadsheet der Engineering-Leads: multiplizieren mit erwarteten täglichen Agent-Aufrufen, dann Puffer für Retries. Wenn Ihr Produkt bei jedem CI-Failure, jedem Support-Ticket und jedem Nacht-Job ein LLM triggert, skaliert Tabelle 4 linear — es gibt kein „Unlimited-Tier“ bei Raw-API-Preisen. Planen Sie deshalb lieber mit 500 Läufen pro Tag als Untergrenze, sobald Agent-Features produktiv gehen.

Empfehlungen nach Zielgruppe: wer du bist → welche Zeile

Routing-Empfehlungen

Primärmodell + Eskalationsmodell + monatliches Budgetband

Zielgruppe	Primär (80 % Tokens)	Eskalation (5–10 %)	Monatliches API-Budget
Solo-Dev · IDE-Vervollständigung	Cursor / Copilot-Abo	—	$20–40 Abo
Indie Full-Stack · leichter Agent	DeepSeek V4 Flash	Claude Sonnet (Review)	$20–80
CJK-Business · lange Agent-Ketten	Hy3 Preview	Kimi K2 / Sonnet	$50–200
Kleines Team · RAG-Produkt	DeepSeek Flash + Cache	Sonnet Pre-Merge-Review	$200–800
500+ Agent-Aufgaben/Tag	DeepSeek / Hy3 Dual-Route	Opus nur an kritischen Knoten	$120–600 (Flash-lastig)
Quellcode-sensibel · Datenresidenz	Mac mini Ollama 7B–14B	Flash-API nur für unkritische Daten	Hardware > API
Finanzen / Gesundheit · teure Fehler	Flash-Entwürfe + Retrieval	Opus / GPT-4o + Human Gate	Compliance-getrieben

Faustregel: Flash trägt Volumen; Frontier bewacht Tore. Default-Stack = DeepSeek / Hy3 + Claude Sonnet. Nutzungstrends: OpenRouter-Preisrealität.

Kurznotizen pro Zielgruppe

Solo-Dev / IDE: Abo-Tools bündeln Token-Kosten — Sie optimieren Zeit, nicht $/M. API-Preise erst neu prüfen, wenn die inkludierten Fast Requests nicht mehr reichen.
Indie-Agent: DeepSeek als Default plus Sonnet beim Merge ist die reibungsarmste Aufteilung; $20–80 budgetieren, bis Usage-Dashboards Gegenteiliges zeigen.
CJK lange Ketten: Hy3s Tool-Stabilität schlägt oft rohes $/M; Kimi dazu, wenn Dokumente stark mainland-chinesisch sind.
RAG-Produkt: System-Prompt und Doc-Präfixe cachen; Flash plus Sonnet-Review schlägt Single-Model-Sonnet um Größenordnungen. Messen Sie Cache-Hits monatlich — ohne Metriken raten Teams oft am falschen Modell.
500+ Aufgaben/Tag: Dual-Route DeepSeek/Hy3, bevor Opus in Frage kommt; Opus nur für human-gated Steps.
Datenresidenz: Lokales 7B–14B entfernt Per-Token-Billing für planbare Workloads; API für Bursts und 200B+-MoE-Fähigkeit.
Reguliert: Preis ist sekundär zu Audit-Trails — Bulk-Token-Volumen trotzdem über Flash, nicht Opus. Dokumentieren Sie Eskalationspfade und Human-Gates für Compliance-Reviews.

In einem Satz: Preis wählt Flash; Risiko wählt Sonnet/Opus. 100 Mio. Tokens ist der Maßstab; die Zielgruppentabelle ist die Antwort. Beides zusammen reicht für die meisten Budgetgespräche im Engineering.

Diese Seite neu besuchen, wenn Anbieter Flash-Preise wieder senken — Juni 2026 bewegte sich schneller als Frontier-Listen 2025. Exportieren Sie monatlich Ihre eigene Usage-Split; Tabellen altern gut, aber Ihr Input/Output-Verhältnis bewegt die Rechnung wirklich. Wer Agent-Loops mit festen Review-Gates baut, kann Sonnet gezielt budgetieren, statt es als versteckten Default in der IDE zu tragen.

ZavCloud

Erst klären, was lokale Inferenz abdeckt — dann API-Budget planen

Ollama auf Cloud Mac: Tages-Token-Obergrenze für 7B/14B finden, dann Flash-API-Budget festlegen.

Cloud-Mac-Tarife ansehen