Kurz gesagt: 100 Mio. Tokens kosten auf Flash-Stufe etwa $10–14, auf Sonnet ~$540, auf Opus ~$2.700 — alles in USD. Vier Tabellen unten listen die Listenpreise vom Juni 2026. Unter jeder Tabelle eine Zeile Fazit; am Ende Empfehlungen nach Zielgruppe.
Wer ein Agent-Budget plant oder Cursor-Defaults mit einem selbst gehosteten API-Stack vergleicht, sollte hier anfangen — nicht bei Benchmark-Scores. Alle Werte unten sind US-Dollar pro Million Tokens ($/M), sofern nicht anders angegeben. Modellnamen und Stufen entsprechen dem, was Entwickler Mitte Juni 2026 tatsächlich über OpenRouter routen; Ihre Rechnung kann durch Caching, Routing oder Enterprise-Rabatte leicht abweichen. Wer nur einen Anbieter direkt abrechnet, findet oft ähnliche Größenordnungen — der Unterschied liegt eher in I/O-Mix und Cache-Hit-Rate als im Modellnamen allein.
Tabelle 1: Flash-Ausführungsstufe — API-Preise Juni 2026
OpenRouter und offizielle Preisseiten. Einheit: USD pro Million Tokens ($/M).
Default für Agent-Hauptschleifen — langer Kontext und Retries ohne Budgetpanik
| Modell | Input /M | Output /M | Cache read /M | Kontext |
|---|---|---|---|---|
| DeepSeek V4 Flash #1 Nutzung | $0.098 | $0.197 | ~$0.01 | 1M |
| Hy3 Preview | ~$0.10 | ~$0.20 | Ja | 256K+ |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Gemini 2.5 Flash | $0.15 | $0.60 | Ja | 1M |
| Kimi K2 | ~$0.15 | ~$0.50 | Ja | 128K |
| GPT-4o mini | $0.15 | $0.60 | Ja | 128K |
| Owl Alpha | ~$0.12 | ~$0.35 | — | 200K |
Tabelle 1: Diese Stufe frisst ~80 % der Agent-Tokens. Die OpenRouter-Wochen-Top-10 besteht fast nur aus Flash; DeepSeek + Hy3 zusammen über 20T/Woche. Hier zuerst den Default-Modellstring wählen. Liegt „Cache read“ bei ~$0,01/M, werden wiederholte System-Prompts und RAG-Chunks schnell günstig — deshalb wagen Teams 200K-Token-Repo-Reads auf Flash statt auf Sonnet.
Flash-Modelle sind kein „schlechteres GPT“ — sie sind MoE-Architekturen für Hochvolumen-Schleifen. DeepSeek V4 Flash führt beim Rohvolumen, weil 1M Kontext auf sub-$0,10/M Input trifft. Hy3 und Kimi zählen, wenn Ihre Pipeline CJK-lastig oder tool-call-dicht ist. Gemini 2.5 Flash und GPT-4o mini sind die Western-Vendor-Äquivalente bei rund 1,5–2× DeepSeeks Listenpreis. Für Teams, die bereits Prompt-Caching nutzen, lohnt sich ein Blick auf die Cache-read-Spalte: dort liegt oft der größte Hebel, bevor man über Modellwechsel diskutiert.
Tabelle 2: Frontier-Review-Stufe — API-Preise Juni 2026
Nur eskalieren — Pre-Merge-Review und Architekturentscheidungen, nicht die Default-Schleife
| Modell | Input /M | Output /M | Kontext | OpenRouter-Trend |
|---|---|---|---|---|
| Claude Sonnet 4.6 | ~$3.00 | ~$15.00 | 200K | Review-Arbeitspferd |
| Claude Opus 4.7 | ~$15.00 | ~$75.00 | 200K | Freigabe-Stufe |
| GPT-4o | $2.50 | $10.00 | 128K | Aus Top 8 gefallen |
| Gemini 2.5 Pro | ~$1.25 | ~$10.00 | 1M | Multimodal Long-Form |
| o3 / o4-mini (Reasoning) | $1.10–4.00 | $4.40–16.00 | 200K | Mathe / Beweise |
Tabelle 2: Top-Qualität, aber zu teuer für die Agent-Hauptschleife. Claude Opus verarbeitet weiterhin 7T+ Wochen-Tokens — in einer Review-Rolle, nicht als Default. GPT-4o wird aus Primärflows zugunsten von Flash ausgetauscht. Sonnet 4.6 ist der sinnvolle „Step-up“, wenn ein Diff sorgfältiges Urteil braucht; Opus ist für Freigaben, wo ein Fehler mehr kostet als die API-Rechnung.
Frontier-Preise erklären, warum „einfach das beste Modell nehmen“ aufhörte, sobald Agents 50K–200K Tokens pro Aufgabe verbrannten. Ein einzelnes Sonnet-Review ist bezahlbar; Sonnet als Default für jeden Dateizugriff nicht. Gemini 2.5 Pro und o-Series-Reasoning-Modelle füllen Nischen — lange multimodale Docs oder formale Beweise —, nicht den täglichen Coding-Loop. In der Praxis reicht Sonnet oft für Merge-Reviews und Architektur-Entscheidungen; Opus bleibt für Fälle, in denen ein Fehler Compliance oder Umsatz trifft.
Tabelle 3: Vergleich der 100-Mio.-Token-Rechnungen
Gängiger Maßstab: 100 Mio. Tokens. Drei Mischungen: nur Input / 80·20 Chat / 90·10 Agent.
Gleiches Volumen, bis zu 200× Spanne günstigstes vs teuerstes
| Modell | Nur Input 100M | 80/20-Mix | 90/10 Agent | vs DeepSeek |
|---|---|---|---|---|
| Flash-Ausführungsstufe | ||||
| DeepSeek V4 Flash | ~$10 | ~$12 | ~$11 | 1× |
| Hy3 Preview | ~$10 | ~$13 | ~$11 | 1.1× |
| Gemini 2.5 Flash | ~$15 | ~$24 | ~$19 | 2× |
| Frontier-Review-Stufe | ||||
| GPT-4o | ~$250 | ~$400 | ~$325 | 33× |
| Claude Sonnet 4.6 | ~$300 | ~$540 | ~$420 | 45× |
| Claude Opus 4.7 | ~$1,500 | ~$2,700 | ~$2,100 | 225× |
Tabelle 3: 1 Mrd. Tokens/Monat → DeepSeek ~$120, Sonnet ~$5.400. Agent-Workloads sind input-lastig — die 90/10-Spalte gewichten. Hohe Cache-Trefferquoten können Flash-Istkosten um 50 %+ senken. Nutzen Sie diese Tabelle, wenn Finance fragt „was passiert bei 10× Traffic?“ — der Multiplikator trifft Frontier-Zeilen viel härter als Flash-Zeilen.
„100 Mio. Tokens“ ist eine hilfreiche Denkeinheit: ungefähr eine arbeitsreiche Woche für einen kleinen Agent-Piloten oder ein paar Stunden für einen hochvolumigen RAG-Dienst. Die reine-Input-Spalte modelliert ingestion-lastige Pipelines (Search, Rerank, Classify). Der 80/20-Mix passt zu Chat-Produkten. Die 90/10-Agent-Spalte gilt zum Stress-Testen, wenn Ihr Tool ganze Repositories liest, bevor es einen kurzen Patch schreibt. Steigt Ihr Token-Verbrauch schneller als die Nutzerzahl, ist diese Spalte der realistischere Anker.
Tabelle 4: Typische Kosten einer Agent-Aufgabe
Annahme: 100K Input + 10K Output, 80 % Input-Cache-Treffer. Tagesrechnung bei 500 Läufen.
500/Tag: DeepSeek $4 vs Sonnet $105
| Modell | Input /M | Pro Aufgabe | 500/Tag | vs DeepSeek |
|---|---|---|---|---|
| Flash-Ausführungsstufe | ||||
| DeepSeek V4 Flash | ~$0.10 | $0.008 | ~$4 | 1× |
| Hy3 Preview | ~$0.10 | $0.009 | ~$5 | 1.1× |
| Gemini 2.5 Flash | ~$0.15 | $0.02 | ~$10 | 2.5× |
| Kimi K2 | ~$0.15 | $0.018 | ~$9 | 2.3× |
| Frontier-Review-Stufe | ||||
| Claude Sonnet 4.6 | ~$3.00 | $0.21 | ~$105 | 26× |
| Claude Opus 4.7 | ~$15.00 | $1.05 | ~$525 | 131× |
| GPT-4o | ~$2.50 | $0.18 | ~$90 | 23× |
Tabelle 4: Realistischer Verbrauch für Claude Code / OpenHands-ähnliche Tools. Qualitätslücke ist viel kleiner als 26× — Sonnet sollte nicht Default in der Hauptschleife sein. Bei 500 Läufen pro Tag ist Sonnet allein auf dieser Workload-Form ein Posten von $3.000+/Monat; Flash bleibt im zweistelligen Bereich.
Die Zeile pro Aufgabe gehört ins Spreadsheet der Engineering-Leads: multiplizieren mit erwarteten täglichen Agent-Aufrufen, dann Puffer für Retries. Wenn Ihr Produkt bei jedem CI-Failure, jedem Support-Ticket und jedem Nacht-Job ein LLM triggert, skaliert Tabelle 4 linear — es gibt kein „Unlimited-Tier“ bei Raw-API-Preisen. Planen Sie deshalb lieber mit 500 Läufen pro Tag als Untergrenze, sobald Agent-Features produktiv gehen.
Empfehlungen nach Zielgruppe: wer du bist → welche Zeile
Primärmodell + Eskalationsmodell + monatliches Budgetband
| Zielgruppe | Primär (80 % Tokens) | Eskalation (5–10 %) | Monatliches API-Budget |
|---|---|---|---|
| Solo-Dev · IDE-Vervollständigung | Cursor / Copilot-Abo | — | $20–40 Abo |
| Indie Full-Stack · leichter Agent | DeepSeek V4 Flash | Claude Sonnet (Review) | $20–80 |
| CJK-Business · lange Agent-Ketten | Hy3 Preview | Kimi K2 / Sonnet | $50–200 |
| Kleines Team · RAG-Produkt | DeepSeek Flash + Cache | Sonnet Pre-Merge-Review | $200–800 |
| 500+ Agent-Aufgaben/Tag | DeepSeek / Hy3 Dual-Route | Opus nur an kritischen Knoten | $120–600 (Flash-lastig) |
| Quellcode-sensibel · Datenresidenz | Mac mini Ollama 7B–14B | Flash-API nur für unkritische Daten | Hardware > API |
| Finanzen / Gesundheit · teure Fehler | Flash-Entwürfe + Retrieval | Opus / GPT-4o + Human Gate | Compliance-getrieben |
Faustregel: Flash trägt Volumen; Frontier bewacht Tore. Default-Stack = DeepSeek / Hy3 + Claude Sonnet. Nutzungstrends: OpenRouter-Preisrealität.
Kurznotizen pro Zielgruppe
- Solo-Dev / IDE: Abo-Tools bündeln Token-Kosten — Sie optimieren Zeit, nicht $/M. API-Preise erst neu prüfen, wenn die inkludierten Fast Requests nicht mehr reichen.
- Indie-Agent: DeepSeek als Default plus Sonnet beim Merge ist die reibungsarmste Aufteilung; $20–80 budgetieren, bis Usage-Dashboards Gegenteiliges zeigen.
- CJK lange Ketten: Hy3s Tool-Stabilität schlägt oft rohes $/M; Kimi dazu, wenn Dokumente stark mainland-chinesisch sind.
- RAG-Produkt: System-Prompt und Doc-Präfixe cachen; Flash plus Sonnet-Review schlägt Single-Model-Sonnet um Größenordnungen. Messen Sie Cache-Hits monatlich — ohne Metriken raten Teams oft am falschen Modell.
- 500+ Aufgaben/Tag: Dual-Route DeepSeek/Hy3, bevor Opus in Frage kommt; Opus nur für human-gated Steps.
- Datenresidenz: Lokales 7B–14B entfernt Per-Token-Billing für planbare Workloads; API für Bursts und 200B+-MoE-Fähigkeit.
- Reguliert: Preis ist sekundär zu Audit-Trails — Bulk-Token-Volumen trotzdem über Flash, nicht Opus. Dokumentieren Sie Eskalationspfade und Human-Gates für Compliance-Reviews.
In einem Satz: Preis wählt Flash; Risiko wählt Sonnet/Opus. 100 Mio. Tokens ist der Maßstab; die Zielgruppentabelle ist die Antwort. Beides zusammen reicht für die meisten Budgetgespräche im Engineering.
Diese Seite neu besuchen, wenn Anbieter Flash-Preise wieder senken — Juni 2026 bewegte sich schneller als Frontier-Listen 2025. Exportieren Sie monatlich Ihre eigene Usage-Split; Tabellen altern gut, aber Ihr Input/Output-Verhältnis bewegt die Rechnung wirklich. Wer Agent-Loops mit festen Review-Gates baut, kann Sonnet gezielt budgetieren, statt es als versteckten Default in der IDE zu tragen.
ZavCloud
Erst klären, was lokale Inferenz abdeckt — dann API-Budget planen
Ollama auf Cloud Mac: Tages-Token-Obergrenze für 7B/14B finden, dann Flash-API-Budget festlegen.
Cloud-Mac-Tarife ansehen