En bref : 100 M tokens coûtent environ $10–14 en palier Flash, ~$540 sur Sonnet, ~$2 700 sur Opus — le tout en USD. Quatre tableaux ci-dessous reprennent les tarifs catalogue de juin 2026. Une ligne de synthèse sous chaque tableau ; recommandations par profil à la fin.
Pour dimensionner un budget Agent ou comparer les défauts Cursor à une stack API auto-hébergée, partez d’ici — pas des scores de benchmark. Tous les montants ci-dessous sont en dollars US par million de tokens ($/M), sauf mention contraire. Noms de modèles et paliers reflètent ce que les développeurs routent réellement sur OpenRouter mi-juin 2026 ; votre facture peut varier légèrement selon cache, routage ou remises entreprise.
Tableau 1 : palier Flash exécution — tarifs API juin 2026
OpenRouter et pages officielles. Unité : USD par million de tokens ($/M).
Par défaut pour les boucles Agent — long contexte et retries sans panique budget
| Modèle | Entrée /M | Sortie /M | Cache read /M | Contexte |
|---|---|---|---|---|
| DeepSeek V4 Flash #1 usage | $0.098 | $0.197 | ~$0.01 | 1M |
| Hy3 Preview | ~$0.10 | ~$0.20 | Oui | 256K+ |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Gemini 2.5 Flash | $0.15 | $0.60 | Oui | 1M |
| Kimi K2 | ~$0.15 | ~$0.50 | Oui | 128K |
| GPT-4o mini | $0.15 | $0.60 | Oui | 128K |
| Owl Alpha | ~$0.12 | ~$0.35 | — | 200K |
Tableau 1 : Ce palier absorbe ~80 % des tokens Agent. Le Top 10 hebdo OpenRouter est presque entièrement Flash ; DeepSeek + Hy3 dépassent 20T/semaine. Choisir d’abord la chaîne modèle par défaut ici. Quand le « cache read » tourne autour de $0,01/M, prompts système répétés et chunks RAG deviennent vite bon marché — d’où l’audace de lancer des lectures repo à 200K tokens en Flash plutôt qu’en Sonnet.
Les modèles Flash ne sont pas un « GPT dégradé » — ce sont des architectures MoE calibrées pour les boucles à gros volume. DeepSeek V4 Flash domine l’usage brut car il combine 1M de contexte et moins de $0,10/M en entrée. Hy3 et Kimi comptent quand votre pipeline est dense en CJK ou en tool calls. Gemini 2.5 Flash et GPT-4o mini sont les équivalents des grands éditeurs occidentaux, à environ 1,5–2× le tarif catalogue DeepSeek.
Tableau 2 : palier Frontier revue — tarifs API juin 2026
Escalade uniquement — revue pré-merge et décisions d'architecture, pas la boucle par défaut
| Modèle | Entrée /M | Sortie /M | Contexte | Tendance OpenRouter |
|---|---|---|---|---|
| Claude Sonnet 4.6 | ~$3.00 | ~$15.00 | 200K | Cheval de revue |
| Claude Opus 4.7 | ~$15.00 | ~$75.00 | 200K | Palier validation |
| GPT-4o | $2.50 | $10.00 | 128K | Sorti du Top 8 |
| Gemini 2.5 Pro | ~$1.25 | ~$10.00 | 1M | Multimodal long format |
| o3 / o4-mini (raisonnement) | $1.10–4.00 | $4.40–16.00 | 200K | Maths / preuves |
Tableau 2 : Qualité maximale, mais trop cher pour la boucle Agent principale. Claude Opus traite encore 7T+ tokens hebdo — en rôle de revue, pas en défaut. GPT-4o cède sa place dans les flux primaires au profit de Flash. Sonnet 4.6 est le palier raisonnable quand un diff exige un jugement fin ; Opus sert aux validations où une erreur coûte plus cher que la facture API.
Les tarifs Frontier expliquent pourquoi « prendre le meilleur modèle » a cessé d’être viable dès que les Agents ont commencé à brûler 50K–200K tokens par tâche. Une revue Sonnet isolée reste abordable ; en faire le défaut pour chaque lecture de fichier, non. Gemini 2.5 Pro et les modèles o-series comblent des niches — longs documents multimodaux ou preuves formelles —, pas la boucle de codage quotidienne.
Tableau 3 : comparaison des factures 100 M tokens
Repère courant : 100 M tokens. Trois mixes : entrée seule / chat 80·20 / Agent 90·10.
Même volume, écart jusqu'à 200× entre le moins cher et le plus cher
| Modèle | Entrée seule 100M | Mix 80/20 | Agent 90/10 | vs DeepSeek |
|---|---|---|---|---|
| Palier Flash exécution | ||||
| DeepSeek V4 Flash | ~$10 | ~$12 | ~$11 | 1× |
| Hy3 Preview | ~$10 | ~$13 | ~$11 | 1.1× |
| Gemini 2.5 Flash | ~$15 | ~$24 | ~$19 | 2× |
| Palier Frontier revue | ||||
| GPT-4o | ~$250 | ~$400 | ~$325 | 33× |
| Claude Sonnet 4.6 | ~$300 | ~$540 | ~$420 | 45× |
| Claude Opus 4.7 | ~$1,500 | ~$2,700 | ~$2,100 | 225× |
Tableau 3 : 1 Md tokens/mois → DeepSeek ~$120, Sonnet ~$5 400. Les charges Agent penchent vers l’entrée — pondérer la colonne 90/10. Un cache bien hité peut réduire de 50 %+ le coût réel en Flash. Utilisez ce tableau quand la finance demande « et si on multiplie le trafic par 10 ? » — le multiplicateur fait bien plus mal sur les lignes Frontier que Flash.
« 100 M tokens » est une unité mentale utile : à peu près une semaine chargée pour un petit pilote Agent, ou quelques heures pour un service RAG à fort volume. La colonne entrée seule modélise les pipelines d’ingestion (recherche, rerank, classification). Le mix 80/20 correspond aux produits chat. La colonne Agent 90/10 sert à stress-tester le cas où votre outil lit des dépôts entiers avant d’écrire un patch court.
Tableau 4 : coût typique d'une tâche Agent
Hypothèse : 100K entrée + 10K sortie, 80 % de hits cache entrée. Facture journalière à 500 exécutions.
500/jour : DeepSeek $4 vs Sonnet $105
| Modèle | Entrée /M | Par tâche | 500/jour | vs DeepSeek |
|---|---|---|---|---|
| Palier Flash exécution | ||||
| DeepSeek V4 Flash | ~$0.10 | $0.008 | ~$4 | 1× |
| Hy3 Preview | ~$0.10 | $0.009 | ~$5 | 1.1× |
| Gemini 2.5 Flash | ~$0.15 | $0.02 | ~$10 | 2.5× |
| Kimi K2 | ~$0.15 | $0.018 | ~$9 | 2.3× |
| Palier Frontier revue | ||||
| Claude Sonnet 4.6 | ~$3.00 | $0.21 | ~$105 | 26× |
| Claude Opus 4.7 | ~$15.00 | $1.05 | ~$525 | 131× |
| GPT-4o | ~$2.50 | $0.18 | ~$90 | 23× |
Tableau 4 : Consommation réaliste pour Claude Code / outils type OpenHands. L’écart de qualité est bien inférieur à 26× — Sonnet ne devrait pas être le défaut de la boucle principale. À 500 exécutions par jour, Sonnet seul représente un poste de $3 000+/mois sur cette forme de charge ; Flash reste à deux chiffres.
La ligne par tâche est celle que les leads engineering devraient coller dans un tableur : multiplier par les invocations Agent quotidiennes attendues, puis ajouter une marge pour les retries. Si votre produit déclenche un LLM à chaque échec CI, ticket support et job nocturne, le tableau 4 scale linéairement — il n’existe pas de palier « illimité » sur la tarification API brute.
Recommandations par profil : qui vous êtes → quelle ligne
Modèle principal + modèle d'escalade + fourchette budget mensuel
| Profil | Principal (80 % tokens) | Escalade (5–10 %) | Budget API mensuel |
|---|---|---|---|
| Dev solo · complétion IDE | Abonnement Cursor / Copilot | — | $20–40 abo |
| Indé full-stack · Agent léger | DeepSeek V4 Flash | Claude Sonnet (revue) | $20–80 |
| Business CJK · longues chaînes Agent | Hy3 Preview | Kimi K2 / Sonnet | $50–200 |
| Petite équipe · produit RAG | DeepSeek Flash + cache | Sonnet revue pré-merge | $200–800 |
| 500+ tâches Agent/jour | Route dual DeepSeek / Hy3 | Opus sur nœuds critiques uniquement | $120–600 (Flash majoritaire) |
| Code source sensible · résidence données | Mac mini Ollama 7B–14B | API Flash pour non sensible uniquement | Matériel > API |
| Finance / santé · échecs coûteux | Brouillons Flash + retrieval | Opus / GPT-4o + validation humaine | Piloté conformité |
Règle empirique : Flash porte le volume ; Frontier garde les portes. Stack par défaut = DeepSeek / Hy3 + Claude Sonnet. Tendances d'usage : réalité tarifaire OpenRouter.
Notes rapides par profil
- Dev solo / IDE : les abonnements regroupent le coût token — vous optimisez le temps, pas le $/M. Revisitez la tarification API seulement quand les requêtes rapides incluses ne suffisent plus.
- Agent indie : DeepSeek par défaut + Sonnet au merge est la répartition la plus fluide ; budget $20–80 jusqu’à preuve du contraire dans les dashboards d’usage.
- Chaînes CJK longues : la stabilité tool de Hy3 bat souvent le $/M brut ; ajoutez Kimi quand les documents sont surtout en chinois continental.
- Produit RAG : mettez en cache prompt système et préfixes doc ; Flash + revue Sonnet bat Sonnet seul d’un ordre de grandeur.
- 500+ tâches/jour : route dual DeepSeek/Hy3 avant d’envisager Opus ; Opus n’a sa place qu’aux étapes validées par un humain.
- Résidence des données : 7B–14B local supprime la facturation au token pour les charges prévisibles ; API pour les pics et la capacité MoE 200B+.
- Secteurs réglementés : le prix passe après les pistes d’audit — routez quand même le gros volume via Flash, pas Opus.
En une ligne : le prix choisit Flash ; le risque choisit Sonnet/Opus. 100 M tokens est le repère ; le tableau profils est la réponse.
Revenez sur cette page quand les éditeurs baisseront encore les prix Flash — juin 2026 a évolué plus vite que les grilles Frontier de 2025. Exportez mensuellement votre propre répartition d’usage ; les tableaux vieillissent bien, mais c’est votre ratio entrée/sortie qui bouge vraiment la facture.
ZavCloud
Savoir ce que couvre l'inférence locale avant de dimensionner l'API
Ollama sur Cloud Mac — trouver le plafond token journalier 7B/14B, puis fixer le budget API Flash.
Voir tarifs et offres Cloud Mac