Combien coûtent 100 millions de tokens sur les modèles les moins chers ?

En juin 2026, DeepSeek V4 Flash et modèles Flash similaires tournent autour de $12 pour un mix typique 80/20 entrée/sortie sur 100 M tokens ; entrée seule environ $10 USD.

Quel palier modèle par défaut en 2026 ?

Boucles Agent principales en Flash (DeepSeek V4 Flash / Hy3). Escalade vers Claude Sonnet avant merge. Opus réservé aux nœuds où une seule erreur coûte très cher.

Qu'est-ce qu'un token ? Combien coûtent 100 millions de tokens ? Comparatif complet des prix IA 2026

En bref : 100 M tokens coûtent environ $10–14 en palier Flash, ~$540 sur Sonnet, ~$2 700 sur Opus — le tout en USD. Quatre tableaux ci-dessous reprennent les tarifs catalogue de juin 2026. Une ligne de synthèse sous chaque tableau ; recommandations par profil à la fin.

Pour dimensionner un budget Agent ou comparer les défauts Cursor à une stack API auto-hébergée, partez d’ici — pas des scores de benchmark. Tous les montants ci-dessous sont en dollars US par million de tokens ($/M), sauf mention contraire. Noms de modèles et paliers reflètent ce que les développeurs routent réellement sur OpenRouter mi-juin 2026 ; votre facture peut varier légèrement selon cache, routage ou remises entreprise.

$0.10

Entrée Flash moy. /M

~$12

Plancher 100 M tokens

26×

Sonnet vs DeepSeek

Tableau 1 : palier Flash exécution — tarifs API juin 2026

OpenRouter et pages officielles. Unité : USD par million de tokens ($/M).

Palier Flash

Par défaut pour les boucles Agent — long contexte et retries sans panique budget

Modèle	Entrée /M	Sortie /M	Cache read /M	Contexte
DeepSeek V4 Flash #1 usage	$0.098	$0.197	~$0.01	1M
Hy3 Preview	~$0.10	~$0.20	Oui	256K+
MiMo-V2-Flash	$0.10	$0.30	$0.01	256K
Gemini 2.5 Flash	$0.15	$0.60	Oui	1M
Kimi K2	~$0.15	~$0.50	Oui	128K
GPT-4o mini	$0.15	$0.60	Oui	128K
Owl Alpha	~$0.12	~$0.35	—	200K

Tableau 1 : Ce palier absorbe ~80 % des tokens Agent. Le Top 10 hebdo OpenRouter est presque entièrement Flash ; DeepSeek + Hy3 dépassent 20T/semaine. Choisir d’abord la chaîne modèle par défaut ici. Quand le « cache read » tourne autour de $0,01/M, prompts système répétés et chunks RAG deviennent vite bon marché — d’où l’audace de lancer des lectures repo à 200K tokens en Flash plutôt qu’en Sonnet.

Les modèles Flash ne sont pas un « GPT dégradé » — ce sont des architectures MoE calibrées pour les boucles à gros volume. DeepSeek V4 Flash domine l’usage brut car il combine 1M de contexte et moins de $0,10/M en entrée. Hy3 et Kimi comptent quand votre pipeline est dense en CJK ou en tool calls. Gemini 2.5 Flash et GPT-4o mini sont les équivalents des grands éditeurs occidentaux, à environ 1,5–2× le tarif catalogue DeepSeek.

Tableau 2 : palier Frontier revue — tarifs API juin 2026

Palier Frontier

Escalade uniquement — revue pré-merge et décisions d'architecture, pas la boucle par défaut

Modèle	Entrée /M	Sortie /M	Contexte	Tendance OpenRouter
Claude Sonnet 4.6	~$3.00	~$15.00	200K	Cheval de revue
Claude Opus 4.7	~$15.00	~$75.00	200K	Palier validation
GPT-4o	$2.50	$10.00	128K	Sorti du Top 8
Gemini 2.5 Pro	~$1.25	~$10.00	1M	Multimodal long format
o3 / o4-mini (raisonnement)	$1.10–4.00	$4.40–16.00	200K	Maths / preuves

Tableau 2 : Qualité maximale, mais trop cher pour la boucle Agent principale. Claude Opus traite encore 7T+ tokens hebdo — en rôle de revue, pas en défaut. GPT-4o cède sa place dans les flux primaires au profit de Flash. Sonnet 4.6 est le palier raisonnable quand un diff exige un jugement fin ; Opus sert aux validations où une erreur coûte plus cher que la facture API.

Les tarifs Frontier expliquent pourquoi « prendre le meilleur modèle » a cessé d’être viable dès que les Agents ont commencé à brûler 50K–200K tokens par tâche. Une revue Sonnet isolée reste abordable ; en faire le défaut pour chaque lecture de fichier, non. Gemini 2.5 Pro et les modèles o-series comblent des niches — longs documents multimodaux ou preuves formelles —, pas la boucle de codage quotidienne.

Tableau 3 : comparaison des factures 100 M tokens

Repère courant : 100 M tokens. Trois mixes : entrée seule / chat 80·20 / Agent 90·10.

100 M tokens

Même volume, écart jusqu'à 200× entre le moins cher et le plus cher

Modèle	Entrée seule 100M	Mix 80/20	Agent 90/10	vs DeepSeek
Palier Flash exécution
DeepSeek V4 Flash	~$10	~$12	~$11	1×
Hy3 Preview	~$10	~$13	~$11	1.1×
Gemini 2.5 Flash	~$15	~$24	~$19	2×
Palier Frontier revue
GPT-4o	~$250	~$400	~$325	33×
Claude Sonnet 4.6	~$300	~$540	~$420	45×
Claude Opus 4.7	~$1,500	~$2,700	~$2,100	225×

Tableau 3 : 1 Md tokens/mois → DeepSeek ~$120, Sonnet ~$5 400. Les charges Agent penchent vers l’entrée — pondérer la colonne 90/10. Un cache bien hité peut réduire de 50 %+ le coût réel en Flash. Utilisez ce tableau quand la finance demande « et si on multiplie le trafic par 10 ? » — le multiplicateur fait bien plus mal sur les lignes Frontier que Flash.

« 100 M tokens » est une unité mentale utile : à peu près une semaine chargée pour un petit pilote Agent, ou quelques heures pour un service RAG à fort volume. La colonne entrée seule modélise les pipelines d’ingestion (recherche, rerank, classification). Le mix 80/20 correspond aux produits chat. La colonne Agent 90/10 sert à stress-tester le cas où votre outil lit des dépôts entiers avant d’écrire un patch court.

Tableau 4 : coût typique d'une tâche Agent

Hypothèse : 100K entrée + 10K sortie, 80 % de hits cache entrée. Facture journalière à 500 exécutions.

Un run Agent

500/jour : DeepSeek $4 vs Sonnet $105

Modèle	Entrée /M	Par tâche	500/jour	vs DeepSeek
Palier Flash exécution
DeepSeek V4 Flash	~$0.10	$0.008	~$4	1×
Hy3 Preview	~$0.10	$0.009	~$5	1.1×
Gemini 2.5 Flash	~$0.15	$0.02	~$10	2.5×
Kimi K2	~$0.15	$0.018	~$9	2.3×
Palier Frontier revue
Claude Sonnet 4.6	~$3.00	$0.21	~$105	26×
Claude Opus 4.7	~$15.00	$1.05	~$525	131×
GPT-4o	~$2.50	$0.18	~$90	23×

Tableau 4 : Consommation réaliste pour Claude Code / outils type OpenHands. L’écart de qualité est bien inférieur à 26× — Sonnet ne devrait pas être le défaut de la boucle principale. À 500 exécutions par jour, Sonnet seul représente un poste de $3 000+/mois sur cette forme de charge ; Flash reste à deux chiffres.

La ligne par tâche est celle que les leads engineering devraient coller dans un tableur : multiplier par les invocations Agent quotidiennes attendues, puis ajouter une marge pour les retries. Si votre produit déclenche un LLM à chaque échec CI, ticket support et job nocturne, le tableau 4 scale linéairement — il n’existe pas de palier « illimité » sur la tarification API brute.

Recommandations par profil : qui vous êtes → quelle ligne

Choix de routage

Modèle principal + modèle d'escalade + fourchette budget mensuel

Profil	Principal (80 % tokens)	Escalade (5–10 %)	Budget API mensuel
Dev solo · complétion IDE	Abonnement Cursor / Copilot	—	$20–40 abo
Indé full-stack · Agent léger	DeepSeek V4 Flash	Claude Sonnet (revue)	$20–80
Business CJK · longues chaînes Agent	Hy3 Preview	Kimi K2 / Sonnet	$50–200
Petite équipe · produit RAG	DeepSeek Flash + cache	Sonnet revue pré-merge	$200–800
500+ tâches Agent/jour	Route dual DeepSeek / Hy3	Opus sur nœuds critiques uniquement	$120–600 (Flash majoritaire)
Code source sensible · résidence données	Mac mini Ollama 7B–14B	API Flash pour non sensible uniquement	Matériel > API
Finance / santé · échecs coûteux	Brouillons Flash + retrieval	Opus / GPT-4o + validation humaine	Piloté conformité

Règle empirique : Flash porte le volume ; Frontier garde les portes. Stack par défaut = DeepSeek / Hy3 + Claude Sonnet. Tendances d'usage : réalité tarifaire OpenRouter.

Notes rapides par profil

Dev solo / IDE : les abonnements regroupent le coût token — vous optimisez le temps, pas le $/M. Revisitez la tarification API seulement quand les requêtes rapides incluses ne suffisent plus.
Agent indie : DeepSeek par défaut + Sonnet au merge est la répartition la plus fluide ; budget $20–80 jusqu’à preuve du contraire dans les dashboards d’usage.
Chaînes CJK longues : la stabilité tool de Hy3 bat souvent le $/M brut ; ajoutez Kimi quand les documents sont surtout en chinois continental.
Produit RAG : mettez en cache prompt système et préfixes doc ; Flash + revue Sonnet bat Sonnet seul d’un ordre de grandeur.
500+ tâches/jour : route dual DeepSeek/Hy3 avant d’envisager Opus ; Opus n’a sa place qu’aux étapes validées par un humain.
Résidence des données : 7B–14B local supprime la facturation au token pour les charges prévisibles ; API pour les pics et la capacité MoE 200B+.
Secteurs réglementés : le prix passe après les pistes d’audit — routez quand même le gros volume via Flash, pas Opus.

En une ligne : le prix choisit Flash ; le risque choisit Sonnet/Opus. 100 M tokens est le repère ; le tableau profils est la réponse.

Revenez sur cette page quand les éditeurs baisseront encore les prix Flash — juin 2026 a évolué plus vite que les grilles Frontier de 2025. Exportez mensuellement votre propre répartition d’usage ; les tableaux vieillissent bien, mais c’est votre ratio entrée/sortie qui bouge vraiment la facture.

ZavCloud

Savoir ce que couvre l'inférence locale avant de dimensionner l'API

Ollama sur Cloud Mac — trouver le plafond token journalier 7B/14B, puis fixer le budget API Flash.

Voir tarifs et offres Cloud Mac