Qu'est-ce qu'un token ? Combien coûtent 100 millions de tokens ? Comparatif complet des prix IA 2026

AI Notes  ·   ·  ~6 min de lecture

Unités de facturation token IA et comparatif des prix API LLM

En bref : 100 M tokens coûtent environ $10–14 en palier Flash, ~$540 sur Sonnet, ~$2 700 sur Opus — le tout en USD. Quatre tableaux ci-dessous reprennent les tarifs catalogue de juin 2026. Une ligne de synthèse sous chaque tableau ; recommandations par profil à la fin.

Pour dimensionner un budget Agent ou comparer les défauts Cursor à une stack API auto-hébergée, partez d’ici — pas des scores de benchmark. Tous les montants ci-dessous sont en dollars US par million de tokens ($/M), sauf mention contraire. Noms de modèles et paliers reflètent ce que les développeurs routent réellement sur OpenRouter mi-juin 2026 ; votre facture peut varier légèrement selon cache, routage ou remises entreprise.

$0.10
Entrée Flash moy. /M
~$12
Plancher 100 M tokens
26×
Sonnet vs DeepSeek

Tableau 1 : palier Flash exécution — tarifs API juin 2026

OpenRouter et pages officielles. Unité : USD par million de tokens ($/M).

Palier Flash

Par défaut pour les boucles Agent — long contexte et retries sans panique budget

Modèle Entrée /M Sortie /M Cache read /M Contexte
DeepSeek V4 Flash #1 usage $0.098 $0.197 ~$0.01 1M
Hy3 Preview ~$0.10 ~$0.20 Oui 256K+
MiMo-V2-Flash $0.10 $0.30 $0.01 256K
Gemini 2.5 Flash $0.15 $0.60 Oui 1M
Kimi K2 ~$0.15 ~$0.50 Oui 128K
GPT-4o mini $0.15 $0.60 Oui 128K
Owl Alpha ~$0.12 ~$0.35 200K

Tableau 1 : Ce palier absorbe ~80 % des tokens Agent. Le Top 10 hebdo OpenRouter est presque entièrement Flash ; DeepSeek + Hy3 dépassent 20T/semaine. Choisir d’abord la chaîne modèle par défaut ici. Quand le « cache read » tourne autour de $0,01/M, prompts système répétés et chunks RAG deviennent vite bon marché — d’où l’audace de lancer des lectures repo à 200K tokens en Flash plutôt qu’en Sonnet.

Les modèles Flash ne sont pas un « GPT dégradé » — ce sont des architectures MoE calibrées pour les boucles à gros volume. DeepSeek V4 Flash domine l’usage brut car il combine 1M de contexte et moins de $0,10/M en entrée. Hy3 et Kimi comptent quand votre pipeline est dense en CJK ou en tool calls. Gemini 2.5 Flash et GPT-4o mini sont les équivalents des grands éditeurs occidentaux, à environ 1,5–2× le tarif catalogue DeepSeek.

Tableau 2 : palier Frontier revue — tarifs API juin 2026

Palier Frontier

Escalade uniquement — revue pré-merge et décisions d'architecture, pas la boucle par défaut

Modèle Entrée /M Sortie /M Contexte Tendance OpenRouter
Claude Sonnet 4.6 ~$3.00 ~$15.00 200K Cheval de revue
Claude Opus 4.7 ~$15.00 ~$75.00 200K Palier validation
GPT-4o $2.50 $10.00 128K Sorti du Top 8
Gemini 2.5 Pro ~$1.25 ~$10.00 1M Multimodal long format
o3 / o4-mini (raisonnement) $1.10–4.00 $4.40–16.00 200K Maths / preuves

Tableau 2 : Qualité maximale, mais trop cher pour la boucle Agent principale. Claude Opus traite encore 7T+ tokens hebdo — en rôle de revue, pas en défaut. GPT-4o cède sa place dans les flux primaires au profit de Flash. Sonnet 4.6 est le palier raisonnable quand un diff exige un jugement fin ; Opus sert aux validations où une erreur coûte plus cher que la facture API.

Les tarifs Frontier expliquent pourquoi « prendre le meilleur modèle » a cessé d’être viable dès que les Agents ont commencé à brûler 50K–200K tokens par tâche. Une revue Sonnet isolée reste abordable ; en faire le défaut pour chaque lecture de fichier, non. Gemini 2.5 Pro et les modèles o-series comblent des niches — longs documents multimodaux ou preuves formelles —, pas la boucle de codage quotidienne.

Tableau 3 : comparaison des factures 100 M tokens

Repère courant : 100 M tokens. Trois mixes : entrée seule / chat 80·20 / Agent 90·10.

100 M tokens

Même volume, écart jusqu'à 200× entre le moins cher et le plus cher

Modèle Entrée seule 100M Mix 80/20 Agent 90/10 vs DeepSeek
Palier Flash exécution
DeepSeek V4 Flash ~$10 ~$12 ~$11
Hy3 Preview ~$10 ~$13 ~$11 1.1×
Gemini 2.5 Flash ~$15 ~$24 ~$19
Palier Frontier revue
GPT-4o ~$250 ~$400 ~$325 33×
Claude Sonnet 4.6 ~$300 ~$540 ~$420 45×
Claude Opus 4.7 ~$1,500 ~$2,700 ~$2,100 225×

Tableau 3 : 1 Md tokens/mois → DeepSeek ~$120, Sonnet ~$5 400. Les charges Agent penchent vers l’entrée — pondérer la colonne 90/10. Un cache bien hité peut réduire de 50 %+ le coût réel en Flash. Utilisez ce tableau quand la finance demande « et si on multiplie le trafic par 10 ? » — le multiplicateur fait bien plus mal sur les lignes Frontier que Flash.

« 100 M tokens » est une unité mentale utile : à peu près une semaine chargée pour un petit pilote Agent, ou quelques heures pour un service RAG à fort volume. La colonne entrée seule modélise les pipelines d’ingestion (recherche, rerank, classification). Le mix 80/20 correspond aux produits chat. La colonne Agent 90/10 sert à stress-tester le cas où votre outil lit des dépôts entiers avant d’écrire un patch court.

Tableau 4 : coût typique d'une tâche Agent

Hypothèse : 100K entrée + 10K sortie, 80 % de hits cache entrée. Facture journalière à 500 exécutions.

Un run Agent

500/jour : DeepSeek $4 vs Sonnet $105

Modèle Entrée /M Par tâche 500/jour vs DeepSeek
Palier Flash exécution
DeepSeek V4 Flash ~$0.10 $0.008 ~$4
Hy3 Preview ~$0.10 $0.009 ~$5 1.1×
Gemini 2.5 Flash ~$0.15 $0.02 ~$10 2.5×
Kimi K2 ~$0.15 $0.018 ~$9 2.3×
Palier Frontier revue
Claude Sonnet 4.6 ~$3.00 $0.21 ~$105 26×
Claude Opus 4.7 ~$15.00 $1.05 ~$525 131×
GPT-4o ~$2.50 $0.18 ~$90 23×

Tableau 4 : Consommation réaliste pour Claude Code / outils type OpenHands. L’écart de qualité est bien inférieur à 26× — Sonnet ne devrait pas être le défaut de la boucle principale. À 500 exécutions par jour, Sonnet seul représente un poste de $3 000+/mois sur cette forme de charge ; Flash reste à deux chiffres.

La ligne par tâche est celle que les leads engineering devraient coller dans un tableur : multiplier par les invocations Agent quotidiennes attendues, puis ajouter une marge pour les retries. Si votre produit déclenche un LLM à chaque échec CI, ticket support et job nocturne, le tableau 4 scale linéairement — il n’existe pas de palier « illimité » sur la tarification API brute.

Recommandations par profil : qui vous êtes → quelle ligne

Choix de routage

Modèle principal + modèle d'escalade + fourchette budget mensuel

Profil Principal (80 % tokens) Escalade (5–10 %) Budget API mensuel
Dev solo · complétion IDE Abonnement Cursor / Copilot $20–40 abo
Indé full-stack · Agent léger DeepSeek V4 Flash Claude Sonnet (revue) $20–80
Business CJK · longues chaînes Agent Hy3 Preview Kimi K2 / Sonnet $50–200
Petite équipe · produit RAG DeepSeek Flash + cache Sonnet revue pré-merge $200–800
500+ tâches Agent/jour Route dual DeepSeek / Hy3 Opus sur nœuds critiques uniquement $120–600 (Flash majoritaire)
Code source sensible · résidence données Mac mini Ollama 7B–14B API Flash pour non sensible uniquement Matériel > API
Finance / santé · échecs coûteux Brouillons Flash + retrieval Opus / GPT-4o + validation humaine Piloté conformité

Règle empirique : Flash porte le volume ; Frontier garde les portes. Stack par défaut = DeepSeek / Hy3 + Claude Sonnet. Tendances d'usage : réalité tarifaire OpenRouter.

Notes rapides par profil

  • Dev solo / IDE : les abonnements regroupent le coût token — vous optimisez le temps, pas le $/M. Revisitez la tarification API seulement quand les requêtes rapides incluses ne suffisent plus.
  • Agent indie : DeepSeek par défaut + Sonnet au merge est la répartition la plus fluide ; budget $20–80 jusqu’à preuve du contraire dans les dashboards d’usage.
  • Chaînes CJK longues : la stabilité tool de Hy3 bat souvent le $/M brut ; ajoutez Kimi quand les documents sont surtout en chinois continental.
  • Produit RAG : mettez en cache prompt système et préfixes doc ; Flash + revue Sonnet bat Sonnet seul d’un ordre de grandeur.
  • 500+ tâches/jour : route dual DeepSeek/Hy3 avant d’envisager Opus ; Opus n’a sa place qu’aux étapes validées par un humain.
  • Résidence des données : 7B–14B local supprime la facturation au token pour les charges prévisibles ; API pour les pics et la capacité MoE 200B+.
  • Secteurs réglementés : le prix passe après les pistes d’audit — routez quand même le gros volume via Flash, pas Opus.

En une ligne : le prix choisit Flash ; le risque choisit Sonnet/Opus. 100 M tokens est le repère ; le tableau profils est la réponse.

Revenez sur cette page quand les éditeurs baisseront encore les prix Flash — juin 2026 a évolué plus vite que les grilles Frontier de 2025. Exportez mensuellement votre propre répartition d’usage ; les tableaux vieillissent bien, mais c’est votre ratio entrée/sortie qui bouge vraiment la facture.

ZavCloud

Savoir ce que couvre l'inférence locale avant de dimensionner l'API

Ollama sur Cloud Mac — trouver le plafond token journalier 7B/14B, puis fixer le budget API Flash.

Voir tarifs et offres Cloud Mac
Cloud MacLouer Mac mini en ligne