Si vous choisissez encore vos modèles via MMLU et les classements GPT-Score, vous payez probablement pour le mauvais critère.
Le snapshot OpenRouter sur sept jours livre une vérité inconfortable : les gagnants de l'IA ne sont pas les modèles les plus intelligents, mais les moins chers que les développeurs osent appeler à grande échelle. Début juin 2026, le volume hebdomadaire atteint 28,9 billions de tokens (+7,4 % sem./sem.). DeepSeek V4 Flash seul consomme 3,43 billions. Le haut du classement est saturé de MoE autour de 0,10 $/M en entrée—pas GPT-4o, pas Claude Opus, pas le « meilleur modèle » de votre tableur d'évals.
Ci-dessous : la faille de coût derrière ce chiffre, la scission en trois marchés déjà visible dans le routage, et où se placer entre agrégation API et inférence Ollama locale. Tout le technique est là—mais la ligne est nette : l'IA passe de la course aux capacités à la course aux coûts ; là, le moins cher + assez bon = vainqueur par défaut.
28,9 billions de tokens : un chiffre qui réécrit l'industrie
OpenRouter est la couche d'agrégation où les devs routent vraiment leurs appels—ce qui s'y consomme est plus proche du vrai champ de bataille que tout benchmark statique. Première semaine de juin 2026 :
- Tokens hebdo plateforme : 28,9T, cinquième semaine de croissance, +7,4 % s/s
- Modèles chinois : 9,2T—près du double des modèles US à 4,9T
- DeepSeek V4 Flash : modèle #1, 3,43T/semaine, pics quotidiens > 800B
- Tencent Hy3 preview : #2 mondial en quelques semaines
- xAI : volume absolu −73 %—seul grand nom occidental en recul en tête
Le haut du classement est presque entièrement des MoE bon marché. Pas GPT-4o. Pas Claude Opus. Pas le « modèle le plus fort » de votre feuille d'éval.
Anthropic est l'un des rares labs occidentaux à gagner des parts—le volume absolu reste pourtant loin derrière DeepSeek. Ce n'est pas une victoire marketing : c'est un vote du portefeuille.
Source des données
Chiffres des graphiques publics OpenRouter et analyses community provider ranking (début juin 2026). OpenRouter route par provider ; votre facture fait foi.
Contre-intuitif : les modèles les plus chers sont relégués
La pensée « benchmark only » donne l'intuition fausse : modèle plus intelligent → plus d'usage.
La réalité inverse :
- Claude / GPT : qualité excellente, coût unitaire punitif—chaque appel brûle le budget
- DeepSeek / Hy3 / MiMo : assez bon à coût extrême—les équipes retentent sans trembler
Résumé impoli : ce n'est pas qui est le plus fort, c'est qui peut être appelé sans peur.
La compétition modèle était « qui est plus malin ». Aujourd'hui : « qui survit à un million de boucles d'outils ». 28,9T tokens en sont la preuve dure. Le trafic ne ment pas ; la facture mensuelle non plus.
Trois raisons pour lesquelles les modèles cheap dominent (pas un hasard)
① Les Agents ont fait exploser la consommation—l'écart de prix devient existentiel
Un agent n'est plus une question, une réponse. Il lit le code, patch, teste, corrige, boucle. Une tâche passe de 2K à 50K–200K tokens. Multipliez les appels par 50 et l'écart entre « 0,015 $ par appel » et « 0,0001 $ » cesse d'être de l'optimisation—c'est une faille structurelle.
Quand Claude Code ou OpenHands est l'infrastructure quotidienne, envoyer retry et brouillons via Sonnet n'est pas viser la qualité—c'est jeter de l'argent. Les devs ne sont pas devenus avares ; les Agents posent le multiplicateur sur le bureau de la finance.
② Le MoE rend « cheap + assez fort » réel
DeepSeek V4 Flash : 284B paramètres totaux, ~13B activés par forward. MiMo-V2-Flash : 309B total, 15B activés. Le coût d'inférence suit les paramètres activés, pas le marketing—vous n'avez pas besoin du plus gros modèle, mais de l'activation la plus efficace.
MiMo-V2-Flash mène SWE-bench Verified en open source, proche de Claude Sonnet 4.5, pour ~3,5 % de la facture API. Pas du « ça suffit pour la démo »—capacité quasi-frontier à prix en falaise.
③ Long contexte + cache : nouvelle effondrement des coûts
DeepSeek V4 Flash : contexte 1M ; certains providers > 90 % de hit cache prompt, coût moyen entrée ~0,044 $/M vs listé ~0,098 $/M. Le même system prompt au second appel est quasi gratuit.
En RAG les blocs se répètent—l'entrée cachée se facture à peine. Ouvrir un long contexte n'est plus tabou budget. Cela casse le modèle mental linéaire par token : relire n'est plus une punition, c'est un levier.
Le vrai pricing OpenRouter n'est pas l'étiquette
La plupart des équipes supposent prix affiché = coût réel. Trois couches—la plupart s'arrêtent à la première :
- Prix listé : 0,1 $ / 3 $ / 10 $ entrée/sortie sur la fiche modèle
- Mix routing provider : OpenRouter choisit backends par latence, dispo, prix—moyenne pondérée plus basse possible
- Réduction cache : préfixes répétés au tarif cache-read (MiMo-V2-Flash cache read 0,01 $/M—~un dixième de l'entrée)
| Modèle | Entrée listée /M | Sortie listée /M | Cache read /M | Contexte |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~0,098 $ | ~0,197 $ | jusqu'à ~94 % hit selon provider | 1M |
| MiMo-V2-Flash | 0,10 $ | 0,30 $ | 0,01 $ | 256K |
| Claude Sonnet 4.5 (réf.) | ~3,00 $ | ~15,00 $ | oui | 200K |
| GPT-4o (réf.) | ~2,50 $ | ~10,00 $ | oui | 128K |
Comparaison extrême—une tâche Agent (100K entrée + 10K sortie, 80 % entrée en cache) :
- DeepSeek V4 Flash : ≈ 0,008 $
- Claude Sonnet 4.5 : ≈ 0,21 $
26× d'écart. 500 runs Agent/jour ≈ 4 $ vs 105 $. Pas de marge d'optimisation—faille structurelle. 28,9T tokens vers le cheap n'est pas la chance ; c'est l'arithmétique.
Ce en quoi le marché se scinde vraiment : trois niveaux
L'IA n'est plus un marché plat « prenez le plus fort ». L'usage OpenRouter dessine trois couches :
| Niveau | Rôle | Modèles typiques | Tendance part tokens |
|---|---|---|---|
| Couche Flash exécution | Modèle défaut ~80 % des tokens | DeepSeek V4 Flash, Hy3, MiMo | ↑ expansion |
| Couche jugement intermédiaire | Sécuriser étapes critiques | Gemini Flash, Claude Sonnet | → stable, pas flux principal |
| Tier luxe frontier | Plus de flux principal—review seulement | GPT-4o, Claude Opus | ↓ marginalisé |
La couche Flash : cheap + assez malin + appelable sans culpabilité. Le tier frontier devient du luxe—qualité top, inabordable comme boucle Agent principale. Le milieu attrape les nœuds où quelqu'un murmure « ici il faut plus de prudence ».
Les limites restent
Les modèles cheap ne sont pas universels. Clés, conformité, preuves, scénarios où une erreur est catastrophique (trading, diagnostic) exigent frontier ou revue humaine. Trois niveaux = allocation trafic par défaut—pas « frontier est mort ».
Réalité ingénierie : le moins cher devient modèle par défaut
À l'ère Agent, une équation souvent oubliée :
Modèle défaut = modèle trafic = modèle marché. Pas le plus fort.
Le premier model string dans defaults SDK, presets framework et onboarding est la porte du trafic. Quand DeepSeek V4 Flash coûte ~1/30 de Sonnet en entrée alors que l'écart SWE-bench est bien sous 30×, le défaut glisse vers le cheap sans memo. Portefeuille et inertie décident pour vous.
3,43T sur 28,9T sur un seul Flash n'est pas « chacun son cheval »—c'est le signal qu'un défaut peut tout gouverner.
Stratégie de routage : trois niveaux intelligemment
Contrôler les coûts ce n'est pas « toujours le moins cher »—c'est router par risque de tâche : Flash ~80 % tokens, frontier garde ~20 % des portes critiques :
# Couche Flash exécution : ~80 % tokens cheap_model = "deepseek/deepseek-v4-flash" frontier_model = "anthropic/claude-sonnet-4.5" # Fallback si qualité insuffisante—pas frontier par défaut response = openrouter.chat(model=cheap_model, messages=msgs) if quality_check(response) == FAIL: response = openrouter.chat(model=frontier_model, messages=msgs) # System prompt stabilisé → maximiser cache messages = [system_prompt, *cached_context, user_query]
OpenRouter supporte model fallbacks et provider routing. Pour workflows Agent pilotés MCP : « lire repo, chercher, brouillon patch » → DeepSeek V4 Flash ; « review diff avant merge » → Sonnet. Masse tokens devant, porte qualité derrière—pas abandonner frontier, le sortir du flux principal.
API cheap ≠ envoyer les données n'importe où
OpenRouter distribue sur plusieurs providers ; requêtes via nœuds US ou tiers pays. Code source et PII sous contraintes compliance → inférence locale ou Cloud Mac dédié—l'avantage coût n'efface pas le risque réglementaire.
Inférence locale vs API : la troisième voie gagne encore
28,9T ne signifie pas « tout le monde à l'API ». Le local garde des atouts structurels :
- Volume journalier prévisible : 50K–500K tokens/jour 7B/14B sur Mac mini M4 24GB—coût marginal Ollama → 0 (mesuré ~34–37 tok/s en 7B)
- Résidence des données : source, PII, santé/finance ne passent pas OpenRouter
- Latence : complétion inline IDE sans RTT réseau
- Découpage CI : Cloud Mac
xcodebuildle jour, inférence batch la nuit
Besoin de MoE 200B+, pics burst ou essais modèles sans ferme GPU : OpenRouter ~0,10 $/M est presque imbattable—sauf cluster H100 déjà en place.
Stack hybride 2026
Ollama local (7B–14B) + couche Flash OpenRouter (longues chaînes Agent) + tier Frontier (review finale). Cloud Mac = couche validation—avant d'acheter le métal, relancer les mêmes scripts benchmark swap/tok/s ; voir quels workloads n'avaient jamais besoin d'API.
Conclusion : ce que disent 28,9T tokens
28,9T n'est ni un trophée marketing DeepSeek, ni un récit nationaliste, ni un certificat de décès des labs frontier.
Cela dit : l'IA entre en phase compétition de coûts. Là, le moins cher + assez bon = vainqueur par défaut. Les benchmarks mesurent les plafonds ; le trafic token mesure les choix réels—et le choix est fait.
Si votre Agent utilise encore par défaut le modèle le plus fort, vous payez peut-être 10× le coût pour un choix qui bouge à peine les résultats.
Ce n'est pas l'ordre de jeter Claude ou GPT demain—c'est vous pousser à demander : qui a écrit votre model string par défaut—hype benchmark ou math de facture ? À l'ère Agent, la seconde question est survie.
FAQ
Q : Quel modèle domine l'usage OpenRouter ?
R : DeepSeek V4 Flash—3,43T/semaine sur un modèle, entrée ~0,10 $/M. Tencent Hy3 preview second.
Q : Pourquoi plus de tokens chinois qu'américains ?
R : Prix agressifs + MoE mûr + option self-host, amplifié par l'ère Agent « appeler librement ». Pas domination qualité universelle—domination structure de coûts.
Q : Modèles cheap en production ?
R : Oui si variance tolérable, auto-retry, fallback frontier. Non si une erreur est catastrophique.
Q : Comment suivre la dépense réelle ?
R : Dashboard OpenRouter par modèle/jour ; middleware app loggant modèle + tokens—or les boucles Agent « surprendront » la finance en fin de mois.
ZavCloud
Mesurez ce que le local couvre avant de budgétiser l'API
Benchmarks Ollama 7B/14B tok/s et plafonds swap—les workloads que le local tient déjà ne devraient pas payer 26× de premium OpenRouter.
Offres Cloud Mac