Pourquoi les modèles cheap représentent-ils autant de tokens ?

Boucles Agent, reranking RAG et résumés batch tolèrent la variance qualité mais consomment des tokens massifs ; les modèles cheap permettent long contexte et retries sans prix Sonnet à chaque appel.

OpenRouter coûte-t-il moins que le prix affiché ?

Souvent oui. DeepSeek V4 Flash peut descendre vers ~0,04 $/M en moyenne quand le cache prompt atteint 50–94 % sur system prompts et contexte RAG répétés.

Quand API vs Ollama local ?

OpenRouter pour faible sensibilité privacy, pics burst et MoE 200B+ ; Ollama local Mac mini pour résidence données, workflows 7B–14B stables et volume journalier prévisible.

La vérité sur les prix OpenRouter : pourquoi les modèles les moins chers « dominent » 28,9 billions de tokens

Q: Quel modèle domine l'usage OpenRouter ?

En juin 2026, DeepSeek V4 Flash mène ; Tencent Hy3 preview est second. Tous deux sont des MoE bon marché autour de 0,10 $/M en entrée.

Si vous choisissez encore vos modèles via MMLU et les classements GPT-Score, vous payez probablement pour le mauvais critère.

Le snapshot OpenRouter sur sept jours livre une vérité inconfortable : les gagnants de l'IA ne sont pas les modèles les plus intelligents, mais les moins chers que les développeurs osent appeler à grande échelle. Début juin 2026, le volume hebdomadaire atteint 28,9 billions de tokens (+7,4 % sem./sem.). DeepSeek V4 Flash seul consomme 3,43 billions. Le haut du classement est saturé de MoE autour de 0,10 $/M en entrée—pas GPT-4o, pas Claude Opus, pas le « meilleur modèle » de votre tableur d'évals.

Ci-dessous : la faille de coût derrière ce chiffre, la scission en trois marchés déjà visible dans le routage, et où se placer entre agrégation API et inférence Ollama locale. Tout le technique est là—mais la ligne est nette : l'IA passe de la course aux capacités à la course aux coûts ; là, le moins cher + assez bon = vainqueur par défaut.

28,9T

Tokens hebdo OpenRouter

3,43T

DeepSeek V4 Flash seul

26×

Flash vs Sonnet par tâche Agent

28,9 billions de tokens : un chiffre qui réécrit l'industrie

OpenRouter est la couche d'agrégation où les devs routent vraiment leurs appels—ce qui s'y consomme est plus proche du vrai champ de bataille que tout benchmark statique. Première semaine de juin 2026 :

Tokens hebdo plateforme : 28,9T, cinquième semaine de croissance, +7,4 % s/s
Modèles chinois : 9,2T—près du double des modèles US à 4,9T
DeepSeek V4 Flash : modèle #1, 3,43T/semaine, pics quotidiens > 800B
Tencent Hy3 preview : #2 mondial en quelques semaines
xAI : volume absolu −73 %—seul grand nom occidental en recul en tête

Le haut du classement est presque entièrement des MoE bon marché. Pas GPT-4o. Pas Claude Opus. Pas le « modèle le plus fort » de votre feuille d'éval.

Anthropic est l'un des rares labs occidentaux à gagner des parts—le volume absolu reste pourtant loin derrière DeepSeek. Ce n'est pas une victoire marketing : c'est un vote du portefeuille.

Source des données

Chiffres des graphiques publics OpenRouter et analyses community provider ranking (début juin 2026). OpenRouter route par provider ; votre facture fait foi.

Contre-intuitif : les modèles les plus chers sont relégués

La pensée « benchmark only » donne l'intuition fausse : modèle plus intelligent → plus d'usage.

La réalité inverse :

Claude / GPT : qualité excellente, coût unitaire punitif—chaque appel brûle le budget
DeepSeek / Hy3 / MiMo : assez bon à coût extrême—les équipes retentent sans trembler

Résumé impoli : ce n'est pas qui est le plus fort, c'est qui peut être appelé sans peur.

La compétition modèle était « qui est plus malin ». Aujourd'hui : « qui survit à un million de boucles d'outils ». 28,9T tokens en sont la preuve dure. Le trafic ne ment pas ; la facture mensuelle non plus.

Trois raisons pour lesquelles les modèles cheap dominent (pas un hasard)

① Les Agents ont fait exploser la consommation—l'écart de prix devient existentiel

Un agent n'est plus une question, une réponse. Il lit le code, patch, teste, corrige, boucle. Une tâche passe de 2K à 50K–200K tokens. Multipliez les appels par 50 et l'écart entre « 0,015 $ par appel » et « 0,0001 $ » cesse d'être de l'optimisation—c'est une faille structurelle.

Quand Claude Code ou OpenHands est l'infrastructure quotidienne, envoyer retry et brouillons via Sonnet n'est pas viser la qualité—c'est jeter de l'argent. Les devs ne sont pas devenus avares ; les Agents posent le multiplicateur sur le bureau de la finance.

② Le MoE rend « cheap + assez fort » réel

DeepSeek V4 Flash : 284B paramètres totaux, ~13B activés par forward. MiMo-V2-Flash : 309B total, 15B activés. Le coût d'inférence suit les paramètres activés, pas le marketing—vous n'avez pas besoin du plus gros modèle, mais de l'activation la plus efficace.

MiMo-V2-Flash mène SWE-bench Verified en open source, proche de Claude Sonnet 4.5, pour ~3,5 % de la facture API. Pas du « ça suffit pour la démo »—capacité quasi-frontier à prix en falaise.

③ Long contexte + cache : nouvelle effondrement des coûts

DeepSeek V4 Flash : contexte 1M ; certains providers > 90 % de hit cache prompt, coût moyen entrée ~0,044 $/M vs listé ~0,098 $/M. Le même system prompt au second appel est quasi gratuit.

En RAG les blocs se répètent—l'entrée cachée se facture à peine. Ouvrir un long contexte n'est plus tabou budget. Cela casse le modèle mental linéaire par token : relire n'est plus une punition, c'est un levier.

Le vrai pricing OpenRouter n'est pas l'étiquette

La plupart des équipes supposent prix affiché = coût réel. Trois couches—la plupart s'arrêtent à la première :

Prix listé : 0,1 $ / 3 $ / 10 $ entrée/sortie sur la fiche modèle
Mix routing provider : OpenRouter choisit backends par latence, dispo, prix—moyenne pondérée plus basse possible
Réduction cache : préfixes répétés au tarif cache-read (MiMo-V2-Flash cache read 0,01 $/M—~un dixième de l'entrée)

Modèle	Entrée listée /M	Sortie listée /M	Cache read /M	Contexte
DeepSeek V4 Flash	~0,098 $	~0,197 $	jusqu'à ~94 % hit selon provider	1M
MiMo-V2-Flash	0,10 $	0,30 $	0,01 $	256K
Claude Sonnet 4.5 (réf.)	~3,00 $	~15,00 $	oui	200K
GPT-4o (réf.)	~2,50 $	~10,00 $	oui	128K

Comparaison extrême—une tâche Agent (100K entrée + 10K sortie, 80 % entrée en cache) :

DeepSeek V4 Flash : ≈ 0,008 $
Claude Sonnet 4.5 : ≈ 0,21 $

26× d'écart. 500 runs Agent/jour ≈ 4 $ vs 105 $. Pas de marge d'optimisation—faille structurelle. 28,9T tokens vers le cheap n'est pas la chance ; c'est l'arithmétique.

Ce en quoi le marché se scinde vraiment : trois niveaux

L'IA n'est plus un marché plat « prenez le plus fort ». L'usage OpenRouter dessine trois couches :

Niveau	Rôle	Modèles typiques	Tendance part tokens
Couche Flash exécution	Modèle défaut ~80 % des tokens	DeepSeek V4 Flash, Hy3, MiMo	↑ expansion
Couche jugement intermédiaire	Sécuriser étapes critiques	Gemini Flash, Claude Sonnet	→ stable, pas flux principal
Tier luxe frontier	Plus de flux principal—review seulement	GPT-4o, Claude Opus	↓ marginalisé

La couche Flash : cheap + assez malin + appelable sans culpabilité. Le tier frontier devient du luxe—qualité top, inabordable comme boucle Agent principale. Le milieu attrape les nœuds où quelqu'un murmure « ici il faut plus de prudence ».

Les limites restent

Les modèles cheap ne sont pas universels. Clés, conformité, preuves, scénarios où une erreur est catastrophique (trading, diagnostic) exigent frontier ou revue humaine. Trois niveaux = allocation trafic par défaut—pas « frontier est mort ».

Réalité ingénierie : le moins cher devient modèle par défaut

À l'ère Agent, une équation souvent oubliée :

Modèle défaut = modèle trafic = modèle marché. Pas le plus fort.

Le premier model string dans defaults SDK, presets framework et onboarding est la porte du trafic. Quand DeepSeek V4 Flash coûte ~1/30 de Sonnet en entrée alors que l'écart SWE-bench est bien sous 30×, le défaut glisse vers le cheap sans memo. Portefeuille et inertie décident pour vous.

3,43T sur 28,9T sur un seul Flash n'est pas « chacun son cheval »—c'est le signal qu'un défaut peut tout gouverner.

Stratégie de routage : trois niveaux intelligemment

Contrôler les coûts ce n'est pas « toujours le moins cher »—c'est router par risque de tâche : Flash ~80 % tokens, frontier garde ~20 % des portes critiques :

Esquisse routage tier OpenRouter

# Couche Flash exécution : ~80 % tokens
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"

# Fallback si qualité insuffisante—pas frontier par défaut
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

# System prompt stabilisé → maximiser cache
messages = [system_prompt, *cached_context, user_query]

OpenRouter supporte model fallbacks et provider routing. Pour workflows Agent pilotés MCP : « lire repo, chercher, brouillon patch » → DeepSeek V4 Flash ; « review diff avant merge » → Sonnet. Masse tokens devant, porte qualité derrière—pas abandonner frontier, le sortir du flux principal.

API cheap ≠ envoyer les données n'importe où

OpenRouter distribue sur plusieurs providers ; requêtes via nœuds US ou tiers pays. Code source et PII sous contraintes compliance → inférence locale ou Cloud Mac dédié—l'avantage coût n'efface pas le risque réglementaire.

Inférence locale vs API : la troisième voie gagne encore

28,9T ne signifie pas « tout le monde à l'API ». Le local garde des atouts structurels :

Volume journalier prévisible : 50K–500K tokens/jour 7B/14B sur Mac mini M4 24GB—coût marginal Ollama → 0 (mesuré ~34–37 tok/s en 7B)
Résidence des données : source, PII, santé/finance ne passent pas OpenRouter
Latence : complétion inline IDE sans RTT réseau
Découpage CI : Cloud Mac xcodebuild le jour, inférence batch la nuit

Besoin de MoE 200B+, pics burst ou essais modèles sans ferme GPU : OpenRouter ~0,10 $/M est presque imbattable—sauf cluster H100 déjà en place.

Stack hybride 2026

Ollama local (7B–14B) + couche Flash OpenRouter (longues chaînes Agent) + tier Frontier (review finale). Cloud Mac = couche validation—avant d'acheter le métal, relancer les mêmes scripts benchmark swap/tok/s ; voir quels workloads n'avaient jamais besoin d'API.

Conclusion : ce que disent 28,9T tokens

28,9T n'est ni un trophée marketing DeepSeek, ni un récit nationaliste, ni un certificat de décès des labs frontier.

Cela dit : l'IA entre en phase compétition de coûts. Là, le moins cher + assez bon = vainqueur par défaut. Les benchmarks mesurent les plafonds ; le trafic token mesure les choix réels—et le choix est fait.

Si votre Agent utilise encore par défaut le modèle le plus fort, vous payez peut-être 10× le coût pour un choix qui bouge à peine les résultats.

Ce n'est pas l'ordre de jeter Claude ou GPT demain—c'est vous pousser à demander : qui a écrit votre model string par défaut—hype benchmark ou math de facture ? À l'ère Agent, la seconde question est survie.

FAQ

Q : Quel modèle domine l'usage OpenRouter ?
R : DeepSeek V4 Flash—3,43T/semaine sur un modèle, entrée ~0,10 $/M. Tencent Hy3 preview second.

Q : Pourquoi plus de tokens chinois qu'américains ?
R : Prix agressifs + MoE mûr + option self-host, amplifié par l'ère Agent « appeler librement ». Pas domination qualité universelle—domination structure de coûts.

Q : Modèles cheap en production ?
R : Oui si variance tolérable, auto-retry, fallback frontier. Non si une erreur est catastrophique.

Q : Comment suivre la dépense réelle ?
R : Dashboard OpenRouter par modèle/jour ; middleware app loggant modèle + tokens—or les boucles Agent « surprendront » la finance en fin de mois.

ZavCloud

Mesurez ce que le local couvre avant de budgétiser l'API

Benchmarks Ollama 7B/14B tok/s et plafonds swap—les workloads que le local tient déjà ne devraient pas payer 26× de premium OpenRouter.

Offres Cloud Mac