Quel modèle domine l'usage sur OpenRouter ?

Mi-juin 2026, DeepSeek V4 Flash mène avec ~10,9T tokens hebdo, suivi de Tencent Hy3 Preview à 10,7T. Tous deux sont des MoE bon marché ; ensemble ils absorbent ~75 % des nouveaux flux Agent.

Quels modèles les développeurs abandonnent-ils ?

GPT-4o, xAI Grok et autres frontier chers perdent des parts dans le flux principal — pas par manque de capacité, mais parce que l'ère Agent déplace la boucle vers la couche Flash, en réservant Claude Opus/Sonnet à la revue et aux décisions critiques.

Quel modèle pour un utilisateur Cursor ?

Agent quotidien et édition multi-fichiers : DeepSeek V4 Flash par défaut ; revue avant merge ou refactor complexe : Claude Sonnet 4.6. Complétion inline : gardez le modèle rapide intégré à Cursor.

Quels modèles en local sur Mac, lesquels via API ?

Qwen 14B et modèles 7B–14B conviennent à Ollama sur Mac mini M4 24GB. DeepSeek V4 Flash, Hy3 et MoE 200B+ passent par OpenRouter API. Pour Hy3 en chaîne Agent longue, combinez exécution Cloud Mac + inférence API.

Classement OpenRouter : quels modèles les développeurs abandonnent en 2026 ?

Conclusion d'abord : en 2026, choisissez vos modèles d'après le volume réel OpenRouter, pas seulement les benchmarks. Le total hebdo dépasse 28,9T tokens ; le haut du classement est saturé de MoE bon marché — DeepSeek V4 Flash et Hy3 Preview dépassent chacun 10T. GPT-4o, xAI Grok et les « meilleurs par défaut » quittent le flux principal : pas éliminés, mais reclassés en couche de revue. Ci-dessous : Top 10, cinq modèles comparés, recommandations par scénario et config Mac associée.

1. Top 10 OpenRouter 2026 (tokens hebdo)

Source : pages publiques OpenRouter (mi-juin 2026). Lisez d'abord le rôle — qui exécute, qui ne fait que valider.

Classement clé

Qui absorbe 80 % du trafic Agent ?

Couche exécution Revue / montée En remplacement

#	Modèle	Tokens / sem.	Rôle	Tendance
1	DeepSeek V4 Flash	10.9T	Défaut 2026	↑ En tête
2	Hy3 Preview	10.7T	Agent longue chaîne	↑ À égalité
3	Claude Opus 4.7	7.4T	Signature pré-merge	→ Revue critique
4	Claude Sonnet 4.6	7.4T	Montée IDE par défaut	→ Complexité moyenne
5	Owl Alpha	5.0T	Nouveau venu Agent	↑ Montée rapide
6	MiMo-V2-Flash	4.2T	Flash open source	↑
7	Kimi K2	3.8T	Docs longs CN	↑
8	Gemini 3.5 Flash	3.2T	Batch / multimodal	→
9	GPT-4o	1.6T	Hors flux principal	↓ Remplacé par Flash
10	xAI Grok-3	1.1T	Défection devs	↓↓ -73%

En un coup d'œil : le Top 2 totalise 21,6T, soit 75 % des 28,9T — le model string par défaut, c'est Flash, pas Opus.

28.9T

Tokens hebdo OpenRouter

75%

Part combinée Top 2

26×

Écart de coût Flash vs Sonnet

Ce classement ne dit pas « qui est le plus intelligent », mais qui devient le model string par défaut en 2026.

Benchmark vs usage réel

MMLU et SWE-bench mesurent le plafond ; le volume OpenRouter mesure ce que vous osez appeler chaque jour. Une boucle Agent à 50K–200K tokens favorise bon marché + assez bon. Voir aussi la vérité sur les prix OpenRouter.

2. Top 5 en bref : à quoi sert chaque modèle

① DeepSeek V4 Flash — couche d'exécution 2026

MoE 284B, ~13B activés ; 1M de contexte, entrée ~0,10 $/M, cache jusqu'à 0,04 $/M. Idéal : lire le dépôt, brouillons de patch, boucle Agent, rerank RAG. Impossible en local sur Mac — OpenRouter API est la voie réaliste.

② Hy3 Preview — nouveau venu des chaînes Agent

Modèle Tencent, 10,7T en quelques semaines. Points forts : compréhension du chinois, tool calls multi-étapes, stabilité long contexte. Pour orchestration Agent complexe, docs métier CN et pipelines batch complémentaires à Gemini. API obligatoire ; séparez exécution sur Cloud Mac et inférence.

③ Claude Opus 4.7 — couche signature

7,4T prouvent qu'il n'est pas mort — mais le rôle a changé. Plus 80 % des boucles Agent : revue avant merge, décisions d'architecture, audit sécurité. Prix élevé, réservé aux ~5 % de tâches où l'échec coûte cher.

④ Claude Sonnet 4.6 — cerveau IDE complexité moyenne

Volume comparable à Opus, position différente : refactor cross-modules, changements de contrat API, « montée par défaut » dans Cursor / Claude Code. ~30× plus cher que Flash, moins qu'Opus — le juste milieu qualité/coût.

⑤ Owl Alpha — explorateur Agent

5,0T pour un nouveau venu ; retours communautaires agressifs sur coding multi-étapes et tool use. Pour les early adopters Agent ; en prod, gardez DeepSeek Flash en fallback.

3. Matrice de capacités (top 5)

Pas un classement de QI, mais « est-ce que ça vaut le coup comme défaut ». Fond vert = meilleur sur l'axe ; rouge = faiblesse nette.

Matrice capacités

Tous solides en code/Agent — l'écart est coût et chinois

Capacité	DeepSeek	Claude	Gemini	Kimi	Hy3	Choix
Code	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	DeepSeek / Hy3
Agent	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	Hy3 longue chaîne
Long contexte	⭐⭐⭐⭐⭐ 1M	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	DeepSeek
Métier chinois	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	Kimi / Hy3
Coût	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	DeepSeek

Combo par défaut : boucle DeepSeek / Hy3 + revue Claude Sonnet. Claude n'est pas interdit — ne le mettez pas par défaut.

4. Prix : combien coûte une tâche Agent

Tâche type : 100K input + 10K output, 80 % d'input en cache. La dernière colonne = multiple vs DeepSeek — le chiffre qui fait pencher la balance.

Faille de coût

Sonnet n'est pas un peu plus cher — c'est 26×

Modèle	Entrée /M	Par tâche	500× / jour	vs DeepSeek
Couche Flash — osez en faire le défaut
DeepSeek V4 Flash Référence	~$0.10	$0.008	~$4	1×
Hy3 Preview	~$0.10	$0.009	~$5	1.1×
Gemini 3.5 Flash	~$0.15	$0.02	~$10	2.5×
Kimi K2	~$0.15	$0.018	~$9	2.3×
Couche revue / premium — montée seulement
Claude Sonnet 4.6	~$3.00	$0.21	~$105	26×
Claude Opus 4.7	~$15.00	$1.05	~$525	131×
GPT-4o Hors Top 8	~$2.50	$0.18	~$90	23×

500 Agent / jour : DeepSeek 4 $ vs Sonnet 105 $. L'écart qualité est bien inférieur à 26× — d'où le haut du classement Flash.

5. Quels modèles les devs abandonnent ?

« Abandonner » = retirer du slot par défaut, pas rendre le modèle inutilisable.

Modèle	État	Où vont les devs
GPT-4o	Top 10 #9 · 1.6T	Boucle → DeepSeek / Hy3 ; GPT-4o reste pour cas multimodaux
xAI Grok-3	−73 % sem./sem.	Boucles Agent trop chères, hype communautaire retombée
Claude Opus par défaut	Volume absolu 7,4T	Nouveaux appels surtout « revue », plus 80 % d'exploration
DeepSeek V3 / GPT-4 Turbo	Hors classement	Remplacés sur place par V4 Flash / nouveaux MoE

Ne surinterprétez pas

Claude dépasse encore 14T combiné — Anthropic n'a pas « perdu », elle est passée de la couche volume à la couche qualité. Ce qu'on abandonne, c'est « un modèle pour tout », pas Claude.

6. Choisir par scénario

Utilisateur Cursor

Combo recommandé :

Agent / multi-fichiers par défaut → DeepSeek V4 Flash (OpenRouter ou endpoint OpenAI-compatible Cursor)
Refactor complexe, revue pré-merge → Claude Sonnet 4.6
Complétion inline → modèle rapide intégré Cursor, pas besoin de changer

Voir Claude Code vs Cursor : Cursor gagne le flow IDE ; le routage modèle reste à vous.

Utilisateur Claude Code

Combo recommandé :

Boucle principale (repo, tests, diff) → DeepSeek V4 Flash via OpenRouter
Architecture, sécurité, validation finale → Claude Opus 4.7 ou Sonnet 4.6
CLAUDE.md → documentez quand monter en gamme — évitez d'explorer tout en Opus

Claude Code est natif Anthropic, mais en 2026 beaucoup d'équipes branchent OpenRouter en Flash exécution + Claude revue en double rail.

Développeur Agent

Combo recommandé :

Chaîne longue / docs CN → Hy3 Preview
Boucle coding Agent générique → DeepSeek V4 Flash
Batch, logs, sortie structurée → Gemini 3.5 Flash
Filet qualité → Claude Sonnet, monter Opus après 2 échecs consécutifs

Avec un graphe de connaissance code : résumés de retrieval en Flash, validation finale en Claude — l'essentiel des tokens est en amont.

Aide-mémoire

Qui vous êtes → défaut → quand monter

Profil	Modèle principal	Montée	À éviter par défaut
Cursor	DeepSeek V4 Flash	Claude Sonnet 4.6	Opus partout
Claude Code	DeepSeek V4 Flash	Claude Opus 4.7	Sonnet en boucle
Agent dev	Hy3 + DeepSeek	Gemini Flash	Un seul modèle
Docs longs CN	Kimi K2 + Hy3	Claude Sonnet	GPT-4o

7. Config Mac : API ou local

Modèle choisi, il reste la moitié du puzzle : où inférer, où exécuter l'Agent.

Appariement matériel

MoE 284B → API · 14B local · Agent long → Cloud Mac

Modèle	Inférence	Mac conseillé	En bref
DeepSeek V4 Flash	OpenRouter API	N'importe quel Mac	Trop lourd en local ; le Mac ne fait que git / tests
Hy3 Preview	API	Cloud Mac M4 24GB	Chaîne longue gourmande en RAM → exécution cloud, inférence API
Qwen 14B / 7B	Ollama local	Mac mini M4 24GB	Données locales ; 7B ~35 tok/s
Claude Sonnet / Opus	API	Mac mini 16GB+	Inférence cloud ; local pour Claude Code
CI Agent	Flash API	Cloud Mac + Runner	xcodebuild le jour, batch la nuit — même machine, créneaux décalés

Trois règles : gros MoE → API ; 7B–14B → Mac mini 24GB ; Hy3 / CI Agent → Cloud Mac.

FAQ

Q : À quelle fréquence le Top 10 est-il mis à jour ?
R : Les pages modèles OpenRouter ont des graphiques quasi temps réel ; nos chiffres datent de mi-juin 2026. La tendance compte plus que le point exact — la domination Flash est structurelle.

Q : Abonnement Claude uniquement — puis-je utiliser DeepSeek ?
R : Oui. Claude Code accepte OpenRouter en endpoint secondaire ; ou Cursor + OpenRouter pour la boucle, Claude pour la revue. L'essentiel : ne pas lier la boucle à Opus.

Q : Kimi ou Hy3 ?
R : Docs longs CN et Q&R knowledge base → Kimi ; Agent coding multi-étapes et tool calls denses → Hy3. Prix proches : testez une semaine en parallèle avant de figer le défaut.

Q : Mac mini 16GB suffit ?
R : Claude Code / Cursor + API seulement : oui. Ollama 14B + IDE + Agent en parallèle : passez à 24GB ou déportez sur Cloud Mac.

Conclusion : modèle par défaut = modèle du trafic, pas le plus fort

Le Top 10 OpenRouter est limpide : DeepSeek V4 Flash et Hy3 mangent le flux principal, Claude tient la revue, GPT-4o et xAI quittent le slot par défaut. Demandez-vous : « puis-je relancer cette tâche dix fois ? » — oui → Flash ; non → Sonnet ou Opus.

Côté matériel : gros MoE en API, petits modèles en Ollama local, exécution Agent longue sur Cloud Mac. Bon modèle, facture divisée ; bon Mac, Agent stable.

ZavCloud

Hy3 + DeepSeek en API, exécution Agent sur Cloud Mac

Instance M4 24GB dédiée : Claude Code, xcodebuild, GitHub Runner — en décalé avec l'inférence OpenRouter quand 16GB locaux ne suffisent plus.

Voir les offres Cloud Mac