Conclusion d'abord : en 2026, choisissez vos modèles d'après le volume réel OpenRouter, pas seulement les benchmarks. Le total hebdo dépasse 28,9T tokens ; le haut du classement est saturé de MoE bon marché — DeepSeek V4 Flash et Hy3 Preview dépassent chacun 10T. GPT-4o, xAI Grok et les « meilleurs par défaut » quittent le flux principal : pas éliminés, mais reclassés en couche de revue. Ci-dessous : Top 10, cinq modèles comparés, recommandations par scénario et config Mac associée.
1. Top 10 OpenRouter 2026 (tokens hebdo)
Source : pages publiques OpenRouter (mi-juin 2026). Lisez d'abord le rôle — qui exécute, qui ne fait que valider.
Qui absorbe 80 % du trafic Agent ?
Couche exécution Revue / montée En remplacement
| # | Modèle | Tokens / sem. | Rôle | Tendance |
|---|---|---|---|---|
| 1 | DeepSeek V4 Flash | 10.9T | Défaut 2026 | ↑ En tête |
| 2 | Hy3 Preview | 10.7T | Agent longue chaîne | ↑ À égalité |
| 3 | Claude Opus 4.7 | 7.4T | Signature pré-merge | → Revue critique |
| 4 | Claude Sonnet 4.6 | 7.4T | Montée IDE par défaut | → Complexité moyenne |
| 5 | Owl Alpha | 5.0T | Nouveau venu Agent | ↑ Montée rapide |
| 6 | MiMo-V2-Flash | 4.2T | Flash open source | ↑ |
| 7 | Kimi K2 | 3.8T | Docs longs CN | ↑ |
| 8 | Gemini 3.5 Flash | 3.2T | Batch / multimodal | → |
| 9 | GPT-4o | 1.6T | Hors flux principal | ↓ Remplacé par Flash |
| 10 | xAI Grok-3 | 1.1T | Défection devs | ↓↓ -73% |
En un coup d'œil : le Top 2 totalise 21,6T, soit 75 % des 28,9T — le model string par défaut, c'est Flash, pas Opus.
Ce classement ne dit pas « qui est le plus intelligent », mais qui devient le model string par défaut en 2026.
Benchmark vs usage réel
MMLU et SWE-bench mesurent le plafond ; le volume OpenRouter mesure ce que vous osez appeler chaque jour. Une boucle Agent à 50K–200K tokens favorise bon marché + assez bon. Voir aussi la vérité sur les prix OpenRouter.
2. Top 5 en bref : à quoi sert chaque modèle
① DeepSeek V4 Flash — couche d'exécution 2026
MoE 284B, ~13B activés ; 1M de contexte, entrée ~0,10 $/M, cache jusqu'à 0,04 $/M. Idéal : lire le dépôt, brouillons de patch, boucle Agent, rerank RAG. Impossible en local sur Mac — OpenRouter API est la voie réaliste.
② Hy3 Preview — nouveau venu des chaînes Agent
Modèle Tencent, 10,7T en quelques semaines. Points forts : compréhension du chinois, tool calls multi-étapes, stabilité long contexte. Pour orchestration Agent complexe, docs métier CN et pipelines batch complémentaires à Gemini. API obligatoire ; séparez exécution sur Cloud Mac et inférence.
③ Claude Opus 4.7 — couche signature
7,4T prouvent qu'il n'est pas mort — mais le rôle a changé. Plus 80 % des boucles Agent : revue avant merge, décisions d'architecture, audit sécurité. Prix élevé, réservé aux ~5 % de tâches où l'échec coûte cher.
④ Claude Sonnet 4.6 — cerveau IDE complexité moyenne
Volume comparable à Opus, position différente : refactor cross-modules, changements de contrat API, « montée par défaut » dans Cursor / Claude Code. ~30× plus cher que Flash, moins qu'Opus — le juste milieu qualité/coût.
⑤ Owl Alpha — explorateur Agent
5,0T pour un nouveau venu ; retours communautaires agressifs sur coding multi-étapes et tool use. Pour les early adopters Agent ; en prod, gardez DeepSeek Flash en fallback.
3. Matrice de capacités (top 5)
Pas un classement de QI, mais « est-ce que ça vaut le coup comme défaut ». Fond vert = meilleur sur l'axe ; rouge = faiblesse nette.
Tous solides en code/Agent — l'écart est coût et chinois
| Capacité | DeepSeek | Claude | Gemini | Kimi | Hy3 | Choix |
|---|---|---|---|---|---|---|
| Code | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | DeepSeek / Hy3 |
| Agent | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Hy3 longue chaîne |
| Long contexte | ⭐⭐⭐⭐⭐ 1M | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | DeepSeek |
| Métier chinois | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | Kimi / Hy3 |
| Coût | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | DeepSeek |
Combo par défaut : boucle DeepSeek / Hy3 + revue Claude Sonnet. Claude n'est pas interdit — ne le mettez pas par défaut.
4. Prix : combien coûte une tâche Agent
Tâche type : 100K input + 10K output, 80 % d'input en cache. La dernière colonne = multiple vs DeepSeek — le chiffre qui fait pencher la balance.
Sonnet n'est pas un peu plus cher — c'est 26×
| Modèle | Entrée /M | Par tâche | 500× / jour | vs DeepSeek |
|---|---|---|---|---|
| Couche Flash — osez en faire le défaut | ||||
| DeepSeek V4 Flash Référence | ~$0.10 | $0.008 | ~$4 | 1× |
| Hy3 Preview | ~$0.10 | $0.009 | ~$5 | 1.1× |
| Gemini 3.5 Flash | ~$0.15 | $0.02 | ~$10 | 2.5× |
| Kimi K2 | ~$0.15 | $0.018 | ~$9 | 2.3× |
| Couche revue / premium — montée seulement | ||||
| Claude Sonnet 4.6 | ~$3.00 | $0.21 | ~$105 | 26× |
| Claude Opus 4.7 | ~$15.00 | $1.05 | ~$525 | 131× |
| GPT-4o Hors Top 8 | ~$2.50 | $0.18 | ~$90 | 23× |
500 Agent / jour : DeepSeek 4 $ vs Sonnet 105 $. L'écart qualité est bien inférieur à 26× — d'où le haut du classement Flash.
5. Quels modèles les devs abandonnent ?
« Abandonner » = retirer du slot par défaut, pas rendre le modèle inutilisable.
| Modèle | État | Où vont les devs |
|---|---|---|
| GPT-4o | Top 10 #9 · 1.6T | Boucle → DeepSeek / Hy3 ; GPT-4o reste pour cas multimodaux |
| xAI Grok-3 | −73 % sem./sem. | Boucles Agent trop chères, hype communautaire retombée |
| Claude Opus par défaut | Volume absolu 7,4T | Nouveaux appels surtout « revue », plus 80 % d'exploration |
| DeepSeek V3 / GPT-4 Turbo | Hors classement | Remplacés sur place par V4 Flash / nouveaux MoE |
Ne surinterprétez pas
Claude dépasse encore 14T combiné — Anthropic n'a pas « perdu », elle est passée de la couche volume à la couche qualité. Ce qu'on abandonne, c'est « un modèle pour tout », pas Claude.
6. Choisir par scénario
Utilisateur Cursor
Combo recommandé :
- Agent / multi-fichiers par défaut → DeepSeek V4 Flash (OpenRouter ou endpoint OpenAI-compatible Cursor)
- Refactor complexe, revue pré-merge → Claude Sonnet 4.6
- Complétion inline → modèle rapide intégré Cursor, pas besoin de changer
Voir Claude Code vs Cursor : Cursor gagne le flow IDE ; le routage modèle reste à vous.
Utilisateur Claude Code
Combo recommandé :
- Boucle principale (repo, tests, diff) → DeepSeek V4 Flash via OpenRouter
- Architecture, sécurité, validation finale → Claude Opus 4.7 ou Sonnet 4.6
- CLAUDE.md → documentez quand monter en gamme — évitez d'explorer tout en Opus
Claude Code est natif Anthropic, mais en 2026 beaucoup d'équipes branchent OpenRouter en Flash exécution + Claude revue en double rail.
Développeur Agent
Combo recommandé :
- Chaîne longue / docs CN → Hy3 Preview
- Boucle coding Agent générique → DeepSeek V4 Flash
- Batch, logs, sortie structurée → Gemini 3.5 Flash
- Filet qualité → Claude Sonnet, monter Opus après 2 échecs consécutifs
Avec un graphe de connaissance code : résumés de retrieval en Flash, validation finale en Claude — l'essentiel des tokens est en amont.
Qui vous êtes → défaut → quand monter
| Profil | Modèle principal | Montée | À éviter par défaut |
|---|---|---|---|
| Cursor | DeepSeek V4 Flash | Claude Sonnet 4.6 | Opus partout |
| Claude Code | DeepSeek V4 Flash | Claude Opus 4.7 | Sonnet en boucle |
| Agent dev | Hy3 + DeepSeek | Gemini Flash | Un seul modèle |
| Docs longs CN | Kimi K2 + Hy3 | Claude Sonnet | GPT-4o |
7. Config Mac : API ou local
Modèle choisi, il reste la moitié du puzzle : où inférer, où exécuter l'Agent.
MoE 284B → API · 14B local · Agent long → Cloud Mac
| Modèle | Inférence | Mac conseillé | En bref |
|---|---|---|---|
| DeepSeek V4 Flash | OpenRouter API | N'importe quel Mac | Trop lourd en local ; le Mac ne fait que git / tests |
| Hy3 Preview | API | Cloud Mac M4 24GB | Chaîne longue gourmande en RAM → exécution cloud, inférence API |
| Qwen 14B / 7B | Ollama local | Mac mini M4 24GB | Données locales ; 7B ~35 tok/s |
| Claude Sonnet / Opus | API | Mac mini 16GB+ | Inférence cloud ; local pour Claude Code |
| CI Agent | Flash API | Cloud Mac + Runner | xcodebuild le jour, batch la nuit — même machine, créneaux décalés |
Trois règles : gros MoE → API ; 7B–14B → Mac mini 24GB ; Hy3 / CI Agent → Cloud Mac.
FAQ
Q : À quelle fréquence le Top 10 est-il mis à jour ?
R : Les pages modèles OpenRouter ont des graphiques quasi temps réel ; nos chiffres datent de mi-juin 2026. La tendance compte plus que le point exact — la domination Flash est structurelle.
Q : Abonnement Claude uniquement — puis-je utiliser DeepSeek ?
R : Oui. Claude Code accepte OpenRouter en endpoint secondaire ; ou Cursor + OpenRouter pour la boucle, Claude pour la revue. L'essentiel : ne pas lier la boucle à Opus.
Q : Kimi ou Hy3 ?
R : Docs longs CN et Q&R knowledge base → Kimi ; Agent coding multi-étapes et tool calls denses → Hy3. Prix proches : testez une semaine en parallèle avant de figer le défaut.
Q : Mac mini 16GB suffit ?
R : Claude Code / Cursor + API seulement : oui. Ollama 14B + IDE + Agent en parallèle : passez à 24GB ou déportez sur Cloud Mac.
Conclusion : modèle par défaut = modèle du trafic, pas le plus fort
Le Top 10 OpenRouter est limpide : DeepSeek V4 Flash et Hy3 mangent le flux principal, Claude tient la revue, GPT-4o et xAI quittent le slot par défaut. Demandez-vous : « puis-je relancer cette tâche dix fois ? » — oui → Flash ; non → Sonnet ou Opus.
Côté matériel : gros MoE en API, petits modèles en Ollama local, exécution Agent longue sur Cloud Mac. Bon modèle, facture divisée ; bon Mac, Agent stable.
ZavCloud
Hy3 + DeepSeek en API, exécution Agent sur Cloud Mac
Instance M4 24GB dédiée : Claude Code, xcodebuild, GitHub Runner — en décalé avec l'inférence OpenRouter quand 16GB locaux ne suffisent plus.
Voir les offres Cloud Mac