En bref : ne choisissez pas un modèle d'après les classements publics — choisissez d'après le point d'entrée du workflow et la profondeur requise par tâche. En juin 2026, nous avons exécuté le même pack de tâches développeur contre Claude Fable 5, Claude Opus 4.8 et Gemini 3.5 Flash. Les tableaux ci-dessous indiquent qui doit être primaire, qui rédige et qui valide avant merge. Les scores de leaderboard ne sont pas la ligne de partage ; le point d'entrée et le budget tokens le sont.
Pourquoi choisir un modèle ressemble à choisir un runner CI
En 2026, la plupart des équipes jonglent avec quatre voies — complétion IDE, agents CLI, jobs batch GitHub Actions et revue d'architecture — tout en visant un seul modèle « meilleur » partout. Les tiers chers partent en triage de logs ; les tiers rapides finissent sur des refactors multi-modules. Le problème n'est pas la capacité — c'est la mauvaise frontière d'exécution au mauvais emplacement.
Même logique que un job, un workspace runner : vous ne cherchez pas la machine la plus rapide au monde ; vous alignez niveau d'isolation et coût unitaire par type de job. Les scores MMLU prédisent mal « Issue → PR → CI verte ». Ce qu'il faut : à cette entrée, quel tier passe de façon fiable dans le budget ?
Une autre tension : local vs distant. L'inférence vit dans le cloud, mais diffs git, builds Xcode et tests tournent sur Mac. Quand une boucle agent et une compilation se disputent 16 Go de RAM, chaque modèle paraît « plus lent » — c'est le runtime, pas le QI. D'où le déplacement des jobs longs vers un nœud d'exécution Cloud Mac.
Dans les équipes produit françaises, on voit souvent Opus laissé actif « au cas où » pendant que Flash traite des tickets Jira — puis l'inverse en release, quand tout le monde bascule sur Fable sans règle écrite. Documenter qui fait quoi évite ces bascules coûteuses.
Trois rôles, pas trois niveaux
Groupez d'abord par rôle workflow avant de comparer les specs flagship :
- Couche boucle — Claude Fable 5 : agents de code haute fréquence, tours courts ; faible latence, cycles tool-use prévisibles.
- Couche délibération — Claude Opus 4.8 : raisonnement long, arbitrages d'architecture, revue des risques ; haute qualité par passe, pas par seconde.
- Couche débit — Gemini 3.5 Flash : travail structuré en masse, batches sensibles à la latence ; brouillon « 80 % » bon marché.
Ce sont des postes sur une chaîne, pas une échelle d'upgrade. Opus en complétion Tab brûle le budget ; Flash seul en relecteur pre-merge laisse passer des défauts sur main.
Concrètement : sur chaque PR, Fable implémente, Flash classe et pré-rédige, Opus ne lit que le diff final. Mélanger les rôles sur les mêmes fichiers multiplie les tokens sans gain de qualité.
Comparaison cœur : entrée / exécution / contexte
Les en-têtes de colonnes restent fixes pour chaque tableau de cet article.
| Outil | Entrée | Exécution | Contexte | Idéal pour |
|---|---|---|---|---|
| Claude Fable 5 | Claude Code CLI, Cursor Agent, API | Fort : edits multi-fichiers, boucles de tests, outils MCP | Fenêtre moyen-long (~200K), dépôts quotidiens | Ingénieurs avec agents quotidiens |
| Claude Opus 4.8 | API, bascule IDE manuelle, bots de revue | Très fort : raisonnement complexe, deps, audit sécurité | Fenêtre extra-longue + raisonnement profond | Tech leads, architectes, gatekeepers merge |
| Gemini 3.5 Flash | AI Studio, Vertex, API batch | Modéré : génération structurée, classification, templates | Fenêtre moyen-longue, batches parallèles | Data/Ops, pipelines doc, équipes sensibles au coût |
Coût et permissions (mêmes colonnes) :
| Outil | Entrée | Exécution | Contexte | Idéal pour |
|---|---|---|---|---|
| Claude Fable 5 | Usage + bundles abonnement | Allowlists outils entreprise | Politique données Anthropic ; fit SaaS occidental | Équipes déjà sur Claude Code |
| Claude Opus 4.8 | Usage premium ; éviter default-on | Mode revue read-only bien adapté | Même stack Anthropic ; jobs longs empilent les tokens | Équipes avec revue pre-merge explicite |
| Gemini 3.5 Flash | Tarifs usage bas ; facturation GCP | Granularité IAM Vertex | Conformité Google Cloud | Shops GCP optimisant le coût batch |
Après les tableaux : Fable 5 fait le travail quotidien ; Opus 4.8 signe ; Flash est la première station. Voir les paliers tarifaires OpenRouter pour router les trois via une passerelle.
Tâches benchmark et runs côté Mac
L'inférence passe par l'API de chaque éditeur. Nous avons utilisé le même shell agent — Claude Code + git + xcodebuild test — sur un Mac mini M4 16 Go (local) et un M4 24 Go en datacenter ZavCloud (distant), trois runs par tâche. Les minutes sont des plages estimées (médiane ± variance normale), pas des chronométrages uniques. Nous notons taux de réussite, bandes de temps bout en bout et factures tokens hebdo — pas un QI abstrait.
| Tâche | Fable 5 | Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|---|
| Refactor API 8 fichiers + tests verts | OK ; ~15–20 min ; tokens moyens | OK ; ~20–30 min ; tokens élevés | Partiel ; corrections manuelles des cas limites |
| GitHub Issue → PR (1 tour fix CI) | OK ; ~20–25 min | OK ; ~30–35 min | Brouillon OK ; CI souvent tour 2 |
| 1 000 lignes de logs + brouillon règle d'alerte | OK ; surdimensionné | OK ; ROI faible | OK ; ~5–10 min ; très peu de tokens |
| Revue ADR (read-only) | Bon ; deps parfois manquées | Excellent ; risques couverts | Bon ; très template |
| Agent + Xcode sur Mac 16 Go | Risque swap local ; ok en cloud | Idem ; éviter longs runs locaux | Batch OK ; faible comme cerveau agent IDE |
Enseignement Mac : les goulots sont souvent le runtime, pas le QI du modèle. Avec Xcode et Claude Code ouverts sur 16 Go, les trois semblent lents — passer à Opus ne corrige pas le swap. Comme nos tests 16 Go vs 24 Go : une machine agent primaire veut 24 Go ou un nœud Cloud Mac dédié.
Matrice de scénarios
| Si vous… | Modèle primaire | Pourquoi |
|---|---|---|
| Shippez des features quotidiennement via Claude Code / Cursor Agent | Fable 5 | Latence et coût adaptés aux boucles haute fréquence |
| Revue architecture ou sécurité pre-merge | Opus 4.8 | Profondeur qui vaut les tokens premium par passe |
| Ops/data : logs, tickets, docs en masse | Gemini 3.5 Flash | Meilleur débit par euro |
| Déjà sur GCP, facturation + IAM unifiés | Flash primaire + Fable secours | Vertex pour permissions ; Fable pour agents code |
| Budget serré, Opus pas en default | Fable 5 + upgrade Opus manuel | Upgrade seulement sur label ready-for-review |
| Auto-fix tests CI en échec | Fable 5 | À coupler avec l'automatisation CI Cloud Mac pour tests sur appareil réel |
Stacks recommandés
- Développeur solo — Fable 5 pour agents quotidiens ; Flash pour brouillons mail/doc ; Opus seulement en semaines de release.
- Équipe de 10 — Fable 5 dans le workflow production Claude Code ; auto-fix CI avec Fable ; bot Opus read-only au merge.
- Plateforme data orientée coût — pipelines batch Flash + Fable 5 sur dépôts outils internes ; pas d'Opus quotidien.
Avec les Skills / MCP de l'agent de code IA : les modèles raisonnent ; les nœuds Mac exécutent — ne pointez pas Flash vers un shell de production.
Erreurs fréquentes
- #1 Default leaderboard — les benchmarks testent du Q&A court, pas Issue → PR → CI verte.
- #2 Opus toujours actif — la facture hebdo enseigne vite ; utilisez des déclencheurs événementiels.
- #3 Flash seul sur refactors multi-modules — économise des tokens, déplace le temps de revue vers les humains.
- #4 Ignorer la RAM Mac — le swap rend chaque modèle « bête ».
- #5 Comparer sans règles de routing — sans politique d'upgrade, débat sans fin.
Déploiement en 7 étapes
- Suivre les entrées hebdo — heures IDE, CLI, CI, revue.
- Rédiger critères de passage — tests verts, plafonds diff, checklist sécurité.
- Lancer le pack 12 tâches — trois runs par modèle (réutiliser tableaux ci-dessus).
- Calculer dépense tokens hebdo — inclure retries ; comparer routes OpenRouter.
- Remplir matrice de scénarios — primaire, secours, déclencheurs upgrade.
- Commiter dans CLAUDE.md / CI — aligner avec l'architecture Claude Code.
- Revoir à quatre semaines — défauts merge + factures ; retirer tiers sous 10 % usage.
FAQ
En quoi Fable 5 diffère-t-il d'Opus 4.8 ?
Fable 5 sert les boucles agent haute fréquence ; Opus 4.8 sert les décisions rares à enjeu élevé. Rôles de poste, pas échelle de QI.
Gemini 3.5 Flash peut-il remplacer Claude Code ?
Pas le siège agent complet — mieux en couche brouillon amont et batch ; Fable 5 doit posséder repo + tests en aval.
Utiliser les trois fait-il exploser le budget ?
Toujours moins cher qu'Opus partout par défaut. Routing : ~90 % Fable/Flash, Opus seulement pour revue.
Quel lien avec le choix de modèle dans Cursor ?
Cursor est l'entrée IDE ; les modèles sont les moteurs. Fit d'entrée : scénarios Copilot vs Cursor ; cet article couvre les tiers moteur.
Conclusion
Choisir Fable 5, Opus 4.8 ou Gemini 3.5 Flash en 2026 revient à quel point d'entrée déclenche la tâche et combien de tokens vous dépenserez par profondeur de raisonnement. Fable 5 pour boucles par défaut, Flash pour brouillons à débit, Opus 4.8 pour validation pre-merge — la vraie séparation est le layering workflow, pas l'idolâtrie modèle. Mettre l'exécution sur le bon nœud Mac bat un default « plus fort ».
ZavCloud · Cloud Mac
Modèles dans le cloud, exécution sur macOS réel
Mac mini M4 dédié : agents Claude Code, tests Xcode et runners GitHub Actions sur un nœud — pour que les boucles outils Fable 5 ne soient pas bridées par la RAM locale.
Voir tarifs et offres