Ces six derniers mois, en accompagnant des dizaines d'équipes qui évaluent le passage « Agent », nous avons entendu deux extrêmes le plus souvent : soit elles n'ont acheté qu'une API modèle en espérant qu'elle édite la prod seule ; soit elles ont déployé Kubernetes + une base vectorielle + trois serveurs MCP + une plateforme Agent autonome — et personne ne l'a maintenu trois mois plus tard. Ce qui bloque réellement la livraison, ce n'est rarement « le modèle n'est pas assez intelligent », mais un mauvais alignement entre environnement d'exécution, chaîne de vérification et passerelle de contexte. Cet article s'appuie sur le découpage en couches du Cloud Mac AI Stack pour transformer « de quelle infrastructure un Agent IA a-t-il besoin ? » en tableaux de décision — vous pouvez caler votre taille d'équipe au lieu de copier la liste d'achats d'un blog architecture tiers.
Enseignement asymétrique
La capacité du modèle n'est pas la ligne de partage — la frontière d'exécution l'est. Le même Claude dans une interface web chat-only donne des conseils ; sur un nœud macOS avec terminal, git et Runner, il produit des PR mergeables. L'infrastructure achète qui peut agir dans quel environnement, pas des FLOPS bruts.
1. Pourquoi ce problème existe : « savoir discuter » ≠ « savoir livrer »
Depuis que le mot « Agent » est surchargé, beaucoup confondent interfaces de chat et Agents d'ingénierie. Le chat ne demande qu'une API modèle ; les Agents d'ingénierie doivent au minimum lire le dépôt, éditer des fichiers, exécuter des commandes et obtenir des signaux de vérification objectifs. Manquer une pièce se manifeste ainsi :
- L'Agent modifie le code mais personne ne sait si les tests ont tourné — couche L1 Fact manquante (moteur d'exécution Runner).
- L'Agent n'édite que le fichier ouvert ; les refactors inter-modules relèvent de la devinette — couche L4 Context manquante (triple-connexion MCP).
- Chaque outil fonctionne seul mais une issue complète demande encore 40 minutes de surveillance — couche L5 Workflow manquante (plateforme OpenHands).
- Sur un laptop Windows, vous voulez des builds Xcode mais l'Agent n'a pas de surface d'exécution légale — L0 macOS réel manquant (Cloud Mac vs Mac local).
L'ancien réflexe : « acheter un modèle plus puissant » ; le nouveau : combler exécution et vérification couche par couche. C'est ce que demandent les clients ZavCloud en louant un Cloud Mac — pas si la RAM fait tourner Ollama, mais quel rôle ce nœud joue dans la stack.
2. Comment classer l'infrastructure Agent : six couches, pas six produits
Nous utilisons L0–L5 (cohérent avec la série Stack). Note : les couches sont des responsabilités, pas une liste d'achats obligatoire. Un dev solo peut s'arrêter à L3 ; L2 inférence (Ollama) reste optionnel partout.
| Couche | Rôle | Composants typiques | Sortie | Sans elle |
|---|---|---|---|---|
| L0 | Environnement d'exécution | Mac local / Cloud Mac | Session avec terminal, git, Xcode | L'Agent ne peut que « parler », pas « faire » |
| L1 | Vérification objective | GitHub Runner | Fact (signaux test/build) | L'org ne merge pas les PR Agent |
| L2 | Inférence optionnelle | Ollama / MLX | Inférence locale | Aucun impact (API modèles en substitut) |
| L3 | Pair programming | Claude Code / Cursor Agent | Diff | Pas d'entrée structurée de changement de code |
| L4 | Passerelle de contexte | MCP (GitHub / CodeGraph / API) | Context | Agent aveugle dans les gros dépôts |
| L5 | Workflow autonome | OpenHands etc. | Workflow | Travail multi-étapes encore enchaîné à la main |
Le conflit est clair : les Agents chat s'arrêtent avant L3 ; les Agents d'ingénierie exigent au minimum L0+L3 ; les Agents mergeables exigent L1 ; les Agents scalables discutent L4+L5. Beaucoup d'équipes échouent en sautant des couches — par ex. OpenHands avant le Runner, donc des tâches autonomes modifient le code sans personne pour prouver le build au vert.
3. Comparaison centrale : solo / petite équipe / ingénierie
Colonnes unifiées (comme les articles de comparaison d'outils) : entrée, exécution, contexte, fourchette de coût mensuel, meilleur fit.
| Palier | Entrée | Exécution | Contexte | Coût mensuel | Idéal pour |
|---|---|---|---|---|---|
| Solo · stack minimal | CLI (Claude Code) | Éditions locales + tests manuels | Dépôt courant + @ fichiers manuels | API 20–100 $ | Indés, side projects |
| Petite équipe · stack mergeable | CLI + flux PR | L0 Mac + L1 Runner + L3 Agent | Issues GitHub (L4 optionnel) | API + Cloud Mac à la journée 50–300 $ | Équipes 3–15 ingénieurs |
| Ingénierie · stack autonome | CLI + file L5 | Exécution multi-étapes + boucle CI | MCP L4 complet + CodeGraph | Ci-dessus + ~0,5 ETP maintenance | Équipes avec ingénieurs plateforme |
Matériel : quand L0 et L1 partagent une machine (fréquent), utilisez ce tableau — la RAM plafonne avant le modèle CPU car Agent, Runner et Ollama optionnel se disputent la mémoire unifiée :
| Charge co-localisée | RAM suggérée | Notes |
|---|---|---|
| Runner + Claude Code seulement | M4 16 Go | OK pour dépôts iOS / Node légers |
| Runner + Claude Code + Ollama 7B | M4 24 Go | Voir benchmarks 16 Go vs 24 Go |
| Runner + OpenHands + MCP | M4 24 Go–48 Go | Sandbox L5 + Docker consomme plus de RAM |
| Runners parallèles multiples (grande équipe) | Répartir sur nœuds | Voir un job un workspace |
4. Matrice de scénarios
Triage rapide avec « si vous êtes X, choisissez Y » :
| Si vous êtes… | Stack minimum viable | Pas encore nécessaire |
|---|---|---|
| Solo side project, vous mergez vous-même | L0 Mac local + L3 Claude Code | Runner, MCP, L5 |
| Utilisateur Windows sur iOS / macOS | L0 Cloud Mac + L3 | Rack Mac on-prem |
| Code review d'équipe exige CI au vert | L0 + L1 Runner + L3 | L5 (ne pas sauter d'étapes) |
| Monorepo 100k+ lignes | Ci-dessus + L4 CodeGraph MCP | Fenêtre de contexte seule |
| 5+ issues similaires par jour | Stack complète jusqu'à L5 OpenHands | Enchaînement manuel de sessions Claude |
| Conformité stricte / résidence des données | L0 dédié + L2 inférence locale optionnelle | Secrets prod dans MCP |
5. Stacks recommandées : trois recettes copier-coller
Stack A · Lancement solo le plus rapide (moins d'un jour)
L0 MacBook local ou Cloud Mac à la journée L3 Claude Code (guide d'installation) Modèle Abonnement API Anthropic À ignorer : Runner, MCP, base vectorielle, K8s
Stack B · Petite équipe mergeable (1–2 semaines)
L0 Cloud Mac M4 16 Go nœud always-on L1 GitHub Actions Runner self-hosted (ça vaut le coup ?) L3 Claude Code + CLAUDE.md d'équipe L4 GitHub MCP lecture seule (piloté par issues) L2 optionnel : Ollama 7B pour brouillons privés, hors chemin critique
Stack C · Livraison autonome ingénierie (1 mois+)
L0 Cloud Mac M4 24 Go+ L1 Runner · un job un workspace L3 Claude Code L4 Triple-connexion MCP + CodeGraph L5 OpenHands (dépôt sandbox d'abord) Orchestration Déclencheurs OpenClaw + audit (optionnel) Ligne rouge : API prod / creds Runner jamais dans MCP (guide permissions)
6. Erreurs fréquentes : cinq interdits
- Traiter l'API modèle comme infrastructure complète. L'API résout « penser », pas « faire » ni « vérifier ».
- Ouvrir les écritures dépôt L5 sans Runner. Agent autonome sans couche Fact, c'est écrire à l'aveugle — coût de rollback extrême.
- Construire base vectorielle + plateforme RAG dès le jour 1. La plupart des goulots Agent code sont du contexte symbolique (CodeGraph), pas de la recherche par embeddings.
- VM Windows faisant office de CI macOS. Signature, notarisation et tests appareil exigent toujours du vrai Apple Silicon.
- Acheter la liste complète d'un autre. Écrire d'abord la frontière d'exécution, ajouter les couches progressivement ; profondeur de stack ≠ effectif de l'équipe.
7. Déploiement : checklist en 7 étapes
- Définir la frontière d'exécution — Lister les actions Agent autorisées : quels répertoires, shell, déclencheurs prod.
- Confirmer L0 — Xcode / notarisation exigent macOS ; évaluer louer vs acheter un Mac.
- Ajouter l'Agent de code L3 — Un fichier, un dépôt d'abord ; rédiger CLAUDE.md / normes de prompt d'équipe.
- Mettre en place le Runner L1 — Séparer jobs macOS et Linux ; isoler secrets des tokens Agent.
- Ajouter MCP L4 si besoin — Lecture seule par défaut ; écriture via token éphémère sur service séparé.
- Évaluer L5 — Deux semaines d'enchaînement manuel d'outils → ajouter Workflow type OpenHands.
- Audit et lignes rouges — Mapper chaque tâche autonome vers PR + ID run CI ; revue trimestrielle de la matrice de permissions.
Test d'acceptation d'une semaine
Prenez une vraie issue : du changement Agent au CI au vert sans que personne relance les tests à la main — cela signifie que L0+L1+L3 suffit ; sinon, n'ajoutez pas L5 tout de suite.
FAQ
Quel est le minimum pour un développeur Agent IA solo ?
macOS avec terminal (local ou Cloud Mac) + Agent de code (ex. Claude Code) + API modèle. Pas de Runner self-hosted, MCP ni plateforme Workflow.
Pourquoi GitHub Runner si j'ai Claude Code ?
Claude Code produit le Diff ; le Runner produit le Fact. Sans signaux de build objectifs, l'équipe ne peut pas juger la mergeabilité — confiance, pas QI du modèle.
Le MCP compte-t-il comme infrastructure ?
Oui, couche de contexte L4. Il expose issues et graphes de code ; sans exécution et vérification L0–L3, MCP seul ne livre pas.
Quand faut-il OpenHands ?
Livraison non supervisée de demandes complètes (multi-fichiers, tests multi-tours, PR auto) avec L1+L4 stables. Sessions Claude manuelles quotidiennes = il vous manque la couche Workflow.
Combien coûte l'infrastructure ?
Solo : API 20–200 $/mois. Petite équipe : ajouter Cloud Mac à la journée et nœud Runner. Stack L5 : M4 24 Go co-localisé, budgéter ~0,5 personne pour MCP et permissions.
Conclusion
De quelle infrastructure un Agent IA a besoin dépend de là où s'arrête la frontière d'exécution — pas du classement des modèles. Solo : L3 suffit pour démarrer ; les orgs qui doivent merger ajoutent L1 ; les gros dépôts ajoutent L4 ; la livraison non supervisée ajoute L5. En achetant un Cloud Mac ou un Mac mini, demandez si la machine est « surface d'exécution », « surface de vérification » ou « surface d'inférence » — cela vaut mieux que fixer les chiffres TOPS.
ZavCloud Cloud Mac
Donnez à votre Agent un vrai macOS qui agit et vérifie la CI
Mac mini M4 dédié en datacenter : Runner, Claude Code et MCP sur un même nœud — payez à la journée pour tester la stack avant de scaler.
Voir les tarifs Cloud Mac