De quelle infrastructure un Agent IA a-t-il besoin ?

En résumé d'abord : ne demandez pas combien de serveurs acheter — demandez à quelle couche s'arrête la frontière d'exécution de votre Agent. Les développeurs solo ont souvent besoin seulement de L0–L3 ; les équipes qui doivent prouver les builds ajoutent le Runner ; la livraison de bout en bout non supervisée, c'est là qu'une plateforme Workflow devient rentable.

18.06.2026  ·  ~10 min  ·  Décisions par couches · Tableaux de specs · Checklist de déploiement

Baies de serveurs en datacenter symbolisant l'infrastructure d'exécution et de vérification en couches pour les Agents IA

Ces six derniers mois, en accompagnant des dizaines d'équipes qui évaluent le passage « Agent », nous avons entendu deux extrêmes le plus souvent : soit elles n'ont acheté qu'une API modèle en espérant qu'elle édite la prod seule ; soit elles ont déployé Kubernetes + une base vectorielle + trois serveurs MCP + une plateforme Agent autonome — et personne ne l'a maintenu trois mois plus tard. Ce qui bloque réellement la livraison, ce n'est rarement « le modèle n'est pas assez intelligent », mais un mauvais alignement entre environnement d'exécution, chaîne de vérification et passerelle de contexte. Cet article s'appuie sur le découpage en couches du Cloud Mac AI Stack pour transformer « de quelle infrastructure un Agent IA a-t-il besoin ? » en tableaux de décision — vous pouvez caler votre taille d'équipe au lieu de copier la liste d'achats d'un blog architecture tiers.

6
Couches d'infrastructure
3
Paliers d'équipe
16 Go
RAM de base Runner équipe

Enseignement asymétrique

La capacité du modèle n'est pas la ligne de partage — la frontière d'exécution l'est. Le même Claude dans une interface web chat-only donne des conseils ; sur un nœud macOS avec terminal, git et Runner, il produit des PR mergeables. L'infrastructure achète qui peut agir dans quel environnement, pas des FLOPS bruts.

1. Pourquoi ce problème existe : « savoir discuter » ≠ « savoir livrer »

Depuis que le mot « Agent » est surchargé, beaucoup confondent interfaces de chat et Agents d'ingénierie. Le chat ne demande qu'une API modèle ; les Agents d'ingénierie doivent au minimum lire le dépôt, éditer des fichiers, exécuter des commandes et obtenir des signaux de vérification objectifs. Manquer une pièce se manifeste ainsi :

  • L'Agent modifie le code mais personne ne sait si les tests ont tourné — couche L1 Fact manquante (moteur d'exécution Runner).
  • L'Agent n'édite que le fichier ouvert ; les refactors inter-modules relèvent de la devinette — couche L4 Context manquante (triple-connexion MCP).
  • Chaque outil fonctionne seul mais une issue complète demande encore 40 minutes de surveillance — couche L5 Workflow manquante (plateforme OpenHands).
  • Sur un laptop Windows, vous voulez des builds Xcode mais l'Agent n'a pas de surface d'exécution légale — L0 macOS réel manquant (Cloud Mac vs Mac local).

L'ancien réflexe : « acheter un modèle plus puissant » ; le nouveau : combler exécution et vérification couche par couche. C'est ce que demandent les clients ZavCloud en louant un Cloud Mac — pas si la RAM fait tourner Ollama, mais quel rôle ce nœud joue dans la stack.

2. Comment classer l'infrastructure Agent : six couches, pas six produits

Nous utilisons L0–L5 (cohérent avec la série Stack). Note : les couches sont des responsabilités, pas une liste d'achats obligatoire. Un dev solo peut s'arrêter à L3 ; L2 inférence (Ollama) reste optionnel partout.

Couche Rôle Composants typiques Sortie Sans elle
L0 Environnement d'exécution Mac local / Cloud Mac Session avec terminal, git, Xcode L'Agent ne peut que « parler », pas « faire »
L1 Vérification objective GitHub Runner Fact (signaux test/build) L'org ne merge pas les PR Agent
L2 Inférence optionnelle Ollama / MLX Inférence locale Aucun impact (API modèles en substitut)
L3 Pair programming Claude Code / Cursor Agent Diff Pas d'entrée structurée de changement de code
L4 Passerelle de contexte MCP (GitHub / CodeGraph / API) Context Agent aveugle dans les gros dépôts
L5 Workflow autonome OpenHands etc. Workflow Travail multi-étapes encore enchaîné à la main

Le conflit est clair : les Agents chat s'arrêtent avant L3 ; les Agents d'ingénierie exigent au minimum L0+L3 ; les Agents mergeables exigent L1 ; les Agents scalables discutent L4+L5. Beaucoup d'équipes échouent en sautant des couches — par ex. OpenHands avant le Runner, donc des tâches autonomes modifient le code sans personne pour prouver le build au vert.

3. Comparaison centrale : solo / petite équipe / ingénierie

Colonnes unifiées (comme les articles de comparaison d'outils) : entrée, exécution, contexte, fourchette de coût mensuel, meilleur fit.

Palier Entrée Exécution Contexte Coût mensuel Idéal pour
Solo · stack minimal CLI (Claude Code) Éditions locales + tests manuels Dépôt courant + @ fichiers manuels API 20–100 $ Indés, side projects
Petite équipe · stack mergeable CLI + flux PR L0 Mac + L1 Runner + L3 Agent Issues GitHub (L4 optionnel) API + Cloud Mac à la journée 50–300 $ Équipes 3–15 ingénieurs
Ingénierie · stack autonome CLI + file L5 Exécution multi-étapes + boucle CI MCP L4 complet + CodeGraph Ci-dessus + ~0,5 ETP maintenance Équipes avec ingénieurs plateforme

Matériel : quand L0 et L1 partagent une machine (fréquent), utilisez ce tableau — la RAM plafonne avant le modèle CPU car Agent, Runner et Ollama optionnel se disputent la mémoire unifiée :

Charge co-localisée RAM suggérée Notes
Runner + Claude Code seulement M4 16 Go OK pour dépôts iOS / Node légers
Runner + Claude Code + Ollama 7B M4 24 Go Voir benchmarks 16 Go vs 24 Go
Runner + OpenHands + MCP M4 24 Go–48 Go Sandbox L5 + Docker consomme plus de RAM
Runners parallèles multiples (grande équipe) Répartir sur nœuds Voir un job un workspace

4. Matrice de scénarios

Triage rapide avec « si vous êtes X, choisissez Y » :

Si vous êtes… Stack minimum viable Pas encore nécessaire
Solo side project, vous mergez vous-même L0 Mac local + L3 Claude Code Runner, MCP, L5
Utilisateur Windows sur iOS / macOS L0 Cloud Mac + L3 Rack Mac on-prem
Code review d'équipe exige CI au vert L0 + L1 Runner + L3 L5 (ne pas sauter d'étapes)
Monorepo 100k+ lignes Ci-dessus + L4 CodeGraph MCP Fenêtre de contexte seule
5+ issues similaires par jour Stack complète jusqu'à L5 OpenHands Enchaînement manuel de sessions Claude
Conformité stricte / résidence des données L0 dédié + L2 inférence locale optionnelle Secrets prod dans MCP

5. Stacks recommandées : trois recettes copier-coller

Stack A · Lancement solo le plus rapide (moins d'un jour)

L0  MacBook local ou Cloud Mac à la journée
L3  Claude Code (guide d'installation)
Modèle  Abonnement API Anthropic

À ignorer : Runner, MCP, base vectorielle, K8s

Stack B · Petite équipe mergeable (1–2 semaines)

L0  Cloud Mac M4 16 Go nœud always-on
L1  GitHub Actions Runner self-hosted (ça vaut le coup ?)
L3  Claude Code + CLAUDE.md d'équipe
L4  GitHub MCP lecture seule (piloté par issues)

L2 optionnel : Ollama 7B pour brouillons privés, hors chemin critique

Stack C · Livraison autonome ingénierie (1 mois+)

L0  Cloud Mac M4 24 Go+
L1  Runner · un job un workspace
L3  Claude Code
L4  Triple-connexion MCP + CodeGraph
L5  OpenHands (dépôt sandbox d'abord)
Orchestration  Déclencheurs OpenClaw + audit (optionnel)

Ligne rouge : API prod / creds Runner jamais dans MCP (guide permissions)

6. Erreurs fréquentes : cinq interdits

  1. Traiter l'API modèle comme infrastructure complète. L'API résout « penser », pas « faire » ni « vérifier ».
  2. Ouvrir les écritures dépôt L5 sans Runner. Agent autonome sans couche Fact, c'est écrire à l'aveugle — coût de rollback extrême.
  3. Construire base vectorielle + plateforme RAG dès le jour 1. La plupart des goulots Agent code sont du contexte symbolique (CodeGraph), pas de la recherche par embeddings.
  4. VM Windows faisant office de CI macOS. Signature, notarisation et tests appareil exigent toujours du vrai Apple Silicon.
  5. Acheter la liste complète d'un autre. Écrire d'abord la frontière d'exécution, ajouter les couches progressivement ; profondeur de stack ≠ effectif de l'équipe.

7. Déploiement : checklist en 7 étapes

  1. Définir la frontière d'exécution — Lister les actions Agent autorisées : quels répertoires, shell, déclencheurs prod.
  2. Confirmer L0 — Xcode / notarisation exigent macOS ; évaluer louer vs acheter un Mac.
  3. Ajouter l'Agent de code L3 — Un fichier, un dépôt d'abord ; rédiger CLAUDE.md / normes de prompt d'équipe.
  4. Mettre en place le Runner L1 — Séparer jobs macOS et Linux ; isoler secrets des tokens Agent.
  5. Ajouter MCP L4 si besoin — Lecture seule par défaut ; écriture via token éphémère sur service séparé.
  6. Évaluer L5 — Deux semaines d'enchaînement manuel d'outils → ajouter Workflow type OpenHands.
  7. Audit et lignes rouges — Mapper chaque tâche autonome vers PR + ID run CI ; revue trimestrielle de la matrice de permissions.

Test d'acceptation d'une semaine

Prenez une vraie issue : du changement Agent au CI au vert sans que personne relance les tests à la main — cela signifie que L0+L1+L3 suffit ; sinon, n'ajoutez pas L5 tout de suite.

FAQ

Quel est le minimum pour un développeur Agent IA solo ?

macOS avec terminal (local ou Cloud Mac) + Agent de code (ex. Claude Code) + API modèle. Pas de Runner self-hosted, MCP ni plateforme Workflow.

Pourquoi GitHub Runner si j'ai Claude Code ?

Claude Code produit le Diff ; le Runner produit le Fact. Sans signaux de build objectifs, l'équipe ne peut pas juger la mergeabilité — confiance, pas QI du modèle.

Le MCP compte-t-il comme infrastructure ?

Oui, couche de contexte L4. Il expose issues et graphes de code ; sans exécution et vérification L0–L3, MCP seul ne livre pas.

Quand faut-il OpenHands ?

Livraison non supervisée de demandes complètes (multi-fichiers, tests multi-tours, PR auto) avec L1+L4 stables. Sessions Claude manuelles quotidiennes = il vous manque la couche Workflow.

Combien coûte l'infrastructure ?

Solo : API 20–200 $/mois. Petite équipe : ajouter Cloud Mac à la journée et nœud Runner. Stack L5 : M4 24 Go co-localisé, budgéter ~0,5 personne pour MCP et permissions.

Conclusion

De quelle infrastructure un Agent IA a besoin dépend de là où s'arrête la frontière d'exécution — pas du classement des modèles. Solo : L3 suffit pour démarrer ; les orgs qui doivent merger ajoutent L1 ; les gros dépôts ajoutent L4 ; la livraison non supervisée ajoute L5. En achetant un Cloud Mac ou un Mac mini, demandez si la machine est « surface d'exécution », « surface de vérification » ou « surface d'inférence » — cela vaut mieux que fixer les chiffres TOPS.

ZavCloud Cloud Mac

Donnez à votre Agent un vrai macOS qui agit et vérifie la CI

Mac mini M4 dédié en datacenter : Runner, Claude Code et MCP sur un même nœud — payez à la journée pour tester la stack avant de scaler.

Voir les tarifs Cloud Mac
Cloud Mac Tester un nœud d'exécution Agent