In den letzten sechs Monaten, als wir Dutzende Teams bei der Bewertung von „Agent-Einführung“ begleitet haben, hörten wir am häufigsten zwei Extreme: entweder sie kauften nur eine Modell-API und erwarteten, dass sie allein die Produktion bearbeitet; oder sie rollten Kubernetes + Vektordatenbank + drei MCP-Server + eine autonome Agent-Plattform aus — und drei Monate später pflegte niemand mehr etwas. Was die Lieferung wirklich blockiert, ist selten „das Modell ist nicht schlau genug“, sondern fehlende Abstimmung von Ausführungsumgebung, Verifikationskette und Kontext-Gateway. Dieser Artikel nutzt die Schichtlogik des Cloud-Mac-AI-Stacks, um „Wie viel Infrastruktur braucht ein AI Agent?“ in Entscheidungstabellen zu übersetzen — Sie können Ihre Teamgröße zuordnen, statt die Einkaufsliste aus fremden Architektur-Blogs zu kopieren. Die Schichten L0 bis L5 sind dabei keine Marketing-Schubladen, sondern eine gemeinsame Sprache zwischen Entwicklung, Platform und Budget.
Asymmetrische Erkenntnis
Modellfähigkeit ist nicht die Trennlinie — die Ausführungsgrenze ist es. Derselbe Claude in einer reinen Chat-Web-UI liefert Ratschläge; auf einem macOS-Knoten mit Terminal, git und Runner produziert er mergebare PRs. Infrastruktur kauft wer in welcher Umgebung handeln darf, nicht rohe FLOPS.
1. Warum dieses Problem existiert: „kann chatten“ ≠ „kann liefern“
Seit „Agent“ überladen wurde, verwechseln viele Chat-Oberflächen mit Engineering-Agents. Chat braucht nur eine Modell-API; Engineering-Agents müssen mindestens das Repo lesen, Dateien bearbeiten, Befehle ausführen und objektive Verifikationssignale erhalten. Fehlt ein Teil, zeigt sich das so:
- Der Agent ändert Code, aber niemand weiß, ob Tests gelaufen sind — fehlendes L1 Fact (Runner-Ausführungsengine).
- Der Agent bearbeitet nur die geöffnete Datei; modulübergreifende Refactorings sind Raten — fehlendes L4 Context (MCP-Dreifach-Anbindung).
- Jedes Tool funktioniert einzeln, aber ein ganzes Issue braucht noch 40 Minuten Aufsicht — fehlendes L5 Workflow (OpenHands-Plattform).
- Auf einem Windows-Laptop soll Xcode bauen, aber der Agent hat keine legale Ausführungsoberfläche — fehlendes L0 echtes macOS (Cloud Mac vs. lokaler Mac).
Der alte Reflex lautet „stärkeres Modell kaufen“; der neue lautet Schicht für Schicht Ausführung und Verifikation ergänzen. Genau das fragen ZavCloud-Kunden beim Mieten eines Cloud Mac — nicht, ob der RAM Ollama trägt, sondern welche Rolle dieser Knoten im Stack spielt. Wer nur den Modellpreis vergleicht, übersieht oft, dass ein günstigeres API-Abo ohne L0 und L1 keine einzige mergebare Zeile Code mehr liefert als vorher.
2. Agent-Infrastruktur klassifizieren: sechs Schichten, nicht sechs Produkte
Wir nutzen L0–L5 (konsistent mit der Stack-Serie). Wichtig: Schichten sind Verantwortlichkeiten, keine Pflicht-Einkaufsliste. Solo-Entwickler können bei L3 stoppen; L2 Inference (Ollama) ist durchgehend optional.
| Schicht | Rolle | Typische Komponenten | Output | Ohne sie |
|---|---|---|---|---|
| L0 | Ausführungsumgebung | Lokaler Mac / Cloud Mac | Session mit Terminal, git, Xcode | Agent kann nur „reden“, nicht „tun“ |
| L1 | Objektive Verifikation | GitHub Runner | Fact (Test-/Build-Signale) | Organisation merged Agent-PRs nicht |
| L2 | Optionale Inference | Ollama / MLX | Lokale Inference | Kein Einfluss (API-Modelle ersetzen) |
| L3 | Pair Programming | Claude Code / Cursor Agent | Diff | Kein strukturierter Code-Change-Einstieg |
| L4 | Kontext-Gateway | MCP (GitHub / CodeGraph / API) | Context | Agent blind in großen Repos |
| L5 | Autonomer Workflow | OpenHands u. a. | Workflow | Mehrschritt-Arbeit noch manuell verkettet |
Der Konflikt ist klar: Chat-Agents stoppen vor L3; Engineering-Agents brauchen mindestens L0+L3; mergebare Agents brauchen L1; skalierbare Agents diskutieren L4+L5. Viele Teams scheitern, weil sie Schichten überspringen — z. B. OpenHands vor Runner, sodass autonome Aufgaben Code ändern, ohne dass jemand einen grünen Build nachweist. Die Reihenfolge ist absichtlich: Jede Schicht beantwortet eine andere Frage — „Wo darf der Agent handeln?“, „Wer glaubt dem Ergebnis?“, „Woher kommt der Kontext?“, „Wer orchestriert mehrere Schritte?“
3. Kernvergleich: Solo / kleines Team / Engineering-Stufe
Einheitliche Spalten (wie in Tool-Vergleichsartikeln): Einstieg, Ausführung, Kontext, monatliche Kostenbandbreite, beste Passung.
| Stufe | Einstieg | Ausführung | Kontext | Monatliche Kosten | Am besten für |
|---|---|---|---|---|---|
| Solo · minimaler Stack | CLI (Claude Code) | Lokale Dateiänderungen + manuelle Tests | Aktuelles Repo + manuelles @-Dateien | API 20–100 $ | Indie-Devs, Nebenprojekte |
| Kleines Team · mergebarer Stack | CLI + PR-Flow | L0 Mac + L1 Runner + L3 Agent | GitHub Issues (optional L4) | API + Cloud Mac nach Tag 50–300 $ | Teams mit 3–15 Ingenieuren |
| Engineering · autonomer Stack | CLI + L5 Task-Queue | Mehrschritt-Ausführung + CI-Schleife | Volles L4 MCP + CodeGraph | Obiges + ~0,5 FTE Wartung | Teams mit Plattform-Ingenieuren |
Hardware: Wenn L0 und L1 eine Maschine teilen (üblich), gilt diese Tabelle — RAM stößt vor dem CPU-Modell an die Decke, weil Agent, Runner und optional Ollama um Unified Memory konkurrieren:
| Ko-lokale Last | Empfohlenes RAM | Hinweise |
|---|---|---|
| Nur Runner + Claude Code | M4 16GB | Reicht für leichte iOS- / Node-Repos |
| Runner + Claude Code + Ollama 7B | M4 24GB | Siehe 16GB vs. 24GB Benchmarks |
| Runner + OpenHands + MCP | M4 24GB–48GB | L5-Sandbox + Docker brauchen extra RAM |
| Mehrere parallele Runner (großes Team) | Auf Knoten verteilen | Siehe ein Job ein Workspace |
4. Szenario-Matrix
Schnelle Triage mit „Wenn Sie X sind, wählen Sie Y“:
| Wenn Sie … | Minimaler Stack | Noch nicht nötig |
|---|---|---|
| Solo-Nebenprojekt, Sie mergen selbst | L0 lokaler Mac + L3 Claude Code | Runner, MCP, L5 |
| Windows-Nutzer mit iOS / macOS | L0 Cloud Mac + L3 | Eigenes Mac-Rack |
| Team-Code-Review verlangt grünes CI | L0 + L1 Runner + L3 | L5 (nicht vorspringen) |
| Monorepo mit 100k+ Zeilen | Obiges + L4 CodeGraph MCP | Nur Kontextfenster |
| 5+ ähnliche Issues pro Tag | Voller Stack bis L5 OpenHands | Manuelles Verketten von Claude-Sessions |
| Strikte Compliance / Datenresidenz | Dediziertes L0 + optional L2 lokale Inference | Prod-Secrets in MCP |
5. Empfohlene Stacks: drei Copy-Paste-Rezepte
Stack A · Schnellster Solo-Start (innerhalb 1 Tag)
L0 Lokales MacBook oder Cloud Mac nach Tag L3 Claude Code (Installationshandbuch) Modell Anthropic-API-Abo Überspringen: Runner, MCP, Vektordatenbank, K8s
Stack B · Kleines Team mergebar (1–2 Wochen)
L0 Cloud Mac M4 16GB Always-on-Knoten L1 GitHub Actions selbst gehosteter Runner (lohnt sich?) L3 Claude Code + Team-CLAUDE.md L4 GitHub MCP read-only (issue-getrieben) Optional L2: Ollama 7B für private Entwürfe, nicht im kritischen Pfad
Stack C · Engineering autonome Lieferung (1 Monat+)
L0 Cloud Mac M4 24GB+ L1 Runner · ein Job ein Workspace L3 Claude Code L4 MCP-Dreifach-Anbindung + CodeGraph L5 OpenHands (zuerst Sandbox-Repo) Orchestrierung OpenClaw Trigger + Audit (optional) Rote Linie: Prod-API / Runner-Credentials nie in MCP (Berechtigungsleitfaden)
6. Typische Fehler: fünf Tabus
- Modell-API als vollständige Infrastruktur behandeln. API löst „denken“, nicht „tun“ und „verifizieren“.
- L5-Repo-Schreibzugriff ohne Runner öffnen. Autonomer Agent ohne Fact-Schicht ist blindes Schreiben — Rollback-Kosten extrem.
- Am ersten Tag Vektordatenbank + RAG-Plattform bauen. Die meisten Code-Agent-Engpässe sind symbolischer Kontext (CodeGraph), nicht Embedding-Suche.
- VM unter Windows als macOS-CI vortäuschen. Signierung, Notarisierung und Gerätetests brauchen echtes Apple Silicon.
- Fremde Voll-Einkaufsliste übernehmen. Zuerst Ausführungsgrenze schreiben, Schichten inkrementell ergänzen; Stack-Tiefe ≠ Teamgröße.
7. Rollout: 7-Schritte-Checkliste
- Ausführungsgrenze definieren — Erlaubte Agent-Aktionen auflisten: welche Verzeichnisse, Shell, Prod-Trigger.
- L0 bestätigen — Xcode / Notarisierung braucht macOS; Mieten vs. Kaufen evaluieren.
- L3 Coding-Agent hinzufügen — Zuerst einzelne Datei, ein Repo; CLAUDE.md / Team-Prompt-Normen schreiben.
- L1 Runner aufsetzen — macOS- und Linux-Jobs trennen; Secrets von Agent-Tokens trennen.
- L4 MCP bei Bedarf — Standard read-only; Schreibzugriff über kurzlebigen Token auf separatem Service.
- L5 evaluieren — Zwei Wochen noch manuelles Verketten → OpenHands-Workflow-Schicht.
- Audit und rote Linien — Jede autonome Aufgabe auf PR + CI-Run-ID abbilden; vierteljährliche Berechtigungsmatrix prüfen.
Ein-Wochen-Abnahmetest
Wählen Sie ein echtes Issue: vom Agent-Change bis grünes CI ohne manuelles Nachlaufen von Tests — dann reicht L0+L1+L3; sonst L5 noch nicht ergänzen.
FAQ
Was ist das Minimum für einen Solo-AI-Agent-Entwickler?
macOS mit Terminal (lokal oder Cloud Mac) + Coding-Agent (z. B. Claude Code) + Modell-API. Kein selbst gehosteter Runner, MCP oder Workflow-Plattform.
Warum GitHub Runner, wenn ich Claude Code habe?
Claude Code liefert Diff; Runner liefert Fact. Ohne objektive Build-Signale kann das Team Mergebarkeit nicht beurteilen — Vertrauen, nicht Modell-IQ.
Zählt MCP als Infrastruktur?
Ja, L4-Kontextschicht. Es exponiert Issues und Code-Graphen; ohne L0–L3 Ausführung und Verifikation liefert MCP allein nichts.
Wann brauche ich OpenHands?
Unbeaufsichtigte Lieferung ganzer Anforderungen (mehrere Dateien, mehrere Testrunden, Auto-PR) mit stabilen L1+L4. Tägliche manuelle Claude-Sessions bedeuten: Workflow-Schicht fehlt.
Was kostet die Infrastruktur?
Solo: API 20–200 $/Monat. Kleines Team: Cloud Mac nach Tag und Runner-Knoten hinzufügen. L5-Stack: M4 24GB ko-lokal, ~0,5 Person für MCP und Berechtigungen einplanen.
Fazit
Wie viel Infrastruktur ein AI Agent braucht, hängt davon ab, wo die Ausführungsgrenze endet — nicht von der Modell-Rangliste. Solo: L3 reicht zum Start; Organisationen, die mergen müssen, ergänzen L1; große Repos L4; unbeaufsichtigte Lieferung L5. Beim Kauf von Cloud Mac oder Mac mini fragen Sie, ob die Maschine „Ausführungsoberfläche“, „Verifikationsoberfläche“ oder „Inference-Oberfläche“ ist — das schlägt TOPS-Zahlen. Wer diese Zuordnung einmal schriftlich festhält, spart sich später teure Umplanungen, wenn der nächste Modellwechsel ansteht.
ZavCloud Cloud Mac
Echtem macOS geben, auf dem Ihr Agent handeln und CI verifizieren kann
Dedizierter Rechenzentrum-Mac mini M4: Runner, Claude Code und MCP auf einem Knoten — nach Tag testen, dann skalieren.
Cloud-Mac-Preise ansehen