过去半年,我们帮数十个团队评估「上 Agent」时,听到最多的两个极端:要么只买了一个模型 API,指望它能自己改生产;要么一口气上了 Kubernetes + 向量库 + 三套 MCP + 自主 Agent 平台,结果三个月没人维护。 真正卡住交付的,很少是「模型不够聪明」,而是执行环境、验证链路、上下文网关三层没对齐。本文用 Cloud Mac AI Stack 的分层语言,把「一个 AI Agent 需要多少基础设施」拆成可决策的表格——你可以按团队规模对号入座,而不是照抄某篇架构软文的全家桶。
非对称结论
模型能力不是分水岭,执行边界才是。 同一款 Claude,挂在只有 Chat 的网页里只能给建议;挂在有终端、有 git、有 Runner 的 macOS 节点上,才能产出可合并的 PR。基础设施买的不是算力,是谁有权在什么环境里动手。
1. 问题为什么存在:「能聊天」≠「能交付」
Agent 这个词被滥用之后,很多人把对话接口和工程 Agent混为一谈。对话接口只需要模型 API;工程 Agent 至少要能:读仓库、改文件、跑命令、拿到客观验证信号。缺任何一环,就会出现典型症状:
- Agent 改完代码,没人知道测试过没有——缺 L1 Fact(Runner 执行引擎)。
- Agent 只能改当前打开的文件,跨模块 refactor 靠猜——缺 L4 Context(MCP 三连通)。
- 每个工具单独好用,整条 issue 仍要人盯 40 分钟——缺 L5 Workflow(OpenHands 平台)。
- Windows 笔记本上想跑 Xcode 构建,Agent 根本没有合法执行面——缺 L0 真 macOS(Cloud Mac vs 本地 Mac)。
旧思路是「买个更强的模型」;新思路是按层补齐执行与验证能力。这也是 ZavCloud 客户在租 Cloud Mac 时最常问的问题——不是内存够不够跑 Ollama,而是这层节点在栈里承担什么角色。
2. Agent 基础设施怎么分类:六层,不是六个产品
下面用 L0–L5 记法(与 Stack 连载一致)。注意:层是职责,不是必买清单。个人开发者可以停在 L3;L2 推理层(Ollama)全程可选。
| 层 | 职责 | 典型组件 | 产出物 | 没有会怎样 |
|---|---|---|---|---|
| L0 | 执行环境 | 本地 Mac / Cloud Mac | 可跑终端、git、Xcode 的会话 | Agent 只能「说」,不能「做」 |
| L1 | 客观验证 | GitHub Runner | Fact(测试/构建信号) | 组织不敢合并 Agent 的 PR |
| L2 | 可选推理 | Ollama / MLX | 本地 Inference | 无影响(API 模型可替代) |
| L3 | 结对编码 | Claude Code / Cursor Agent | Diff | 没有结构化代码改动入口 |
| L4 | 上下文网关 | MCP(GitHub / CodeGraph / API) | Context | 大仓里 Agent 盲人摸象 |
| L5 | 自主工作流 | OpenHands 等 | Workflow | 多步需求仍靠人肉串工具 |
冲突结构在这里很清晰:Chat 型 Agent 停在 L3 之前;工程型 Agent 至少要到 L0+L3;可合并的 Agent 必须到 L1;可规模化的 Agent 才讨论 L4+L5。 许多团队翻车,是因为跳层——例如还没 Runner 就上 OpenHands,自主任务改完代码却无人证明能 build。
3. 核心对比:个人 / 小团队 / 工程化三档
统一字段对照(与工具对比文一致):入口、执行能力、上下文、成本量级、适合人群。
| 档位 | 入口 | 执行能力 | 上下文 | 月成本量级 | 适合人群 |
|---|---|---|---|---|---|
| 个人 · 最小栈 | CLI(Claude Code) | 本地改文件 + 手跑测试 | 当前仓库 + 手动 @ 文件 | API $20–100 | 独立开发者、副业项目 |
| 小团队 · 可合并栈 | CLI + PR 流程 | L0 Mac + L1 Runner + L3 Agent | GitHub issue(可选 L4) | API + Cloud Mac 按日 $50–300 | 3–15 人工程团队 |
| 工程化 · 自主栈 | CLI + L5 任务队列 | 多步执行 + CI 闭环 | L4 MCP 全量 + CodeGraph | 上档 + 维护人力 0.5 FTE | 有专职平台工程师的团队 |
硬件规格方面,若 L0 与 L1 同机(常见做法),参考下表——内存比 CPU 型号更先触顶,因为 Agent、Runner、可选 Ollama 会争用统一内存:
| 同机负载 | 建议内存 | 说明 |
|---|---|---|
| 仅 Runner + Claude Code | M4 16GB | 轻量 iOS / Node 仓库够用 |
| Runner + Claude Code + Ollama 7B | M4 24GB | 见 16GB vs 24GB 实测 |
| Runner + OpenHands + MCP | M4 24GB–48GB | L5 沙盒 + Docker 额外吃内存 |
| 多 Runner 并行(大团队) | 多节点拆分 | 见 一 Job 一 Workspace |
4. 场景怎么选:决策矩阵
用「如果你是 X,就选 Y」快速分流:
| 如果你是… | 最低可行栈 | 暂不需要 |
|---|---|---|
| 个人 side project,自己 merge | L0 本地 Mac + L3 Claude Code | Runner、MCP、L5 |
| Windows 用户做 iOS / macOS | L0 Cloud Mac + L3 | 自建机房 Mac |
| 团队 code review 必过 CI | L0 + L1 Runner + L3 | L5(先别跳) |
| 10 万行以上 monorepo | 上档 + L4 CodeGraph MCP | 只靠模型上下文窗口 |
| 每天要跑 5+ 条类似 issue | 全栈至 L5 OpenHands | 纯人工串 Claude 会话 |
| 强合规 / 数据不出境 | 独享 L0 + 可选 L2 本地推理 | 把生产密钥挂进 MCP |
5. 推荐组合:三档可直接抄的 Stack
组合 A · 个人最快上线(1 天内)
L0 本地 MacBook 或按日 Cloud Mac L3 Claude Code(安装手册) 模型 Anthropic API 订阅 不做:Runner、MCP、向量库、K8s
组合 B · 小团队可合并(1–2 周)
L0 Cloud Mac M4 16GB 常驻节点 L1 GitHub Actions 自托管 Runner(值不值得) L3 Claude Code + CLAUDE.md 团队规范 L4 GitHub MCP 只读(issue 驱动) 可选 L2:Ollama 7B 做私有草稿,不挡主路径
组合 C · 工程化自主交付(1 月+)
L0 Cloud Mac M4 24GB+ L1 Runner · 一 job 一 workspace L3 Claude Code L4 MCP 三连通 + CodeGraph L5 OpenHands(沙盒仓库先试) 编排 OpenClaw 做触发与审计(可选) 红线:生产 API / Runner 凭据不进 MCP(权限规范)
6. 常见误区:五件事别做
- 把模型 API 当完整基础设施。 API 只解决「想」,不解决「做」和「验」。
- 没 Runner 就开放 L5 写仓库。 自主 Agent 没有 Fact 层等于盲写,回滚成本极高。
- 一上来就建向量库 + RAG 平台。 多数代码 Agent 瓶颈在符号级上下文(CodeGraph),不是.embedding 检索。
- Windows 上装虚拟机冒充 macOS CI。 签名、公证、真机测试仍要 Apple Silicon 真环境。
- 按「别人全家桶」采购。 先写清执行边界,再按层加购;Stack 层数与团队人数不是线性关系。
7. 落地步骤:7 步清单
- 划定执行边界 — 列出 Agent 允许的操作:改哪些目录、能否跑 shell、能否触发生产。
- 确认 L0 — 需要 Xcode / 公证则必须 macOS;评估 租还是买 Mac。
- 接入 L3 编码 Agent — 先单文件、单仓库跑通;写好 CLAUDE.md / 团队 Prompt 规范。
- 立 L1 Runner — macOS job 与 Linux job 分开;密钥与 Agent token 分账。
- 按需 L4 MCP — 默认只读;写权限用短命 token 单独服务。
- 评估 L5 — 连续两周仍手动串工具,再引入 OpenHands 类 Workflow。
- 审计与红线 — 每次自主任务可映射到 PR + CI run ID;季度复查权限矩阵。
一周验收标准
选一条真实 issue,从 Agent 改动到 CI 绿勾 无需人工补跑测试——达成即说明 L0+L1+L3 已够;未达成先别加 L5。
常见问题
个人开发者跑 AI Agent 最少需要什么?
一台能跑终端的 macOS(本地或 Cloud Mac)+ 一个编码 Agent(如 Claude Code)+ 模型 API。不需要自建 Runner、MCP 或 Workflow 平台。
为什么有了 Claude Code 还要 GitHub Runner?
Claude Code 产出 Diff,Runner 产出 Fact。没有客观构建信号,团队无法判断 Agent 改动是否可合并——这是信任问题,不是模型智商问题。
MCP 算不算基础设施?
算,但是 L4 上下文层。它让 Agent 看得见 issue 和代码图谱;没有 L0–L3 的执行与验证,光有 MCP 仍交付不了。
什么时候才需要 OpenHands?
当你需要无人值守跑完整条需求(多文件、多轮测试、自动 PR),且 L1+L4 已稳定。若每天仍手动开 Claude 会话,缺的是 Workflow 层。
基础设施大概多少钱?
个人:API $20–200/月。小团队:加 Cloud Mac 按日计费与 Runner 节点。L5 自主栈建议 M4 24GB 同机并预留 0.5 人维护 MCP 与权限策略。
总结
一个 AI Agent 需要的基础设施,取决于执行边界停在哪一层——不是取决于模型排行榜。 个人到 L3 即可开工;要组织敢合并,加到 L1;要大仓不迷路,加 L4;要无人值守交付,再谈 L5。买 Cloud Mac 或 Mac mini 时,先问这台机器在栈里是「执行面」「验证面」还是「推理面」,答案会比你盯着 TOPS 数字更有用。
ZavCloud Cloud Mac
给 Agent 一块能动手、能验 CI 的真 macOS
数据中心独享 Mac mini M4:Runner、Claude Code、MCP 同机部署,按日计费先试栈再扩容。
查看 Cloud Mac 定价