什么时候才需要 OpenHands 这类 L5 平台？

当你需要无人值守跑完「整条需求」（多文件、多轮测试、自动开 PR），且 L1 Runner 与 L4 MCP 已稳定。若每天仍手动串 Claude Code 会话，说明缺的是 Workflow 层而非更强模型。

AI Agent 基础设施要花多少钱？

个人档：模型 API $20–200/月 + 可选 Cloud Mac 按日计费。团队档：加 Runner 节点（M4 16GB 起）与 MCP 维护。L5 自主 Agent 建议 M4 24GB 以上同机叠 Runner。

一个 AI Agent 需要多少基础设施？2026 分层决策指南

Q: 为什么有了 Claude Code 还要 GitHub Runner？

Claude Code 产出 Diff，Runner 产出 Fact（测试/构建是否通过）。没有 Fact 层，团队无法判断 Agent 改动是否可合并——这是组织信任问题，不是模型能力问题。

Q: MCP 算不算基础设施？

算，但属于 L4 上下文层，不是执行环境。MCP 让 Agent 看得见 issue、代码图谱和预发 API；没有 L0–L3 的执行与验证能力，光有 MCP 仍改不动、验不了。

过去半年，我们帮数十个团队评估「上 Agent」时，听到最多的两个极端：要么只买了一个模型 API，指望它能自己改生产；要么一口气上了 Kubernetes + 向量库 + 三套 MCP + 自主 Agent 平台，结果三个月没人维护。 真正卡住交付的，很少是「模型不够聪明」，而是执行环境、验证链路、上下文网关三层没对齐。本文用 Cloud Mac AI Stack 的分层语言，把「一个 AI Agent 需要多少基础设施」拆成可决策的表格——你可以按团队规模对号入座，而不是照抄某篇架构软文的全家桶。

基础设施层

团队档位

16GB

团队 Runner 起步内存

非对称结论

模型能力不是分水岭，执行边界才是。 同一款 Claude，挂在只有 Chat 的网页里只能给建议；挂在有终端、有 git、有 Runner 的 macOS 节点上，才能产出可合并的 PR。基础设施买的不是算力，是谁有权在什么环境里动手。

1. 问题为什么存在：「能聊天」≠「能交付」

Agent 这个词被滥用之后，很多人把对话接口和工程 Agent混为一谈。对话接口只需要模型 API；工程 Agent 至少要能：读仓库、改文件、跑命令、拿到客观验证信号。缺任何一环，就会出现典型症状：

Agent 改完代码，没人知道测试过没有——缺 L1 Fact（Runner 执行引擎）。
Agent 只能改当前打开的文件，跨模块 refactor 靠猜——缺 L4 Context（MCP 三连通）。
每个工具单独好用，整条 issue 仍要人盯 40 分钟——缺 L5 Workflow（OpenHands 平台）。
Windows 笔记本上想跑 Xcode 构建，Agent 根本没有合法执行面——缺 L0 真 macOS（Cloud Mac vs 本地 Mac）。

旧思路是「买个更强的模型」；新思路是按层补齐执行与验证能力。这也是 ZavCloud 客户在租 Cloud Mac 时最常问的问题——不是内存够不够跑 Ollama，而是这层节点在栈里承担什么角色。

2. Agent 基础设施怎么分类：六层，不是六个产品

下面用 L0–L5 记法（与 Stack 连载一致）。注意：层是职责，不是必买清单。个人开发者可以停在 L3；L2 推理层（Ollama）全程可选。

层	职责	典型组件	产出物	没有会怎样
L0	执行环境	本地 Mac / Cloud Mac	可跑终端、git、Xcode 的会话	Agent 只能「说」，不能「做」
L1	客观验证	GitHub Runner	Fact（测试/构建信号）	组织不敢合并 Agent 的 PR
L2	可选推理	Ollama / MLX	本地 Inference	无影响（API 模型可替代）
L3	结对编码	Claude Code / Cursor Agent	Diff	没有结构化代码改动入口
L4	上下文网关	MCP（GitHub / CodeGraph / API）	Context	大仓里 Agent 盲人摸象
L5	自主工作流	OpenHands 等	Workflow	多步需求仍靠人肉串工具

冲突结构在这里很清晰：Chat 型 Agent 停在 L3 之前；工程型 Agent 至少要到 L0+L3；可合并的 Agent 必须到 L1；可规模化的 Agent 才讨论 L4+L5。 许多团队翻车，是因为跳层——例如还没 Runner 就上 OpenHands，自主任务改完代码却无人证明能 build。

3. 核心对比：个人 / 小团队 / 工程化三档

统一字段对照（与工具对比文一致）：入口、执行能力、上下文、成本量级、适合人群。

档位	入口	执行能力	上下文	月成本量级	适合人群
个人 · 最小栈	CLI（Claude Code）	本地改文件 + 手跑测试	当前仓库 + 手动 @ 文件	API $20–100	独立开发者、副业项目
小团队 · 可合并栈	CLI + PR 流程	L0 Mac + L1 Runner + L3 Agent	GitHub issue（可选 L4）	API + Cloud Mac 按日 $50–300	3–15 人工程团队
工程化 · 自主栈	CLI + L5 任务队列	多步执行 + CI 闭环	L4 MCP 全量 + CodeGraph	上档 + 维护人力 0.5 FTE	有专职平台工程师的团队

硬件规格方面，若 L0 与 L1 同机（常见做法），参考下表——内存比 CPU 型号更先触顶，因为 Agent、Runner、可选 Ollama 会争用统一内存：

同机负载	建议内存	说明
仅 Runner + Claude Code	M4 16GB	轻量 iOS / Node 仓库够用
Runner + Claude Code + Ollama 7B	M4 24GB	见 16GB vs 24GB 实测
Runner + OpenHands + MCP	M4 24GB–48GB	L5 沙盒 + Docker 额外吃内存
多 Runner 并行（大团队）	多节点拆分	见一 Job 一 Workspace

4. 场景怎么选：决策矩阵

用「如果你是 X，就选 Y」快速分流：

如果你是…	最低可行栈	暂不需要
个人 side project，自己 merge	L0 本地 Mac + L3 Claude Code	Runner、MCP、L5
Windows 用户做 iOS / macOS	L0 Cloud Mac + L3	自建机房 Mac
团队 code review 必过 CI	L0 + L1 Runner + L3	L5（先别跳）
10 万行以上 monorepo	上档 + L4 CodeGraph MCP	只靠模型上下文窗口
每天要跑 5+ 条类似 issue	全栈至 L5 OpenHands	纯人工串 Claude 会话
强合规 / 数据不出境	独享 L0 + 可选 L2 本地推理	把生产密钥挂进 MCP

5. 推荐组合：三档可直接抄的 Stack

组合 A · 个人最快上线（1 天内）

L0  本地 MacBook 或按日 Cloud Mac
L3  Claude Code（安装手册）
模型  Anthropic API 订阅

不做：Runner、MCP、向量库、K8s

组合 B · 小团队可合并（1–2 周）

L0  Cloud Mac M4 16GB 常驻节点
L1  GitHub Actions 自托管 Runner（值不值得）
L3  Claude Code + CLAUDE.md 团队规范
L4  GitHub MCP 只读（issue 驱动）

可选 L2：Ollama 7B 做私有草稿，不挡主路径

组合 C · 工程化自主交付（1 月+）

L0  Cloud Mac M4 24GB+
L1  Runner · 一 job 一 workspace
L3  Claude Code
L4  MCP 三连通 + CodeGraph
L5  OpenHands（沙盒仓库先试）
编排  OpenClaw 做触发与审计（可选）

红线：生产 API / Runner 凭据不进 MCP（权限规范）

6. 常见误区：五件事别做

把模型 API 当完整基础设施。 API 只解决「想」，不解决「做」和「验」。
没 Runner 就开放 L5 写仓库。 自主 Agent 没有 Fact 层等于盲写，回滚成本极高。
一上来就建向量库 + RAG 平台。 多数代码 Agent 瓶颈在符号级上下文（CodeGraph），不是.embedding 检索。
Windows 上装虚拟机冒充 macOS CI。 签名、公证、真机测试仍要 Apple Silicon 真环境。
按「别人全家桶」采购。 先写清执行边界，再按层加购；Stack 层数与团队人数不是线性关系。

7. 落地步骤：7 步清单

划定执行边界 — 列出 Agent 允许的操作：改哪些目录、能否跑 shell、能否触发生产。
确认 L0 — 需要 Xcode / 公证则必须 macOS；评估租还是买 Mac。
接入 L3 编码 Agent — 先单文件、单仓库跑通；写好 CLAUDE.md / 团队 Prompt 规范。
立 L1 Runner — macOS job 与 Linux job 分开；密钥与 Agent token 分账。
按需 L4 MCP — 默认只读；写权限用短命 token 单独服务。
评估 L5 — 连续两周仍手动串工具，再引入 OpenHands 类 Workflow。
审计与红线 — 每次自主任务可映射到 PR + CI run ID；季度复查权限矩阵。

一周验收标准

选一条真实 issue，从 Agent 改动到 CI 绿勾 无需人工补跑测试——达成即说明 L0+L1+L3 已够；未达成先别加 L5。

常见问题

个人开发者跑 AI Agent 最少需要什么？

一台能跑终端的 macOS（本地或 Cloud Mac）+ 一个编码 Agent（如 Claude Code）+ 模型 API。不需要自建 Runner、MCP 或 Workflow 平台。

为什么有了 Claude Code 还要 GitHub Runner？

Claude Code 产出 Diff，Runner 产出 Fact。没有客观构建信号，团队无法判断 Agent 改动是否可合并——这是信任问题，不是模型智商问题。

MCP 算不算基础设施？

算，但是 L4 上下文层。它让 Agent 看得见 issue 和代码图谱；没有 L0–L3 的执行与验证，光有 MCP 仍交付不了。

什么时候才需要 OpenHands？

当你需要无人值守跑完整条需求（多文件、多轮测试、自动 PR），且 L1+L4 已稳定。若每天仍手动开 Claude 会话，缺的是 Workflow 层。

基础设施大概多少钱？

个人：API $20–200/月。小团队：加 Cloud Mac 按日计费与 Runner 节点。L5 自主栈建议 M4 24GB 同机并预留 0.5 人维护 MCP 与权限策略。

总结

一个 AI Agent 需要的基础设施，取决于执行边界停在哪一层——不是取决于模型排行榜。 个人到 L3 即可开工；要组织敢合并，加到 L1；要大仓不迷路，加 L4；要无人值守交付，再谈 L5。买 Cloud Mac 或 Mac mini 时，先问这台机器在栈里是「执行面」「验证面」还是「推理面」，答案会比你盯着 TOPS 数字更有用。

ZavCloud Cloud Mac

给 Agent 一块能动手、能验 CI 的真 macOS

数据中心独享 Mac mini M4：Runner、Claude Code、MCP 同机部署，按日计费先试栈再扩容。

查看 Cloud Mac 定价