一个 AI Agent 需要多少基础设施

结论先行:别先问要买几台服务器,先问 Agent 的执行边界停在哪一层。 个人开发者往往只需要 L0–L3;能证明构建通过的团队才需要 Runner;能无人值守跑完整条需求的,才值得上 Workflow 平台。

2026.06.18  ·  约 10 分钟  ·  分层决策 · 规格表 · 落地清单

数据中心服务器机架,象征 AI Agent 所需的分层执行与验证基础设施

过去半年,我们帮数十个团队评估「上 Agent」时,听到最多的两个极端:要么只买了一个模型 API,指望它能自己改生产;要么一口气上了 Kubernetes + 向量库 + 三套 MCP + 自主 Agent 平台,结果三个月没人维护。 真正卡住交付的,很少是「模型不够聪明」,而是执行环境、验证链路、上下文网关三层没对齐。本文用 Cloud Mac AI Stack 的分层语言,把「一个 AI Agent 需要多少基础设施」拆成可决策的表格——你可以按团队规模对号入座,而不是照抄某篇架构软文的全家桶。

6
基础设施层
3
团队档位
16GB
团队 Runner 起步内存

非对称结论

模型能力不是分水岭,执行边界才是。 同一款 Claude,挂在只有 Chat 的网页里只能给建议;挂在有终端、有 git、有 Runner 的 macOS 节点上,才能产出可合并的 PR。基础设施买的不是算力,是谁有权在什么环境里动手

1. 问题为什么存在:「能聊天」≠「能交付」

Agent 这个词被滥用之后,很多人把对话接口工程 Agent混为一谈。对话接口只需要模型 API;工程 Agent 至少要能:读仓库、改文件、跑命令、拿到客观验证信号。缺任何一环,就会出现典型症状:

  • Agent 改完代码,没人知道测试过没有——缺 L1 Fact(Runner 执行引擎)。
  • Agent 只能改当前打开的文件,跨模块 refactor 靠猜——缺 L4 Context(MCP 三连通)。
  • 每个工具单独好用,整条 issue 仍要人盯 40 分钟——缺 L5 Workflow(OpenHands 平台)。
  • Windows 笔记本上想跑 Xcode 构建,Agent 根本没有合法执行面——缺 L0 真 macOS(Cloud Mac vs 本地 Mac)。

旧思路是「买个更强的模型」;新思路是按层补齐执行与验证能力。这也是 ZavCloud 客户在租 Cloud Mac 时最常问的问题——不是内存够不够跑 Ollama,而是这层节点在栈里承担什么角色

2. Agent 基础设施怎么分类:六层,不是六个产品

下面用 L0–L5 记法(与 Stack 连载一致)。注意:层是职责,不是必买清单。个人开发者可以停在 L3;L2 推理层(Ollama)全程可选。

职责 典型组件 产出物 没有会怎样
L0 执行环境 本地 Mac / Cloud Mac 可跑终端、git、Xcode 的会话 Agent 只能「说」,不能「做」
L1 客观验证 GitHub Runner Fact(测试/构建信号) 组织不敢合并 Agent 的 PR
L2 可选推理 Ollama / MLX 本地 Inference 无影响(API 模型可替代)
L3 结对编码 Claude Code / Cursor Agent Diff 没有结构化代码改动入口
L4 上下文网关 MCP(GitHub / CodeGraph / API) Context 大仓里 Agent 盲人摸象
L5 自主工作流 OpenHands Workflow 多步需求仍靠人肉串工具

冲突结构在这里很清晰:Chat 型 Agent 停在 L3 之前;工程型 Agent 至少要到 L0+L3;可合并的 Agent 必须到 L1;可规模化的 Agent 才讨论 L4+L5。 许多团队翻车,是因为跳层——例如还没 Runner 就上 OpenHands,自主任务改完代码却无人证明能 build。

3. 核心对比:个人 / 小团队 / 工程化三档

统一字段对照(与工具对比文一致):入口、执行能力、上下文、成本量级、适合人群

档位 入口 执行能力 上下文 月成本量级 适合人群
个人 · 最小栈 CLI(Claude Code) 本地改文件 + 手跑测试 当前仓库 + 手动 @ 文件 API $20–100 独立开发者、副业项目
小团队 · 可合并栈 CLI + PR 流程 L0 Mac + L1 Runner + L3 Agent GitHub issue(可选 L4) API + Cloud Mac 按日 $50–300 3–15 人工程团队
工程化 · 自主栈 CLI + L5 任务队列 多步执行 + CI 闭环 L4 MCP 全量 + CodeGraph 上档 + 维护人力 0.5 FTE 有专职平台工程师的团队

硬件规格方面,若 L0 与 L1 同机(常见做法),参考下表——内存比 CPU 型号更先触顶,因为 Agent、Runner、可选 Ollama 会争用统一内存:

同机负载 建议内存 说明
仅 Runner + Claude Code M4 16GB 轻量 iOS / Node 仓库够用
Runner + Claude Code + Ollama 7B M4 24GB 16GB vs 24GB 实测
Runner + OpenHands + MCP M4 24GB–48GB L5 沙盒 + Docker 额外吃内存
多 Runner 并行(大团队) 多节点拆分 一 Job 一 Workspace

4. 场景怎么选:决策矩阵

用「如果你是 X,就选 Y」快速分流:

如果你是… 最低可行栈 暂不需要
个人 side project,自己 merge L0 本地 Mac + L3 Claude Code Runner、MCP、L5
Windows 用户做 iOS / macOS L0 Cloud Mac + L3 自建机房 Mac
团队 code review 必过 CI L0 + L1 Runner + L3 L5(先别跳)
10 万行以上 monorepo 上档 + L4 CodeGraph MCP 只靠模型上下文窗口
每天要跑 5+ 条类似 issue 全栈至 L5 OpenHands 纯人工串 Claude 会话
强合规 / 数据不出境 独享 L0 + 可选 L2 本地推理 把生产密钥挂进 MCP

5. 推荐组合:三档可直接抄的 Stack

组合 A · 个人最快上线(1 天内)

L0  本地 MacBook 或按日 Cloud Mac
L3  Claude Code(安装手册)
模型  Anthropic API 订阅

不做:Runner、MCP、向量库、K8s

组合 B · 小团队可合并(1–2 周)

L0  Cloud Mac M4 16GB 常驻节点
L1  GitHub Actions 自托管 Runner(值不值得)
L3  Claude Code + CLAUDE.md 团队规范
L4  GitHub MCP 只读(issue 驱动)

可选 L2:Ollama 7B 做私有草稿,不挡主路径

组合 C · 工程化自主交付(1 月+)

L0  Cloud Mac M4 24GB+
L1  Runner · 一 job 一 workspace
L3  Claude Code
L4  MCP 三连通 + CodeGraph
L5  OpenHands(沙盒仓库先试)
编排  OpenClaw 做触发与审计(可选)

红线:生产 API / Runner 凭据不进 MCP(权限规范

6. 常见误区:五件事别做

  1. 把模型 API 当完整基础设施。 API 只解决「想」,不解决「做」和「验」。
  2. 没 Runner 就开放 L5 写仓库。 自主 Agent 没有 Fact 层等于盲写,回滚成本极高。
  3. 一上来就建向量库 + RAG 平台。 多数代码 Agent 瓶颈在符号级上下文(CodeGraph),不是.embedding 检索。
  4. Windows 上装虚拟机冒充 macOS CI。 签名、公证、真机测试仍要 Apple Silicon 真环境。
  5. 按「别人全家桶」采购。 先写清执行边界,再按层加购;Stack 层数与团队人数不是线性关系。

7. 落地步骤:7 步清单

  1. 划定执行边界 — 列出 Agent 允许的操作:改哪些目录、能否跑 shell、能否触发生产。
  2. 确认 L0 — 需要 Xcode / 公证则必须 macOS;评估 租还是买 Mac
  3. 接入 L3 编码 Agent — 先单文件、单仓库跑通;写好 CLAUDE.md / 团队 Prompt 规范。
  4. 立 L1 Runner — macOS job 与 Linux job 分开;密钥与 Agent token 分账。
  5. 按需 L4 MCP — 默认只读;写权限用短命 token 单独服务。
  6. 评估 L5 — 连续两周仍手动串工具,再引入 OpenHands 类 Workflow。
  7. 审计与红线 — 每次自主任务可映射到 PR + CI run ID;季度复查权限矩阵。

一周验收标准

选一条真实 issue,从 Agent 改动到 CI 绿勾 无需人工补跑测试——达成即说明 L0+L1+L3 已够;未达成先别加 L5。

常见问题

个人开发者跑 AI Agent 最少需要什么?

一台能跑终端的 macOS(本地或 Cloud Mac)+ 一个编码 Agent(如 Claude Code)+ 模型 API。不需要自建 Runner、MCP 或 Workflow 平台。

为什么有了 Claude Code 还要 GitHub Runner?

Claude Code 产出 Diff,Runner 产出 Fact。没有客观构建信号,团队无法判断 Agent 改动是否可合并——这是信任问题,不是模型智商问题。

MCP 算不算基础设施?

算,但是 L4 上下文层。它让 Agent 看得见 issue 和代码图谱;没有 L0–L3 的执行与验证,光有 MCP 仍交付不了。

什么时候才需要 OpenHands?

当你需要无人值守跑完整条需求(多文件、多轮测试、自动 PR),且 L1+L4 已稳定。若每天仍手动开 Claude 会话,缺的是 Workflow 层。

基础设施大概多少钱?

个人:API $20–200/月。小团队:加 Cloud Mac 按日计费与 Runner 节点。L5 自主栈建议 M4 24GB 同机并预留 0.5 人维护 MCP 与权限策略。

总结

一个 AI Agent 需要的基础设施,取决于执行边界停在哪一层——不是取决于模型排行榜。 个人到 L3 即可开工;要组织敢合并,加到 L1;要大仓不迷路,加 L4;要无人值守交付,再谈 L5。买 Cloud Mac 或 Mac mini 时,先问这台机器在栈里是「执行面」「验证面」还是「推理面」,答案会比你盯着 TOPS 数字更有用。

ZavCloud Cloud Mac

给 Agent 一块能动手、能验 CI 的真 macOS

数据中心独享 Mac mini M4:Runner、Claude Code、MCP 同机部署,按日计费先试栈再扩容。

查看 Cloud Mac 定价
Cloud Mac 试用 Agent 执行节点