2026 年上半年,OpenMontage 在 GitHub Trending 上連續多日登頂——它不是又一個「輸入 Prompt 吐一段 5 秒影片」的玩具,而是把 Claude Code、Cursor、Copilot 等 AI 程式設計助手變成完整影片製片廠的開源 Agent 流水線。你用人話描述需求,Agent 負責調研、寫稿、找素材、配音、字幕、剪輯和最終渲染。
本文回答兩個問題:OpenMontage 到底值不值得用? 以及 怎樣用最少步驟把環境搭起來並跑出第一個成片。
一句話結論
如果你已經有 AI 程式設計助手,且需要可重現、可審計、成本可控的短影片/解說片/紀錄片蒙太奇——OpenMontage 是目前最值得試的開源方案。 如果你只想點一下按鈕出片、不想碰終端機和 Markdown 技能檔案,它不適合你。
OpenMontage 是什麼(30 秒版)
| 維度 | 說明 |
|---|---|
| 定位 | 開源 Agent 影片製片系統(AGPLv3) |
| 編排方式 | 你的 AI 程式設計助手就是導演——沒有黑箱雲端編排器 |
| 流水線 | 12 條生產 Pipeline(解說片、紀錄片蒙太奇、吉卜力風動畫、產品廣告等) |
| 工具數 | 52 個 Python 工具 + 500+ Agent Skill 檔案 |
| 零 Key 能力 | Piper 本機 TTS、Archive.org/NASA/Wikimedia 真實影像、Remotion/HyperFrames 合成 |
| 付費路徑 | 可選 FAL、ElevenLabs、OpenAI 等 API,單條短片成本約 $0.15–$3 |
與一般 AI 影片工具的本質區別:它跑的是真實製片流程(調研 → 提案 → 腳本 → 分鏡 → 素材 → 剪輯 → 合成 → 自檢),而不是單次 text-to-video 抽獎。
值不值得用:誠實對比
適合你的信號
- 你已經在用 Claude Code/Cursor/Windsurf,習慣讓 Agent 讀倉庫、跑命令
- 你需要可重現的成片流程(決策日誌、成本預估、品質門禁)
- 你想走零 API Key 路線做解說片或紀錄片蒙太奇
- 你願意在創意節點做人工審批(腳本、風格、預算),而不是全自動黑箱
- 你有 Mac 或帶 GPU 的機器,或願意用 Cloud Mac 做長時間渲染
不適合你的信號
- 你只想要「輸入一句話 → 立刻出 15 秒直式影片」的極簡體驗
- 你完全不想看終端機、不想理解 Pipeline/Skill 檔案結構
- 你需要商用閉源授權(AGPLv3 對衍生分發有義務)
- 你的團隊沒有穩定的 AI 程式設計助手訂閱(Agent 本身就是編排核心)
與常見方案對比
| 方案 | 上手難度 | 成片可控性 | 零成本路徑 | 適合場景 |
|---|---|---|---|---|
| OpenMontage | 中(需搭環境 + Agent) | 極高(每階段可審、可改) | 有(Piper + 開放影像庫) | 解說片、紀錄片、產品片、多語言 repurposing |
| Runway/Pika 等單點生成 | 低 | 低(抽卡式) | 無/有限試用 | 單鏡頭創意、快速試風格 |
| CapCut/剪映 AI | 低 | 中 | 部分免費 | 社群短影片、模板化剪輯 |
| 傳統 PR + 外包 | 高(溝通成本) | 高 | 無 | 品牌大片、真人拍攝 |
結論:OpenMontage 的價值不在「比 Runway 生成更快」,而在把製片流程工程化——同一套 Pipeline 可以今天用免費素材、明天換 FLUX 圖、後天上 Veo 影片,流程不變。
環境要求(安裝前自檢)
官方最低依賴:
| 元件 | 版本 | macOS 安裝 |
|---|---|---|
| Python | 3.10+ | brew install python@3.12 |
| FFmpeg | 任意近期版 | brew install ffmpeg |
| Node.js | 18+ | brew install node |
| AI 程式設計助手 | 任選 | Claude Code/Cursor/Copilot/Windsurf/Codex |
| 磁碟 | 建議 ≥ 10 GB | 含 node_modules、Piper 模型、專案渲染快取 |
| 記憶體 | 16 GB 起步 | 24 GB 更舒適(Remotion 渲染 + Agent 並行) |
安裝前自檢命令(複製到終端機一次跑完):
# 1. 系統與晶片
sw_vers
uname -m
# 2. 核心依賴
python3 --version # 需要 3.10+
node -v # 需要 v18+
ffmpeg -version | head -1
# 3. 磁碟(建議 ≥10GB 可用)
df -h ~
# 4. Git
git --version
若三項版本都滿足,下面進入正式安裝。
最簡環境搭建(10 分鐘路徑)
步驟 1:克隆倉庫
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage
步驟 2:一鍵安裝依賴
make setup
make setup 會自動完成:
pip install -r requirements.txt(Python 工具鏈)cd remotion-composer && npm install(Remotion 合成引擎)- 安裝 Piper TTS(離線配音)
- 複製
.env.example→.env
沒有 make? 手動等價命令:
pip install -r requirements.txt
cd remotion-composer && npm install && cd ..
pip install piper-tts
cp .env.example .env
Windows 注意:若 npm install 報 ERR_INVALID_ARG_TYPE,改用:
npx --yes npm install
步驟 3:用 AI 助手打開專案
在 Cursor 或 Claude Code 中 Open Folder 指向剛克隆的 OpenMontage 目錄。Agent 需要能讀取倉庫裡的 AGENT_GUIDE.md、pipeline_defs/ 和 skills/。
步驟 4:驗證工具註冊表
讓 Agent 執行(或自己在終端機跑):
python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.support_envelope(), indent=2))"
若輸出 JSON 且包含 narration、composition 等能力項,說明 Python 工具鏈就緒。
步驟 5:跑零 Key 演示(可選但強烈推薦)
make demo
這會渲染官方內建的零 API Key 演示影片,是驗證 FFmpeg + Remotion + Piper 全鏈路是否通暢的最快方式。
步驟 6:發出你的第一個製片指令
在 AI 助手對話框輸入(複製即可):
Make a 45-second animated explainer about why the sky is blue.
Use the zero-API-key path. Pick the animated explainer pipeline.
Agent 會按 Pipeline 契約依次執行:調研 → 提案(等你確認)→ 腳本 → 分鏡 → 素材 → 合成 → 自檢。
關鍵紀律:OpenMontage 是 Pipeline 驅動的,Agent 不應即興跳步。正確順序是:選 Pipeline → 讀 manifest → 讀 stage skill → 調工具。
零 API Key 能做什麼
make setup 之後,無需任何付費 Key 即可使用:
| 能力 | 免費工具 | 產出 |
|---|---|---|
| 旁白 | Piper TTS | 離線人聲配音 |
| 真實影像 | Archive.org + NASA + Wikimedia | 紀錄片蒙太奇素材 |
| 圖庫 | Pexels/Unsplash/Pixabay | 需免費申請開發者 Key(可選) |
| 畫面合成 | Remotion | 圖文解說、資料卡片、字幕燒錄 |
| 動效合成 | HyperFrames | GSAP kinetic 字幕、產品發布片 |
| 後期 | FFmpeg | 編碼、混音、調色 |
兩條典型零成本路線:
- 圖文解說片:Piper 配音 + 免費圖庫 + Remotion 動畫
- 真實影像紀錄片:從開放檔案檢索 CLIP 語義匹配的真實運動鏡頭,剪成蒙太奇
紀錄片路線範例 Prompt:
Make a 75-second documentary montage about city life in the rain.
Use real footage only, no narration, elegiac tone, with music.
可選 API Key 配置(解鎖更高畫質)
編輯專案根目錄 .env,每個 Key 都是可選的:
# 圖像 + 影片閘道(FLUX 圖、Veo/Kling 影片)
FAL_KEY=your-key
# 免費圖庫(開發者 Key 免費申請)
PEXELS_API_KEY=your-key
PIXABAY_API_KEY=your-key
UNSPLASH_ACCESS_KEY=your-key
# 語音與圖像
OPENAI_API_KEY=your-key # TTS + DALL-E 3
ELEVENLABS_API_KEY=your-key # 高品質配音
GOOGLE_API_KEY=your-key # Imagen + Google TTS
# 音樂
SUNO_API_KEY=your-key
官方文件 docs/PROVIDERS.md 有完整定價與免費額度說明。
有 NVIDIA GPU? 可本機跑 WAN 2.1 等免費影片模型:
make install-gpu
# .env 中添加:
# VIDEO_GEN_LOCAL_ENABLED=true
# VIDEO_GEN_LOCAL_MODEL=wan2.1-1.3b
12 條 Pipeline 怎麼選
| Pipeline | 產出類型 | 典型成本 | 零 Key? |
|---|---|---|---|
| Animated Explainer | 圖文/AI 解說片 | $0–$1.5 | 是 |
| Documentary Montage | 真實影像蒙太奇 | $0 | 是 |
| Animation | 動效/kinetic 字幕 | $0–$0.5 | 是 |
| Cinematic | 電影感預告片 | $1–$3 | 需影片 API |
| Product Promo | 產品廣告 | ~$0.69(官方案例) | 單 OpenAI Key 即可 |
| Localization & Dub | 多語言配音字幕 | 視時長 | 部分 |
| Podcast Repurpose | 播客切片 | 低 | 是 |
| Screen Demo | 軟體錄屏精修 | 低 | 是 |
選型口訣:
- 沒預算 → Documentary Montage 或 Animated Explainer(零 Key)
- 要吉卜力/動漫風 → Animation + FAL(FLUX 圖,約 $0.15/條)
- 要電影感 AI 影片 → Cinematic + Veo/Kling($1–$3)
- 有參考片 → 貼上 YouTube Short/Reel URL,讓 Agent 做風格拆解再改編
工作流程長什麼樣
OpenMontage 採用 Agent-First 架構——沒有隱藏的 Python 總編排器,你的程式設計助手讀 Markdown 技能檔案來導演全流程:
你:「做一條 60 秒神經網路科普解說」
↓
Agent 讀 pipeline manifest(YAML)— 階段、工具、驗收標準
↓
Agent 讀 stage director skill(Markdown)— 每階段怎麼做
↓
Agent 調 Python 工具 — 7 維評分自動選 Provider
↓
Agent 自檢 — schema 校驗、ffprobe、抽幀、音訊電平
↓
預合成門禁 — 攔截投影片式爛片、預算超限
↓
Remotion/FFmpeg 渲染
↓
成片輸出(僅自檢通過才交付)
每個創意決策點(腳本定稿、風格、預算)Agent 會暫停等你確認——這是特性,不是 bug。
在 Mac/Cloud Mac 上長期跑
OpenMontage 的 Remotion 渲染和可選本機 GPU 推理都吃算力和磁碟。實踐建議:
| 場景 | 推薦環境 |
|---|---|
| 日常試 Prompt、零 Key 短片 | 本機 M4 Mac mini 16GB 足夠 |
| 批量渲染、WAN 本機影片模型 | 24GB 記憶體 Mac 或帶 NVIDIA GPU 的機器 |
| 無本機 Mac、要穩定長跑渲染 | Cloud Mac 按天租用,SSH 進去跑 make setup 同一套流程 |
| 只用雲端 API(FAL/Veo) | 任意能跑 Python + Node 的環境即可,算力壓力小 |
Cloud Mac 路徑與本機完全一致:
ssh user@your-cloud-mac.example.com
git clone https://github.com/calesthio/OpenMontage.git
cd OpenMontage && make setup
# 在 Cursor Remote SSH 或 Claude Code 中打開該目錄
常見問題排查
make setup 失敗
# 確認 Python 指向 3.10+
which python3
python3 -m pip install --upgrade pip
# Remotion 依賴單獨重裝
cd remotion-composer && rm -rf node_modules && npm install && cd ..
Agent 不按 Pipeline 走、亂調工具
明確告訴 Agent:
Read AGENT_GUIDE.md first. Do not improvise.
Pick pipeline "animated_explainer", read its manifest, then execute stage by stage.
渲染出來像 PPT 翻頁
OpenMontage 內建 delivery promise 門禁專門攔截「投影片式」輸出。若仍出現,檢查是否跳過了 scene_plan 階段或素材解析度過低。
Piper 配音無聲或報錯
pip install --upgrade piper-tts
python -c "import piper; print('piper ok')"
成本失控
在對話開頭聲明預算:
Budget cap: $1.00 total. Ask before any paid API call.
系統內建 cost estimation 和 per-action approval threshold。
專業術語快查
- Pipeline
- 從創意到成片的完整製片流水線定義,存放在
pipeline_defs/的 YAML manifest 中。 - Agent Skill
- 教 AI 助手如何執行某一製片階段的 Markdown 指令檔案,位於
skills/目錄。 - Remotion
- 基於 React 的影片合成引擎,適合資料驅動解說、字幕燒錄、圖文動畫場景。
- HyperFrames
- 基於 HTML/CSS/GSAP 的合成引擎,適合 kinetic 字幕、產品發布片、SVG 角色動畫。
- Provider 七維評分
- OpenMontage 按任務匹配度、畫質、可控性、可靠性、成本、延遲、連續性七個維度自動選擇 TTS/圖像/影片供應商,並記錄決策日誌。
摺疊內容:進階配置
從參考影片反推製片方案(Reference-driven)
貼上你喜歡的 YouTube Short/Reel/TikTok 連結,Prompt 範例:Here's a YouTube Short I love. Make me something like this,
but about quantum computing for high school students.
Keep the pacing and hook, change the topic.
Agent 會分析轉錄、節奏、分鏡和風格,輸出 2–3 個差異化方案 + 成本預估 + 樣片路徑,再進入完整製片。
檢查 Agent 可用 Provider 選單
python -c "from tools.tool_registry import registry; import json; registry.discover(); print(json.dumps(registry.provider_menu(), indent=2))"
根據輸出判斷當前 `.env` 下實際可用的付費/免費供應商,避免 Agent 規劃了你用不了的工具。
AGPLv3 商用注意事項
OpenMontage 採用 GNU AGPLv3。若你修改了核心程式碼並透過網路提供服務,可能需要向使用者提供修改後的原始碼。僅內部使用、不修改、不分發閉源衍生版本時,限制較少。商用前請閱讀 [AGPL FAQ](https://www.gnu.org/licenses/agpl-faq.html) 或諮詢法務。五條快速決策
- 已有 AI 程式設計助手? 沒有 → 先解決助手訂閱,再裝 OpenMontage
- 能接受 10 分鐘環境搭建? 不能 → 用 Runway/CapCut 等即開即用工具
- 預算為零? 走 Documentary Montage 或 Animated Explainer 零 Key 路徑
- 要電影級 AI 影片? 準備 FAL_KEY + $1–$3/條預算
- 要穩定批量渲染? 本機 24GB Mac 或 Cloud Mac 長跑
總結
OpenMontage 值得用,但值得的是「工程化製片」而不是「一鍵魔法」。 它的護城河是:Pipeline 契約、500+ Skill 知識庫、七維 Provider 評分、預合成品質門禁,以及零 API Key 也能出真實影像紀錄片這條少見路徑。
推薦上手順序:
make setup+make demo驗證環境(10 分鐘)- 零 Key 跑一條 45 秒科普解說(熟悉審批流)
- 按需加
.envKey,試吉卜力風或產品片 - 有批量需求時遷到 Cloud Mac 或 GPU 機器
影片工具會越來越多,能把製片流程寫進可重用 Pipeline 的系統,才會留在你的工作流裡。
ZavCloud Developer Infrastructure
用 Cloud Mac 跑 OpenMontage 渲染
M4 Mac mini 獨享實例,按天起租,適合批量 Remotion 渲染
SSH 直連,與本機相同的 make setup 流程