결론부터: 공개 리더보드로 모델을 고르지 마세요. 워크플로 진입점과, 한 작업에 얼마나 깊은 추론이 필요한지로 고르세요. 2026년 6월 동일 개발자 태스크 팩을 Claude Fable 5, Claude Opus 4.8, Gemini 3.5 Flash에 돌렸습니다. 아래 표는 누가 주력인지, 누가 초안인지, 누가 머지 전 서명하는지 보여 줍니다. 갈림길은 순위 점수가 아니라 진입점과 token 예산입니다.
모델 선택이 CI Runner 고르기처럼 느껴지는 이유
2026년 대부분 팀은 IDE 자동완성, CLI Agent, GitHub Actions 배치, 아키텍처 리뷰 네 레인을 동시에 돌리면서도 어디서나 「최강 1모델」을 쓰려 합니다. 비싼 tier를 로그 분류에 낭비하고, 빠른 tier를 모듈 간 리팩터에 억지로 끼워 넣습니다 — 능력 문제가 아니라 실행 경계를 잘못된 슬롯에 둔 것이 핵심입니다.
1 job 1 workspace와 같은 논리: 세계에서 가장 빠른 머신을 찾는 게 아니라, job 유형별 격리 수준과 단가를 맞춥니다. MMLU 점수는 「Issue → PR → CI green」을 거의 예측하지 못합니다. 필요한 질문은 이 진입점에서 예산 안에 안정적으로 통과하는 tier는 무엇인가입니다.
또 다른 긴장은 로컬 vs 원격: 추론은 클라우드, git diff·Xcode 빌드·테스트는 Mac에서 돕니다. Agent 루프와 컴파일이 16GB RAM을 나눠 쓰면 모든 모델이 「느려」 보입니다 — IQ가 아니라 실행 환경 병목입니다. 긴 작업을 Cloud Mac 실행 노드로 옮기는 팀이 늘어나는 이유도 여기에 있습니다.
세 가지 역할 — tier가 아님
플래그십끼리 비교하기 전에 워크플로 역할로 묶으세요:
- 루프 계층 — Claude Fable 5: 고빈도·짧은 턴 코딩 Agent. 낮은 지연, 예측 가능한 tool-use 사이클.
- 숙고 계층 — Claude Opus 4.8: 긴 컨텍스트 추론, 아키텍처 트레이드오프, 리스크 리뷰. 패스당 품질은 높지만 매초 트리거하기엔 부담.
- 처리량 계층 — Gemini 3.5 Flash: 대량 구조화 작업, 지연 민감 배치. 「80점 초안」을 저렴하게.
같은 파이프라인의 공정이지, 승급 사다리가 아닙니다. Opus를 Tab 자동완성에 쓰면 청구서가 폭발하고, Flash만 머지 전 리뷰어로 두면 결함이 main으로 새어 나갑니다.
핵심 비교: 진입 / 실행 / 컨텍스트
열 제목은 글 전체에서 고정. 이후 시나리오 행렬과 비용 논의도 같은 5열을 씁니다.
| 도구 | 진입 | 실행 | 컨텍스트 | 적합 대상 |
|---|---|---|---|---|
| Claude Fable 5 | Claude Code CLI, Cursor Agent, API | 강함: 다중 파일 편집, 테스트 루프, MCP 도구 | 중장 컨텍스트(약 200K), 일상 repo | 매일 Agent를 돌리는 엔지니어 |
| Claude Opus 4.8 | API, IDE 수동 전환, 리뷰 Bot | 매우 강함: 복잡 추론, 의존성 정리, 보안 감사 | 초장 컨텍스트 + 깊은 추론 모드 | Tech Lead, 아키텍트, 머지 Gatekeeper |
| Gemini 3.5 Flash | AI Studio, Vertex, 배치 API | 중간: 구조화 생성, 분류, 템플릿 재작성 | 중장 컨텍스트, 병렬 배치 | 데이터/Ops, 문서 파이프라인, 비용 민감 팀 |
비용과 권한(같은 열로 확장):
| 도구 | 진입 | 실행 | 컨텍스트 | 적합 대상 |
|---|---|---|---|---|
| Claude Fable 5 | 종량 + 구독 번들 | 엔터프라이즈 tool 허용 목록 | Anthropic 데이터 정책; 서구 SaaS 적합 | 이미 Claude Code 쓰는 팀 |
| Claude Opus 4.8 | 프리미엄 종량; 기본 ON 주의 | 읽기 전용 리뷰 모드에 적합 | 동일 Anthropic 스택; 긴 작업은 token 누적 빠름 | 머지 전 리뷰가 명문화된 팀 |
| Gemini 3.5 Flash | 저가 종량; GCP 청구 통합 | Vertex IAM 세분화 | Google Cloud 컴플라이언스 | GCP 채택·배치 비용 최적화 팀 |
표 뒤 요약: Fable 5가 일상 작업, Opus 4.8이 서명, Flash가 라인 첫 공정. OpenRouter 가격 tier로 세 단을 한 게이트웨이에 올리는 방법도 참고.
벤치마크 태스크와 Mac 측 실측
추론은 각 벤더 API에서 실행. Agent 셸 — Claude Code + git + xcodebuild test — 은 Mac mini M4 16GB(로컬)와 ZavCloud 데이터센터 M4 24GB(원격)에서 동일. 태스크당 3회. 분은 추정 구간(중앙값 ± 정상 변동)이며, 스톱워치 1회 값이 아닙니다. 평가 축은 통과율, E2E 시간대, 주간 token 청구 — 추상 IQ가 아닙니다.
| 태스크 | Fable 5 | Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|---|
| 8파일 API 리팩터 + 테스트 green | 통과; 약 15–20분; 중간 token | 통과; 약 20–30분; 높은 token | 부분 통과; 경계는 수동 수정 |
| GitHub Issue → PR(CI 수정 1라운드) | 통과; 약 20–25분 | 통과; 약 30–35분 | 초안 OK; CI는 2라운드가 잦음 |
| 로그 1000줄 + 알림 규칙 초안 | 통과; 과잉 스펙 | 통과; ROI 낮음 | 통과; 약 5–10분; 극저 token |
| ADR 리뷰(읽기 전용) | 양호; 의존성 누락 가끔 | 우수; 리스크 포괄 | 양호; 템플릿 성향 |
| 16GB Mac에서 Agent + Xcode 병행 | 로컬 Swap 위험; 클라우드 OK | 동일; 로컬 장시간 비권장 | 배치 OK; IDE Agent 두뇌로는 부적합 |
Mac 측 결론: 병목은 종종 실행 환경이지 모델 IQ가 아닙니다. 16GB에서 Xcode와 Claude Code를 동시에 길게 돌리면 세 모델 모두 「느려」 보입니다 — Opus로 바꿔도 Swap은 안 낫습니다. 16GB vs 24GB 실측과 일치: Agent 주력은 24GB 또는 전용 Cloud Mac 노드.
시나리오 행렬
| 당신이… | 주 모델 | 이유 |
|---|---|---|
| Claude Code / Cursor Agent로 매일 기능 출하 | Fable 5 | 지연·비용이 고빈도 루프에 맞음 |
| 머지 전 아키텍처 / 보안 리뷰 | Opus 4.8 | 패스당 깊이에 프리미엄 token 가치 있음 |
| Ops / 데이터: 로그, 티켓, 문서 일괄 | Gemini 3.5 Flash | 달러당 처리량 최고 |
| 이미 GCP, 청구·IAM 통합 원함 | Flash 주 + Fable 예비 | Vertex로 권한; Fable로 코딩 Agent |
| 예산 빠듯, Opus 상시 ON 불가 | Fable 5 + 수동 Opus 승급 | ready-for-review 라벨만 승급 |
| CI에서 실패 테스트 자동 수정 | Fable 5 | Cloud Mac CI 자동화와 실기 테스트 |
추천 스택
- 1인 개발자 — Fable 5로 일상 Agent; Flash로 메일/문서 초안; Opus는 릴리스 주만.
- 10인 팀 — Fable 5를 Claude Code 프로덕션 워크플로에; CI 자동 수정 Fable; 머지 Opus Bot 읽기 전용.
- 비용 우선 데이터 플랫폼 — Flash 배치 파이프라인 + Fable 5로 내부 도구 repo; 일상 Opus 없음.
AI 코딩 Agent Skills / MCP와 겹칠 때: 모델은 추론, Mac 노드는 실행 — Flash를 프로덕션 shell에 직접 연결하지 마세요.
흔한 실수
- #1 리더보드 1위를 기본값으로 — 벤치는 짧은 Q&A; Issue → PR → CI green 아님.
- #2 Opus 상시 ON — 주간 청구서가 가르침; 이벤트 트리거로.
- #3 Flash 단독으로 모듈 간 리팩터 — token은 아끼고 리뷰 시간이 사람에게 이동.
- #4 Mac 메모리 무시 — Swap이면 모든 모델이 「멍해」 보임.
- #5 라우팅 없이 모델만 비교 — 승급 정책 없으면 논쟁 끝 없음.
7단계 도입
- 주간 진입점 기록 — IDE, CLI, CI, 리뷰 시간.
- 통과 기준 문서화 — 테스트 green, diff 한도, 보안 checklist.
- 12 태스크 팩 실행 — 모델당 3회(위 표 재사용).
- 주간 token 지출 계산 — 재시도 포함; OpenRouter 경로 비교.
- 시나리오 행렬 채우기 — 주, 예비, 승급 트리거.
- CLAUDE.md / CI 반영 — Claude Code 아키텍처와 정렬.
- 4주 후 검토 — 머지 결함 + 청구; 사용률 10% 미만 tier 제거.
FAQ
Fable 5와 Opus 4.8의 차이는?
Fable 5는 고빈도 Agent 루프; Opus 4.8은 저빈도·고위험 판단. IQ 사다리가 아니라 공정 분담.
Gemini 3.5 Flash가 Claude Code를 대체할 수 있나요?
완전 Agent 자리 대체는 아님. 상류 초안·배치 계층으로 최적; 하류는 Fable 5가 repo·테스트 담당.
셋 다 쓰면 예산이 터지나요?
어디서나 Opus 기본값보다 훨씬 쌉니다. 라우팅: 약 90% Fable/Flash, 리뷰만 Opus.
Cursor에서 모델 고르기와의 관계는?
Cursor는 IDE 진입, 모델은 엔진. 진입 선택: Copilot vs Cursor 시나리오 실측; 본문은 엔진 tier.
마무리
2026년 Fable 5, Opus 4.8, Gemini 3.5 Flash 선택은 어느 진입점에서 작업을 시작하고, 한 번 추론 깊이에 얼마의 token을 쓸지에 달립니다. Fable 5는 기본 루프, Flash는 처리량 초안, Opus 4.8은 머지 전 서명 — 본질은 워크플로 계층이지 모델 숭배가 아닙니다. 실행을 맞는 Mac 노드에 두는 것이 「더 강한」 기본값을 쫓는 것보다 배포 속도를 올립니다.
ZavCloud · Cloud Mac
모델은 클라우드, 실행은 진짜 macOS
전용 Mac mini M4: Claude Code Agent, Xcode 테스트, GitHub Actions Runner를 한 노드에 — Fable 5 tool 루프가 로컬 RAM에 막히지 않게.
요금·플랜 보기