결론부터: 1억 토큰은 Flash층 약 $10–14, Sonnet 약 $540, Opus 약 $2,700——전부 USD. 아래 4개 표는 2026년 6월 공시가. 각 표 아래 한 줄 요약; 마지막에 독자별 추천.
표 1: Flash 실행층 — 2026년 6월 API 요금
OpenRouter·공식 가격 페이지 기준. 단위: 백만 토큰당 USD ($/M).
Agent 메인 루프 기본값 — 긴 컨텍스트·재시도에도 예산 불안 없음
| 모델 | 입력 /M | 출력 /M | 캐시 읽기 /M | 컨텍스트 |
|---|---|---|---|---|
| DeepSeek V4 Flash #1 사용량 | $0.098 | $0.197 | ~$0.01 | 1M |
| Hy3 Preview | ~$0.10 | ~$0.20 | 있음 | 256K+ |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Gemini 2.5 Flash | $0.15 | $0.60 | 있음 | 1M |
| Kimi K2 | ~$0.15 | ~$0.50 | 있음 | 128K |
| GPT-4o mini | $0.15 | $0.60 | 있음 | 128K |
| Owl Alpha | ~$0.12 | ~$0.35 | — | 200K |
표 1: Agent token의 약 80%가 이 tier에 쌓입니다. OpenRouter 주간 Top 10은 거의 Flash뿐; DeepSeek + Hy3가 합쳐 주간 20T를 넘깁니다. 기본 모델 문자열은 여기서 먼저 고르세요.
표 2: Frontier review층 — 2026년 6월 API 요금
에스컬레이션 전용 — 머지 전 review·아키텍처 판단, 기본 루프 아님
| 모델 | 입력 /M | 출력 /M | 컨텍스트 | OpenRouter 추세 |
|---|---|---|---|---|
| Claude Sonnet 4.6 | ~$3.00 | ~$15.00 | 200K | Review 워크호스 |
| Claude Opus 4.7 | ~$15.00 | ~$75.00 | 200K | 최종 승인층 |
| GPT-4o | $2.50 | $10.00 | 128K | Top 8 이탈 |
| Gemini 2.5 Pro | ~$1.25 | ~$10.00 | 1M | 멀티모달 장문 |
| o3 / o4-mini (reasoning) | $1.10–4.00 | $4.40–16.00 | 200K | 수학·증명 작업 |
표 2: 품질은 최상이지만 Agent 메인 루프엔 너무 비쌉니다. Claude Opus도 주간 7T+ token을 씁니다——review 역할이지 기본값이 아닙니다. GPT-4o는 메인 플로우에서 Flash로 교체되는 중입니다.
표 3: 1억 토큰 청구서 비교
공통 기준: 1억 토큰. 세 가지 혼합——입력만 / 80·20 채팅 / 90·10 Agent.
같은 용량, 최저 vs 최고 최대 200× 격차
| 모델 | 입력만 1억 | 80/20 혼합 | 90/10 Agent | vs DeepSeek |
|---|---|---|---|---|
| Flash 실행층 | ||||
| DeepSeek V4 Flash | ~$10 | ~$12 | ~$11 | 1× |
| Hy3 Preview | ~$10 | ~$13 | ~$11 | 1.1× |
| Gemini 2.5 Flash | ~$15 | ~$24 | ~$19 | 2× |
| Frontier review층 | ||||
| GPT-4o | ~$250 | ~$400 | ~$325 | 33× |
| Claude Sonnet 4.6 | ~$300 | ~$540 | ~$420 | 45× |
| Claude Opus 4.7 | ~$1,500 | ~$2,700 | ~$2,100 | 225× |
표 3: 월 10억 token → DeepSeek ~$120, Sonnet ~$5,400. Agent 워크로드는 입력 비중이 높음——90/10 열을 참고하세요. 캐시 적중률이 높으면 Flash층 실제 비용은 50% 이상 줄일 수 있습니다.
표 4: Agent 1회 작업 전형 비용
가정: 입력 100K + 출력 10K, 입력 캐시 적중 80%. 하루 500회 실행 시 일일 청구.
500회/일: DeepSeek $4 vs Sonnet $105
| 모델 | 입력 /M | 작업당 | 500회/일 | vs DeepSeek |
|---|---|---|---|---|
| Flash 실행층 | ||||
| DeepSeek V4 Flash | ~$0.10 | $0.008 | ~$4 | 1× |
| Hy3 Preview | ~$0.10 | $0.009 | ~$5 | 1.1× |
| Gemini 2.5 Flash | ~$0.15 | $0.02 | ~$10 | 2.5× |
| Kimi K2 | ~$0.15 | $0.018 | ~$9 | 2.3× |
| Frontier review층 | ||||
| Claude Sonnet 4.6 | ~$3.00 | $0.21 | ~$105 | 26× |
| Claude Opus 4.7 | ~$15.00 | $1.05 | ~$525 | 131× |
| GPT-4o | ~$2.50 | $0.18 | ~$90 | 23× |
표 4: Claude Code / OpenHands류 도구의 현실적 소진량. 품질 격차는 26×보다 훨씬 작음——Sonnet을 메인 루프 기본값으로 두면 안 됩니다.
독자별 추천: 누구인지 → 어떤 행을 쓸지
Primary 모델 + 에스컬레이션 모델 + 월 API 예산대
| 독자 | Primary (token 80%) | 에스컬레이션 (5–10%) | 월 API 예산 |
|---|---|---|---|
| 1인 개발 · IDE 완성 | Cursor / Copilot 구독 | — | $20–40 구독 |
| 인디 풀스택 · 가벼운 Agent | DeepSeek V4 Flash | Claude Sonnet (review) | $20–80 |
| CJK 비즈 · 긴 Agent 체인 | Hy3 Preview | Kimi K2 / Sonnet | $50–200 |
| 소규모팀 RAG 제품 | DeepSeek Flash + cache | Sonnet 머지 전 review | $200–800 |
| Agent 작업 500+/일 | DeepSeek / Hy3 듀얼 라우트 | 중요 노드에만 Opus | $120–600 (Flash 중심) |
| 소스 민감 · 데이터 거주 | Mac mini Ollama 7B–14B | 비민감만 Flash API | 하드웨어 > API |
| 금융·헬스케어 · 실패 비용 큼 | Flash 초안 + retrieval | Opus / GPT-4o + human gate | 컴플라이언스 주도 |
경험칙: Flash가 물량, Frontier가 관문. 기본 스택 = DeepSeek / Hy3 + Claude Sonnet. 사용량 추세: OpenRouter 가격 현실.
한 줄로: 가격은 Flash, 리스크는 Sonnet/Opus. 1억 토큰이 기준; 독자별 표가 답입니다.
ZavCloud
API 예산 잡기 전, 로컬 추론으로 커버 가능한 범위부터 확인하세요
Cloud Mac에서 Ollama 실행——7B/14B 일일 token 상한을 먼저 재고 Flash API 예산을 정하세요.
Cloud Mac 요금 보기