가장 저렴한 모델로 1억 토큰 쓰면 얼마인가?

2026년 6월 기준 DeepSeek V4 Flash 등 Flash층 모델은 1억 토큰(입력 80%·출력 20% 혼합)에 약 $12, 입력만이면 약 $10 USD.

2026년 기본 모델 tier는 어디로 잡아야 하나?

Agent 메인 루프는 Flash(DeepSeek V4 Flash / Hy3). 머지 전 review는 Claude Sonnet으로 올리고, 한 번의 실패 비용이 극단적으로 큰 노드에만 Opus를 쓴다.

결론부터: 1억 토큰은 Flash층 약 $10–14, Sonnet 약 $540, Opus 약 $2,700——전부 USD. 아래 4개 표는 2026년 6월 공시가. 각 표 아래 한 줄 요약; 마지막에 독자별 추천.

$0.10

Flash 입력 평균 /M

~$12

1억 토큰 하한

26×

Sonnet vs DeepSeek

OpenRouter·공식 가격 페이지 기준. 단위: 백만 토큰당 USD ($/M).

Flash층

Agent 메인 루프 기본값 — 긴 컨텍스트·재시도에도 예산 불안 없음

모델	입력 /M	출력 /M	캐시 읽기 /M	컨텍스트
DeepSeek V4 Flash #1 사용량	$0.098	$0.197	~$0.01	1M
Hy3 Preview	~$0.10	~$0.20	있음	256K+
MiMo-V2-Flash	$0.10	$0.30	$0.01	256K
Gemini 2.5 Flash	$0.15	$0.60	있음	1M
Kimi K2	~$0.15	~$0.50	있음	128K
GPT-4o mini	$0.15	$0.60	있음	128K
Owl Alpha	~$0.12	~$0.35	—	200K

표 1: Agent token의 약 80%가 이 tier에 쌓입니다. OpenRouter 주간 Top 10은 거의 Flash뿐; DeepSeek + Hy3가 합쳐 주간 20T를 넘깁니다. 기본 모델 문자열은 여기서 먼저 고르세요.

Frontier층

에스컬레이션 전용 — 머지 전 review·아키텍처 판단, 기본 루프 아님

모델	입력 /M	출력 /M	컨텍스트	OpenRouter 추세
Claude Sonnet 4.6	~$3.00	~$15.00	200K	Review 워크호스
Claude Opus 4.7	~$15.00	~$75.00	200K	최종 승인층
GPT-4o	$2.50	$10.00	128K	Top 8 이탈
Gemini 2.5 Pro	~$1.25	~$10.00	1M	멀티모달 장문
o3 / o4-mini (reasoning)	$1.10–4.00	$4.40–16.00	200K	수학·증명 작업

표 2: 품질은 최상이지만 Agent 메인 루프엔 너무 비쌉니다. Claude Opus도 주간 7T+ token을 씁니다——review 역할이지 기본값이 아닙니다. GPT-4o는 메인 플로우에서 Flash로 교체되는 중입니다.

공통 기준: 1억 토큰. 세 가지 혼합——입력만 / 80·20 채팅 / 90·10 Agent.

1억 토큰

같은 용량, 최저 vs 최고 최대 200× 격차

모델	입력만 1억	80/20 혼합	90/10 Agent	vs DeepSeek
Flash 실행층
DeepSeek V4 Flash	~$10	~$12	~$11	1×
Hy3 Preview	~$10	~$13	~$11	1.1×
Gemini 2.5 Flash	~$15	~$24	~$19	2×
Frontier review층
GPT-4o	~$250	~$400	~$325	33×
Claude Sonnet 4.6	~$300	~$540	~$420	45×
Claude Opus 4.7	~$1,500	~$2,700	~$2,100	225×

표 3: 월 10억 token → DeepSeek ~$120, Sonnet ~$5,400. Agent 워크로드는 입력 비중이 높음——90/10 열을 참고하세요. 캐시 적중률이 높으면 Flash층 실제 비용은 50% 이상 줄일 수 있습니다.

가정: 입력 100K + 출력 10K, 입력 캐시 적중 80%. 하루 500회 실행 시 일일 청구.

Agent 1회

500회/일: DeepSeek $4 vs Sonnet $105

모델	입력 /M	작업당	500회/일	vs DeepSeek
Flash 실행층
DeepSeek V4 Flash	~$0.10	$0.008	~$4	1×
Hy3 Preview	~$0.10	$0.009	~$5	1.1×
Gemini 2.5 Flash	~$0.15	$0.02	~$10	2.5×
Kimi K2	~$0.15	$0.018	~$9	2.3×
Frontier review층
Claude Sonnet 4.6	~$3.00	$0.21	~$105	26×
Claude Opus 4.7	~$15.00	$1.05	~$525	131×
GPT-4o	~$2.50	$0.18	~$90	23×

표 4: Claude Code / OpenHands류 도구의 현실적 소진량. 품질 격차는 26×보다 훨씬 작음——Sonnet을 메인 루프 기본값으로 두면 안 됩니다.

라우팅 추천

Primary 모델 + 에스컬레이션 모델 + 월 API 예산대

독자	Primary (token 80%)	에스컬레이션 (5–10%)	월 API 예산
1인 개발 · IDE 완성	Cursor / Copilot 구독	—	$20–40 구독
인디 풀스택 · 가벼운 Agent	DeepSeek V4 Flash	Claude Sonnet (review)	$20–80
CJK 비즈 · 긴 Agent 체인	Hy3 Preview	Kimi K2 / Sonnet	$50–200
소규모팀 RAG 제품	DeepSeek Flash + cache	Sonnet 머지 전 review	$200–800
Agent 작업 500+/일	DeepSeek / Hy3 듀얼 라우트	중요 노드에만 Opus	$120–600 (Flash 중심)
소스 민감 · 데이터 거주	Mac mini Ollama 7B–14B	비민감만 Flash API	하드웨어 > API
금융·헬스케어 · 실패 비용 큼	Flash 초안 + retrieval	Opus / GPT-4o + human gate	컴플라이언스 주도

경험칙: Flash가 물량, Frontier가 관문. 기본 스택 = DeepSeek / Hy3 + Claude Sonnet. 사용량 추세: OpenRouter 가격 현실.

한 줄로: 가격은 Flash, 리스크는 Sonnet/Opus. 1억 토큰이 기준; 독자별 표가 답입니다.

ZavCloud

Cloud Mac에서 Ollama 실행——7B/14B 일일 token 상한을 먼저 재고 Flash API 예산을 정하세요.

Cloud Mac 요금 보기