아직도 MMLU, GPT-Score 같은 벤치마크로 모델을 고른다면, 솔직히 잘못된 기준에 돈을 내고 있을 가능성이 큽니다. 게다가 청구서는 매달 더 아파집니다.
OpenRouter 최근 7일 데이터가 던지는 불편한 진실: AI 승자는 가장 강한 모델이 아니라, 가장 싸고 마음껏 호출할 수 있는 모델입니다. 2026년 6월 초 전체 주간 토큰 28.9T(+7.4%), DeepSeek V4 Flash 단일 모델만 3.43T——상위권은 거의 입력 $0.10/M급 저가 MoE이고, GPT-4o도 Claude Opus도, 벤치에서 비교하던 '최강'도 아닙니다.
이 숫자 뒤의 비용 단층, 진행 중인 3층 시장 분열, API 라우팅과 로컬 Ollama 추론 중 어디에 설 것인지를 짚습니다. 결론부터: AI는 '능력 경쟁'에서 '비용 경쟁'으로——가장 싸고 충분히 좋으면 = 기본값 승자입니다.
28.9T token: 업계 규칙을 다시 쓰는 숫자
OpenRouter는 LLM API 집약 라우터——개발자가 실제로 무엇을 호출하는지가 어떤 벤치보다 '진짜 전장'에 가깝습니다. 2026년 6월 첫째 주:
- 전체 주간 토큰: 28.9T, 5주 연속 증가, 전주 대비 +7.4%
- 중국系 모델: 9.2T, 미국系 4.9T의 거의 2배
- DeepSeek V4 Flash: 단일 1위, 주 3.43T, 일 피크 800B 초과
- 텐센트 Hy3 preview: 출시 수 주 만에 글로벌 2위
- xAI: 절대량 -73%, 상위권 유일한 역성장
상위는 거의 '저가 MoE'. GPT-4o 아님. Claude Opus 아님. '최강 모델'도 아님.
Anthropic은 몫을 늘린 소수의 서구 프론티어지만 절대 토큰은 DeepSeek系에 크게 뒤집니다. 마케팅 승리가 아니라 지갑 투표——한국 스타트업 API 청구서도 같은 표를 던집니다.
데이터 출처
OpenRouter 공개 모델별 사용량 차트와 커뮤니티 provider ranking 분석(2026년 6월 초). 실제 과금은 계정 청구 기준.
직관을 깨는 사실: 비싼 모델이 '주변'으로
벤치만 보면 더 똑똑할수록 더 쓰일 것이라 착각합니다. 현실은 반대:
- Claude / GPT: 품질은 높지만 호출마다 예산 연소
- DeepSeek / Hy3 / MiMo: 충분히 좋음 + 극저가——개발자는 무한 재시도 가능
그래서 듣기 싫은 한마디: 누가 최강이냐보다, 누가 '많이 호출해도 되느냐'. 예전엔 똑똑함 경쟁, 지금은 '호출 용기' 경쟁. 28.9T token이 그 증거——트래픽은 거짓말 안 하고, 월말 청구서도.
저가 모델이 트래픽을 지배하는 세 가지 이유(우연이 아님)
① Agent가 토큰을 폭발시킴——단가 차가 생사를 가름
Agent는 '한 번 묻고 한 번 답'이 아닙니다. 코드 읽기, patch 작성, 테스트, 수정, 루프. 한 작업이 2K에서 50K–200K token으로——호출이 50배면 '한 번 $0.015 비싸다'와 '$0.0001 비싸다'의 차는 최적화 여지가 아니라 구조적 단층입니다.
Claude Code나 OpenHands가 일상 도구가 되면 재시도·탐색·초안까지 Sonnet에 맡기는 건 품질 추구가 아니라 돈 태우기입니다. 개발자가 쪼잔해진 게 아니라 Agent가 청구서의 곱셈 효과를 책상 위에 올려놓은 겁니다.
② MoE가 '싸고 + 충분히 강함'을 현실로
DeepSeek V4 Flash: 총 284B, 호출 시 ~13B 활성. MiMo-V2-Flash: 309B 중 15B 활성. 비용은 활성 파라미터에 묶임——'최대'가 아니라 '가장 효율적인 활성'이 필요합니다.
MiMo-V2-Flash는 SWE-bench Verified 오픈소스 1위, Claude Sonnet 4.5에 근접한 성능에 API 비용은 약 3.5%. 때우는 게 아니라 능력은 비슷한데 비용은 절벽입니다.
③ 긴 컨텍스트 + cache로 비용이 더 무너짐
DeepSeek V4 Flash는 1M context, prompt caching 히트율 일부 provider에서 90%+. 가중 평균 입력 ~$0.044/M(표시 $0.098/M). 같은 system prompt 두 번째는 거의 공짜. RAG에서 문서 블록이 반복되면 '긴 컨텍스트를 두려워하지 않기'가 기본 전략이 됩니다.
OpenRouter 실제 가격——보이는 게 전부가 아님
'표시 가격 = 실제 비용'으로 착각하기 쉽지만 실제는 3층:
- 표시 가격: 페이지의 $0.1 / $3 / $10 input/output
- Provider 라우팅 가중: 지연·가용성·가격으로 backend 선택
- Cache 할인: 반복 prefix는 cache read 단가
| 모델 | 입력 /M | 출력 /M | cache 읽기 /M | 컨텍스트 |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~$0.098 | ~$0.197 | 일부 94% 히트 | 1M |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Claude Sonnet 4.5(대조) | ~$3.00 | ~$15.00 | 있음 | 200K |
| GPT-4o(대조) | ~$2.50 | ~$10.00 | 있음 | 128K |
극단 비교——Agent 작업(입력 100K + 출력 10K, 입력 80% cache 히트): DeepSeek V4 Flash ≈ $0.008, Claude Sonnet 4.5 ≈ $0.21. 26배 차. 하루 500회면 $4 vs $105. 28.9T가 저가 모델로 흐르는 건 필연입니다.
벌어지는 분열: 3층 시장
| 층 | 역할 | 대표 모델 | 토큰 비중 추세 |
|---|---|---|---|
| Flash 실행층 | 80% 토큰을 먹는 기본값 | DeepSeek V4 Flash, Hy3, MiMo | ↑ 확장 중 |
| 중간 판단층 | 핵심 단계 보조 판단 | Gemini Flash, Claude Sonnet | → 안정이나 주류 아님 |
| 프론티어 럭셔리층 | 주 플로우는 안 돌리고 리뷰만 | GPT-4o, Claude Opus | ↓ 주변화 |
Flash 실행층은 싸고 + 충분히 똑똑하고 + 무한 호출 가능. 프론티어층은 명품 시계처럼——품질 최고지만 Agent 주 플로우엔 이미 못 실음.
능력 한계는 남아 있음
저가 모델이 만능은 아닙니다. 비밀키, 컴플라이언스 감사, 다단계 증명, 한 번의 실패가 치명적인 영역(자동매매, 의료)에는 프론티어나 사람 리뷰가 필요합니다. 3층 분열은 기본 트래픽 배분 이야기지 '최강 모델의 죽음'이 아닙니다.
엔지니어링 현실: 싼 쪽이 '기본 모델'이 된다
기본 모델 = 트래픽 모델 = 시장 모델. 최강 모델이 아님.
SDK 기본값, 프레임워크 preset, 온보딩 문서의 첫 model string——그게 트래픽 입구입니다. DeepSeek V4 Flash input이 Sonnet의 1/30인데 SWE-bench 격차가 30배보다 훨씬 작으면, 기본값은 싼 쪽으로 미끄러집니다. 누가 선언하지 않아도 지갑과 관성이 결정합니다.
라우팅 전략: 3층을 똑똑하게
# Flash 실행층: 80% 토큰 cheap_model = "deepseek/deepseek-v4-flash" frontier_model = "anthropic/claude-sonnet-4.5" response = openrouter.chat(model=cheap_model, messages=msgs) if quality_check(response) == FAIL: response = openrouter.chat(model=frontier_model, messages=msgs)
MCP 기반 Agent 워크플로에서: 'repo 읽기·검색·초안 patch' → DeepSeek V4 Flash; 'merge 전 diff 리뷰' → Sonnet. 프론티어를 안 쓰는 게 아니라 주 플로우에 올리지 말 것.
싼 API ≠ 데이터를 아무 데나내도 됨
OpenRouter는 여러 provider로 라우팅하며 요청이 미국·제3국을 거칠 수 있습니다. 소스코드·PII에 컴플라이언스가 있으면 로컬 또는 전용 Cloud Mac 추론이 더 안전——비용 우위가 리스크를 덮지 못합니다.
로컬 추론 vs API: 세 번째 길
- 일일 호출량 예측 가능: 50K–500K token/일 7B/14B 파이프라인이면 Mac mini M4 24GB Ollama 한계 비용은 거의 0(실측 7B 약 34–37 tok/s)
- 데이터 국외 반출 없음: 소스, PII, 의료·금융 데이터는 OpenRouter에 올리지 않음
- 지연 민감: IDE 인라인 완성은 로컬이 RTT 0
- CI와 동일 머신 시간대 분리: Cloud Mac 낮 xcodebuild, 밤 배치 추론
200B+ MoE, 스파이크 부하, GPU 클러스터 없이 새 모델을 시험하려면 OpenRouter $0.10/M은 H100 클러스터가 없는 한 최강의 선택입니다.
2026 하이브리드 아키텍처
로컬 Ollama(일상 7B–14B) + OpenRouter Flash층(Agent 긴 체인) + 프론티어층(최종 review). Cloud Mac은 검증층——실기 구매 전 같은 benchmark로 Swap·tok/s를 재고 API에 올릴 workload를 가릅니다.
결론: 28.9T token이 말하는 것
28.9T는 DeepSeek 마케팅 승리도, 프론티어의 종언도 아닙니다. AI가 '능력 경쟁'에서 '비용 경쟁' 단계로 들어갔다는 신호입니다. 비용 경쟁에서 가장 싸고 충분히 좋으면 = 기본 승자. 벤치는 상한, 토큰 트래픽은 진짜 선택——답은 이미 나왔습니다.
아직 기본값으로 최강 모델을 Agent에 돌린다면, 10배 비용으로 '결과에 거의 영향 없는 선택'을 사고 있을 수 있습니다.
지금 당장 Claude나 GPT를 버리라는 뜻이 아닙니다. 기본 model string은 누가 썼나? 벤치인가, 청구서인가? Agent 시대에 후자가 생존 문제입니다.
자주 묻는 질문
Q: OpenRouter에서 가장 많이 쓰는 모델은?
A: DeepSeek V4 Flash. 단일 주 3.43T, 입력 ~$0.10/M. 2위 텐센트 Hy3 preview.
Q: 왜 중국系 토큰이 미국을 넘나?
A: 공격적 가격 + MoE 성숙 + 자체 배포 가능 + Agent 시대 '마음껏 호출' 수요. 품질 전면 우위가 아니라 비용 구조 우위.
Q: 저가 모델이 프로덕션에 맞나?
A: 흔들림 허용·자동 재시도·프론티어 fallback 있는 작업에 적합. 한 번의 실패가 치명적인 영역엔 부적합.
Q: 실제 비용 모니터링은?
A: OpenRouter dashboard 모델별 일별. 앱에 middleware로 model·token 기록——안 그러면 Agent 루프가 월말에 '깜짝 선물'을 줍니다.