Коротко: 100 млн токенов на Flash-уровне — примерно $10–14, на Sonnet ~$540, на Opus ~$2 700, всё в USD. Ниже четыре таблицы с прайс-листами июня 2026. Под каждой — одна строка выводов; в конце — рекомендации по аудитории.
Если вы планируете бюджет Agent или сравниваете дефолты Cursor с собственным API-стеком, начните отсюда — не с бенчмарков. Все цифры ниже — доллары США за миллион токенов ($/M), если не указано иное. Названия моделей и уровни соответствуют тому, что разработчики реально маршрутизируют через OpenRouter в середине июня 2026; ваш счёт может немного отличаться из‑за кэша, маршрутизации или корпоративных скидок.
Таблица 1: Flash-уровень исполнения — тарифы API, июнь 2026
OpenRouter и официальные страницы. Единица: USD за миллион токенов ($/M).
Дефолт для основных циклов Agent — длинный контекст и ретраи без паники по бюджету
| Модель | Input /M | Output /M | Cache read /M | Контекст |
|---|---|---|---|---|
| DeepSeek V4 Flash #1 по объёму | $0.098 | $0.197 | ~$0.01 | 1M |
| Hy3 Preview | ~$0.10 | ~$0.20 | Да | 256K+ |
| MiMo-V2-Flash | $0.10 | $0.30 | $0.01 | 256K |
| Gemini 2.5 Flash | $0.15 | $0.60 | Да | 1M |
| Kimi K2 | ~$0.15 | ~$0.50 | Да | 128K |
| GPT-4o mini | $0.15 | $0.60 | Да | 128K |
| Owl Alpha | ~$0.12 | ~$0.35 | — | 200K |
Таблица 1: Этот уровень поглощает ~80 % токенов Agent. Еженедельный Top 10 OpenRouter почти целиком Flash; DeepSeek + Hy3 вместе — более 20T/нед. Сначала выберите дефолтную строку модели здесь. Когда «cache read» около $0,01/M, повторяющиеся system prompt и RAG-чанки быстро дешевеют — поэтому команды решаются на 200K-чтения репозитория на Flash, а не на Sonnet.
Flash-модели — не «худший GPT», а MoE-архитектуры под высокообъёмные циклы. DeepSeek V4 Flash лидирует по сырому объёму: 1M контекста при input ниже $0,10/M. Hy3 и Kimi важны, если пайплайн насыщен CJK или tool calls. Gemini 2.5 Flash и GPT-4o mini — западные аналоги примерно в 1,5–2× к листингу DeepSeek. Командам с prompt caching стоит сначала смотреть колонку cache read — там часто самый большой рычаг до смены модели.
Таблица 2: Frontier-уровень ревью — тарифы API, июнь 2026
Только эскалация — ревью перед merge и архитектурные решения, не дефолтный цикл
| Модель | Input /M | Output /M | Контекст | Тренд OpenRouter |
|---|---|---|---|---|
| Claude Sonnet 4.6 | ~$3.00 | ~$15.00 | 200K | Рабочая лошадка ревью |
| Claude Opus 4.7 | ~$15.00 | ~$75.00 | 200K | Уровень подписи |
| GPT-4o | $2.50 | $10.00 | 128K | Выпал из Top 8 |
| Gemini 2.5 Pro | ~$1.25 | ~$10.00 | 1M | Мультимодал long-form |
| o3 / o4-mini (reasoning) | $1.10–4.00 | $4.40–16.00 | 200K | Математика / доказательства |
Таблица 2: Максимальное качество, но слишком дорого для основного цикла Agent. Claude Opus по-прежнему обрабатывает 7T+ токенов в неделю — в роли ревью, не дефолта. GPT-4o вытесняют из первичных потоков в пользу Flash. Sonnet 4.6 — разумный «шаг вверх», когда diff требует внимательного суждения; Opus — для подписи, где ошибка дороже API-счёта.
Цены Frontier объясняют, почему «просто взять лучшую модель» перестало работать, когда Agents стали сжигать 50K–200K токенов на задачу. Одно ревью на Sonnet доступно; Sonnet как дефолт для каждого чтения файла — нет. Gemini 2.5 Pro и reasoning-модели o-series закрывают ниши — длинные мультимодальные документы или формальные доказательства —, а не ежедневный coding loop.
Таблица 3: сравнение счетов за 100 млн токенов
Общий ориентир: 100 млн токенов. Три смеси: только input / чат 80·20 / Agent 90·10.
Один объём — разброс до 200× между самым дешёвым и самым дорогим
| Модель | Только input 100M | Смесь 80/20 | Agent 90/10 | vs DeepSeek |
|---|---|---|---|---|
| Flash-уровень исполнения | ||||
| DeepSeek V4 Flash | ~$10 | ~$12 | ~$11 | 1× |
| Hy3 Preview | ~$10 | ~$13 | ~$11 | 1.1× |
| Gemini 2.5 Flash | ~$15 | ~$24 | ~$19 | 2× |
| Frontier-уровень ревью | ||||
| GPT-4o | ~$250 | ~$400 | ~$325 | 33× |
| Claude Sonnet 4.6 | ~$300 | ~$540 | ~$420 | 45× |
| Claude Opus 4.7 | ~$1,500 | ~$2,700 | ~$2,100 | 225× |
Таблица 3: 1 млрд токенов/мес → DeepSeek ~$120, Sonnet ~$5 400. Нагрузки Agent смещены к input — смотрите колонку 90/10. Высокий cache hit на Flash может снизить фактический счёт на 50 %+. Используйте таблицу, когда финансы спрашивают «что если трафик ×10?» — множитель больнее бьёт по строкам Frontier, чем Flash.
«100 млн токенов» — удобная мысленная единица: примерно насыщенная неделя небольшого Agent-пилота или несколько часов высокообъёмного RAG-сервиса. Колонка только input моделирует ingestion-heavy пайплайны (поиск, rerank, классификация). Смесь 80/20 подходит чат-продуктам. Колонка Agent 90/10 — для stress-test, когда инструмент читает целые репозитории перед коротким патчем. Если ваш продукт уже показывает рост токенов быстрее пользователей, начните с этой колонки — она ближе к реальности, чем chat-мix.
Таблица 4: типичная стоимость одной задачи Agent
Допущение: 100K input + 10K output, 80 % cache hit по input. Дневной счёт при 500 запусках.
500/день: DeepSeek $4 vs Sonnet $105
| Модель | Input /M | За задачу | 500/день | vs DeepSeek |
|---|---|---|---|---|
| Flash-уровень исполнения | ||||
| DeepSeek V4 Flash | ~$0.10 | $0.008 | ~$4 | 1× |
| Hy3 Preview | ~$0.10 | $0.009 | ~$5 | 1.1× |
| Gemini 2.5 Flash | ~$0.15 | $0.02 | ~$10 | 2.5× |
| Kimi K2 | ~$0.15 | $0.018 | ~$9 | 2.3× |
| Frontier-уровень ревью | ||||
| Claude Sonnet 4.6 | ~$3.00 | $0.21 | ~$105 | 26× |
| Claude Opus 4.7 | ~$15.00 | $1.05 | ~$525 | 131× |
| GPT-4o | ~$2.50 | $0.18 | ~$90 | 23× |
Таблица 4: Реалистичный расход для Claude Code / инструментов типа OpenHands. Разрыв по качеству намного меньше 26× — Sonnet не должен быть дефолтом основного цикла. При 500 запусках в день Sonnet на этой форме нагрузки — отдельная строка $3 000+/мес; Flash остаётся в двузначных цифрах.
Строку «за задачу» стоит вставить в таблицу engineering lead: умножить на ожидаемые ежедневные вызовы Agent и добавить запас на retries. Если продукт дергает LLM на каждый CI-failure, тикет поддержки и ночной job, таблица 4 масштабируется линейно — «безлимитного тарифа» у сырой API-цены нет.
Рекомендации по аудитории: кто вы → какая строка
Основная модель + модель эскалации + месячный бюджет
| Аудитория | Основная (80 % токенов) | Эскалация (5–10 %) | Месячный бюджет API |
|---|---|---|---|
| Solo-разработчик · автодополнение IDE | Подписка Cursor / Copilot | — | $20–40 подписка |
| Indie full-stack · лёгкий Agent | DeepSeek V4 Flash | Claude Sonnet (ревью) | $20–80 |
| CJK-бизнес · длинные цепочки Agent | Hy3 Preview | Kimi K2 / Sonnet | $50–200 |
| Малая команда · RAG-продукт | DeepSeek Flash + cache | Sonnet ревью перед merge | $200–800 |
| 500+ задач Agent/день | Dual route DeepSeek / Hy3 | Opus только на критических узлах | $120–600 (преимущественно Flash) |
| Чувствительный код · резидентность данных | Mac mini Ollama 7B–14B | Flash API только для некритичного | Железо > API |
| Финансы / здравоохранение · дорогие ошибки | Flash-черновики + retrieval | Opus / GPT-4o + human gate | Диктуется compliance |
Правило большого пальца: Flash несёт объём; Frontier охраняет ворота. Дефолтный стек = DeepSeek / Hy3 + Claude Sonnet. Тренды использования: реальность цен OpenRouter.
Краткие заметки по аудитории
- Solo / IDE: подписки упаковывают стоимость токенов — вы оптимизируете время, а не $/M. Возвращайтесь к API-ценам, когда включённых fast requests уже не хватает.
- Indie Agent: DeepSeek по умолчанию + Sonnet на merge — самый простой split; бюджет $20–80, пока дашборды usage не покажут иное.
- Длинные CJK-цепочки: стабильность tool у Hy3 часто важнее сырого $/M; Kimi — когда документы в основном на mainland-китайском.
- RAG-продукт: кэшируйте system prompt и префиксы документов; Flash + ревью Sonnet обходит один Sonnet на порядок.
- 500+ задач/день: dual route DeepSeek/Hy3 раньше Opus; Opus — только на шагах с human gate.
- Резидентность данных: локальные 7B–14B убирают поминутную оплату токенов для предсказуемых нагрузок; API — для всплесков и MoE 200B+.
- Регулируемые отрасли: цена вторична к audit trail — но объём всё равно гоните через Flash, не Opus. Фиксируйте пути эскалации для compliance.
Одной строкой: цена выбирает Flash; риск — Sonnet/Opus. 100 млн токенов — ориентир; таблица аудиторий — ответ.
Возвращайтесь к этой странице, когда вендоры снова срежут Flash-цены — июнь 2026 двигался быстрее, чем frontier-листы 2025. Раз в месяц выгружайте свой split usage; таблицы стареют медленно, а счёт двигает именно ваше соотношение input/output. Явные review-gates позволяют держать Sonnet в узком коридоре, а не платить за него на каждом шаге цикла.
ZavCloud
Узнайте, что покрывает локальный inference, прежде чем планировать API
Ollama на Cloud Mac — найдите дневной потолок токенов для 7B/14B, затем задайте бюджет Flash API.
Тарифы Cloud Mac