Сколько стоят 100 млн токенов на самых дешёвых моделях?

По состоянию на июнь 2026 DeepSeek V4 Flash и аналоги Flash-уровня при типичной смеси 80/20 input/output на 100 млн токенов обходятся примерно в $12; только input — около $10 USD.

Какой уровень модели должен быть дефолтом в 2026?

Основные циклы Agent — на Flash (DeepSeek V4 Flash / Hy3). Перед merge — эскалация на Claude Sonnet. Opus — только для узлов, где одна ошибка крайне дорога.

Что такое токены? Сколько стоят 100 млн токенов? Полное сравнение цен AI-моделей 2026

Коротко: 100 млн токенов на Flash-уровне — примерно $10–14, на Sonnet ~$540, на Opus ~$2 700, всё в USD. Ниже четыре таблицы с прайс-листами июня 2026. Под каждой — одна строка выводов; в конце — рекомендации по аудитории.

Если вы планируете бюджет Agent или сравниваете дефолты Cursor с собственным API-стеком, начните отсюда — не с бенчмарков. Все цифры ниже — доллары США за миллион токенов ($/M), если не указано иное. Названия моделей и уровни соответствуют тому, что разработчики реально маршрутизируют через OpenRouter в середине июня 2026; ваш счёт может немного отличаться из‑за кэша, маршрутизации или корпоративных скидок.

$0.10

Flash input ср. /M

~$12

100 млн токенов минимум

26×

Sonnet vs DeepSeek

Таблица 1: Flash-уровень исполнения — тарифы API, июнь 2026

OpenRouter и официальные страницы. Единица: USD за миллион токенов ($/M).

Flash-уровень

Дефолт для основных циклов Agent — длинный контекст и ретраи без паники по бюджету

Модель	Input /M	Output /M	Cache read /M	Контекст
DeepSeek V4 Flash #1 по объёму	$0.098	$0.197	~$0.01	1M
Hy3 Preview	~$0.10	~$0.20	Да	256K+
MiMo-V2-Flash	$0.10	$0.30	$0.01	256K
Gemini 2.5 Flash	$0.15	$0.60	Да	1M
Kimi K2	~$0.15	~$0.50	Да	128K
GPT-4o mini	$0.15	$0.60	Да	128K
Owl Alpha	~$0.12	~$0.35	—	200K

Таблица 1: Этот уровень поглощает ~80 % токенов Agent. Еженедельный Top 10 OpenRouter почти целиком Flash; DeepSeek + Hy3 вместе — более 20T/нед. Сначала выберите дефолтную строку модели здесь. Когда «cache read» около $0,01/M, повторяющиеся system prompt и RAG-чанки быстро дешевеют — поэтому команды решаются на 200K-чтения репозитория на Flash, а не на Sonnet.

Flash-модели — не «худший GPT», а MoE-архитектуры под высокообъёмные циклы. DeepSeek V4 Flash лидирует по сырому объёму: 1M контекста при input ниже $0,10/M. Hy3 и Kimi важны, если пайплайн насыщен CJK или tool calls. Gemini 2.5 Flash и GPT-4o mini — западные аналоги примерно в 1,5–2× к листингу DeepSeek. Командам с prompt caching стоит сначала смотреть колонку cache read — там часто самый большой рычаг до смены модели.

Таблица 2: Frontier-уровень ревью — тарифы API, июнь 2026

Frontier-уровень

Только эскалация — ревью перед merge и архитектурные решения, не дефолтный цикл

Модель	Input /M	Output /M	Контекст	Тренд OpenRouter
Claude Sonnet 4.6	~$3.00	~$15.00	200K	Рабочая лошадка ревью
Claude Opus 4.7	~$15.00	~$75.00	200K	Уровень подписи
GPT-4o	$2.50	$10.00	128K	Выпал из Top 8
Gemini 2.5 Pro	~$1.25	~$10.00	1M	Мультимодал long-form
o3 / o4-mini (reasoning)	$1.10–4.00	$4.40–16.00	200K	Математика / доказательства

Таблица 2: Максимальное качество, но слишком дорого для основного цикла Agent. Claude Opus по-прежнему обрабатывает 7T+ токенов в неделю — в роли ревью, не дефолта. GPT-4o вытесняют из первичных потоков в пользу Flash. Sonnet 4.6 — разумный «шаг вверх», когда diff требует внимательного суждения; Opus — для подписи, где ошибка дороже API-счёта.

Цены Frontier объясняют, почему «просто взять лучшую модель» перестало работать, когда Agents стали сжигать 50K–200K токенов на задачу. Одно ревью на Sonnet доступно; Sonnet как дефолт для каждого чтения файла — нет. Gemini 2.5 Pro и reasoning-модели o-series закрывают ниши — длинные мультимодальные документы или формальные доказательства —, а не ежедневный coding loop.

Таблица 3: сравнение счетов за 100 млн токенов

Общий ориентир: 100 млн токенов. Три смеси: только input / чат 80·20 / Agent 90·10.

100 млн токенов

Один объём — разброс до 200× между самым дешёвым и самым дорогим

Модель	Только input 100M	Смесь 80/20	Agent 90/10	vs DeepSeek
Flash-уровень исполнения
DeepSeek V4 Flash	~$10	~$12	~$11	1×
Hy3 Preview	~$10	~$13	~$11	1.1×
Gemini 2.5 Flash	~$15	~$24	~$19	2×
Frontier-уровень ревью
GPT-4o	~$250	~$400	~$325	33×
Claude Sonnet 4.6	~$300	~$540	~$420	45×
Claude Opus 4.7	~$1,500	~$2,700	~$2,100	225×

Таблица 3: 1 млрд токенов/мес → DeepSeek ~$120, Sonnet ~$5 400. Нагрузки Agent смещены к input — смотрите колонку 90/10. Высокий cache hit на Flash может снизить фактический счёт на 50 %+. Используйте таблицу, когда финансы спрашивают «что если трафик ×10?» — множитель больнее бьёт по строкам Frontier, чем Flash.

«100 млн токенов» — удобная мысленная единица: примерно насыщенная неделя небольшого Agent-пилота или несколько часов высокообъёмного RAG-сервиса. Колонка только input моделирует ingestion-heavy пайплайны (поиск, rerank, классификация). Смесь 80/20 подходит чат-продуктам. Колонка Agent 90/10 — для stress-test, когда инструмент читает целые репозитории перед коротким патчем. Если ваш продукт уже показывает рост токенов быстрее пользователей, начните с этой колонки — она ближе к реальности, чем chat-мix.

Таблица 4: типичная стоимость одной задачи Agent

Допущение: 100K input + 10K output, 80 % cache hit по input. Дневной счёт при 500 запусках.

Один запуск Agent

500/день: DeepSeek $4 vs Sonnet $105

Модель	Input /M	За задачу	500/день	vs DeepSeek
Flash-уровень исполнения
DeepSeek V4 Flash	~$0.10	$0.008	~$4	1×
Hy3 Preview	~$0.10	$0.009	~$5	1.1×
Gemini 2.5 Flash	~$0.15	$0.02	~$10	2.5×
Kimi K2	~$0.15	$0.018	~$9	2.3×
Frontier-уровень ревью
Claude Sonnet 4.6	~$3.00	$0.21	~$105	26×
Claude Opus 4.7	~$15.00	$1.05	~$525	131×
GPT-4o	~$2.50	$0.18	~$90	23×

Таблица 4: Реалистичный расход для Claude Code / инструментов типа OpenHands. Разрыв по качеству намного меньше 26× — Sonnet не должен быть дефолтом основного цикла. При 500 запусках в день Sonnet на этой форме нагрузки — отдельная строка $3 000+/мес; Flash остаётся в двузначных цифрах.

Строку «за задачу» стоит вставить в таблицу engineering lead: умножить на ожидаемые ежедневные вызовы Agent и добавить запас на retries. Если продукт дергает LLM на каждый CI-failure, тикет поддержки и ночной job, таблица 4 масштабируется линейно — «безлимитного тарифа» у сырой API-цены нет.

Рекомендации по аудитории: кто вы → какая строка

Выбор маршрута

Основная модель + модель эскалации + месячный бюджет

Аудитория	Основная (80 % токенов)	Эскалация (5–10 %)	Месячный бюджет API
Solo-разработчик · автодополнение IDE	Подписка Cursor / Copilot	—	$20–40 подписка
Indie full-stack · лёгкий Agent	DeepSeek V4 Flash	Claude Sonnet (ревью)	$20–80
CJK-бизнес · длинные цепочки Agent	Hy3 Preview	Kimi K2 / Sonnet	$50–200
Малая команда · RAG-продукт	DeepSeek Flash + cache	Sonnet ревью перед merge	$200–800
500+ задач Agent/день	Dual route DeepSeek / Hy3	Opus только на критических узлах	$120–600 (преимущественно Flash)
Чувствительный код · резидентность данных	Mac mini Ollama 7B–14B	Flash API только для некритичного	Железо > API
Финансы / здравоохранение · дорогие ошибки	Flash-черновики + retrieval	Opus / GPT-4o + human gate	Диктуется compliance

Правило большого пальца: Flash несёт объём; Frontier охраняет ворота. Дефолтный стек = DeepSeek / Hy3 + Claude Sonnet. Тренды использования: реальность цен OpenRouter.

Краткие заметки по аудитории

Solo / IDE: подписки упаковывают стоимость токенов — вы оптимизируете время, а не $/M. Возвращайтесь к API-ценам, когда включённых fast requests уже не хватает.
Indie Agent: DeepSeek по умолчанию + Sonnet на merge — самый простой split; бюджет $20–80, пока дашборды usage не покажут иное.
Длинные CJK-цепочки: стабильность tool у Hy3 часто важнее сырого $/M; Kimi — когда документы в основном на mainland-китайском.
RAG-продукт: кэшируйте system prompt и префиксы документов; Flash + ревью Sonnet обходит один Sonnet на порядок.
500+ задач/день: dual route DeepSeek/Hy3 раньше Opus; Opus — только на шагах с human gate.
Резидентность данных: локальные 7B–14B убирают поминутную оплату токенов для предсказуемых нагрузок; API — для всплесков и MoE 200B+.
Регулируемые отрасли: цена вторична к audit trail — но объём всё равно гоните через Flash, не Opus. Фиксируйте пути эскалации для compliance.

Одной строкой: цена выбирает Flash; риск — Sonnet/Opus. 100 млн токенов — ориентир; таблица аудиторий — ответ.

Возвращайтесь к этой странице, когда вендоры снова срежут Flash-цены — июнь 2026 двигался быстрее, чем frontier-листы 2025. Раз в месяц выгружайте свой split usage; таблицы стареют медленно, а счёт двигает именно ваше соотношение input/output. Явные review-gates позволяют держать Sonnet в узком коридоре, а не платить за него на каждом шаге цикла.

ZavCloud

Узнайте, что покрывает локальный inference, прежде чем планировать API

Ollama на Cloud Mac — найдите дневной потолок токенов для 7B/14B, затем задайте бюджет Flash API.

Тарифы Cloud Mac