Что такое токены? Сколько стоят 100 млн токенов? Полное сравнение цен AI-моделей 2026

AI Notes  ·   ·  ~6 мин чтения

Единицы биллинга токенов ИИ и сравнение цен API LLM

Коротко: 100 млн токенов на Flash-уровне — примерно $10–14, на Sonnet ~$540, на Opus ~$2 700, всё в USD. Ниже четыре таблицы с прайс-листами июня 2026. Под каждой — одна строка выводов; в конце — рекомендации по аудитории.

Если вы планируете бюджет Agent или сравниваете дефолты Cursor с собственным API-стеком, начните отсюда — не с бенчмарков. Все цифры ниже — доллары США за миллион токенов ($/M), если не указано иное. Названия моделей и уровни соответствуют тому, что разработчики реально маршрутизируют через OpenRouter в середине июня 2026; ваш счёт может немного отличаться из‑за кэша, маршрутизации или корпоративных скидок.

$0.10
Flash input ср. /M
~$12
100 млн токенов минимум
26×
Sonnet vs DeepSeek

Таблица 1: Flash-уровень исполнения — тарифы API, июнь 2026

OpenRouter и официальные страницы. Единица: USD за миллион токенов ($/M).

Flash-уровень

Дефолт для основных циклов Agent — длинный контекст и ретраи без паники по бюджету

Модель Input /M Output /M Cache read /M Контекст
DeepSeek V4 Flash #1 по объёму $0.098 $0.197 ~$0.01 1M
Hy3 Preview ~$0.10 ~$0.20 Да 256K+
MiMo-V2-Flash $0.10 $0.30 $0.01 256K
Gemini 2.5 Flash $0.15 $0.60 Да 1M
Kimi K2 ~$0.15 ~$0.50 Да 128K
GPT-4o mini $0.15 $0.60 Да 128K
Owl Alpha ~$0.12 ~$0.35 200K

Таблица 1: Этот уровень поглощает ~80 % токенов Agent. Еженедельный Top 10 OpenRouter почти целиком Flash; DeepSeek + Hy3 вместе — более 20T/нед. Сначала выберите дефолтную строку модели здесь. Когда «cache read» около $0,01/M, повторяющиеся system prompt и RAG-чанки быстро дешевеют — поэтому команды решаются на 200K-чтения репозитория на Flash, а не на Sonnet.

Flash-модели — не «худший GPT», а MoE-архитектуры под высокообъёмные циклы. DeepSeek V4 Flash лидирует по сырому объёму: 1M контекста при input ниже $0,10/M. Hy3 и Kimi важны, если пайплайн насыщен CJK или tool calls. Gemini 2.5 Flash и GPT-4o mini — западные аналоги примерно в 1,5–2× к листингу DeepSeek. Командам с prompt caching стоит сначала смотреть колонку cache read — там часто самый большой рычаг до смены модели.

Таблица 2: Frontier-уровень ревью — тарифы API, июнь 2026

Frontier-уровень

Только эскалация — ревью перед merge и архитектурные решения, не дефолтный цикл

Модель Input /M Output /M Контекст Тренд OpenRouter
Claude Sonnet 4.6 ~$3.00 ~$15.00 200K Рабочая лошадка ревью
Claude Opus 4.7 ~$15.00 ~$75.00 200K Уровень подписи
GPT-4o $2.50 $10.00 128K Выпал из Top 8
Gemini 2.5 Pro ~$1.25 ~$10.00 1M Мультимодал long-form
o3 / o4-mini (reasoning) $1.10–4.00 $4.40–16.00 200K Математика / доказательства

Таблица 2: Максимальное качество, но слишком дорого для основного цикла Agent. Claude Opus по-прежнему обрабатывает 7T+ токенов в неделю — в роли ревью, не дефолта. GPT-4o вытесняют из первичных потоков в пользу Flash. Sonnet 4.6 — разумный «шаг вверх», когда diff требует внимательного суждения; Opus — для подписи, где ошибка дороже API-счёта.

Цены Frontier объясняют, почему «просто взять лучшую модель» перестало работать, когда Agents стали сжигать 50K–200K токенов на задачу. Одно ревью на Sonnet доступно; Sonnet как дефолт для каждого чтения файла — нет. Gemini 2.5 Pro и reasoning-модели o-series закрывают ниши — длинные мультимодальные документы или формальные доказательства —, а не ежедневный coding loop.

Таблица 3: сравнение счетов за 100 млн токенов

Общий ориентир: 100 млн токенов. Три смеси: только input / чат 80·20 / Agent 90·10.

100 млн токенов

Один объём — разброс до 200× между самым дешёвым и самым дорогим

Модель Только input 100M Смесь 80/20 Agent 90/10 vs DeepSeek
Flash-уровень исполнения
DeepSeek V4 Flash ~$10 ~$12 ~$11
Hy3 Preview ~$10 ~$13 ~$11 1.1×
Gemini 2.5 Flash ~$15 ~$24 ~$19
Frontier-уровень ревью
GPT-4o ~$250 ~$400 ~$325 33×
Claude Sonnet 4.6 ~$300 ~$540 ~$420 45×
Claude Opus 4.7 ~$1,500 ~$2,700 ~$2,100 225×

Таблица 3: 1 млрд токенов/мес → DeepSeek ~$120, Sonnet ~$5 400. Нагрузки Agent смещены к input — смотрите колонку 90/10. Высокий cache hit на Flash может снизить фактический счёт на 50 %+. Используйте таблицу, когда финансы спрашивают «что если трафик ×10?» — множитель больнее бьёт по строкам Frontier, чем Flash.

«100 млн токенов» — удобная мысленная единица: примерно насыщенная неделя небольшого Agent-пилота или несколько часов высокообъёмного RAG-сервиса. Колонка только input моделирует ingestion-heavy пайплайны (поиск, rerank, классификация). Смесь 80/20 подходит чат-продуктам. Колонка Agent 90/10 — для stress-test, когда инструмент читает целые репозитории перед коротким патчем. Если ваш продукт уже показывает рост токенов быстрее пользователей, начните с этой колонки — она ближе к реальности, чем chat-мix.

Таблица 4: типичная стоимость одной задачи Agent

Допущение: 100K input + 10K output, 80 % cache hit по input. Дневной счёт при 500 запусках.

Один запуск Agent

500/день: DeepSeek $4 vs Sonnet $105

Модель Input /M За задачу 500/день vs DeepSeek
Flash-уровень исполнения
DeepSeek V4 Flash ~$0.10 $0.008 ~$4
Hy3 Preview ~$0.10 $0.009 ~$5 1.1×
Gemini 2.5 Flash ~$0.15 $0.02 ~$10 2.5×
Kimi K2 ~$0.15 $0.018 ~$9 2.3×
Frontier-уровень ревью
Claude Sonnet 4.6 ~$3.00 $0.21 ~$105 26×
Claude Opus 4.7 ~$15.00 $1.05 ~$525 131×
GPT-4o ~$2.50 $0.18 ~$90 23×

Таблица 4: Реалистичный расход для Claude Code / инструментов типа OpenHands. Разрыв по качеству намного меньше 26× — Sonnet не должен быть дефолтом основного цикла. При 500 запусках в день Sonnet на этой форме нагрузки — отдельная строка $3 000+/мес; Flash остаётся в двузначных цифрах.

Строку «за задачу» стоит вставить в таблицу engineering lead: умножить на ожидаемые ежедневные вызовы Agent и добавить запас на retries. Если продукт дергает LLM на каждый CI-failure, тикет поддержки и ночной job, таблица 4 масштабируется линейно — «безлимитного тарифа» у сырой API-цены нет.

Рекомендации по аудитории: кто вы → какая строка

Выбор маршрута

Основная модель + модель эскалации + месячный бюджет

Аудитория Основная (80 % токенов) Эскалация (5–10 %) Месячный бюджет API
Solo-разработчик · автодополнение IDE Подписка Cursor / Copilot $20–40 подписка
Indie full-stack · лёгкий Agent DeepSeek V4 Flash Claude Sonnet (ревью) $20–80
CJK-бизнес · длинные цепочки Agent Hy3 Preview Kimi K2 / Sonnet $50–200
Малая команда · RAG-продукт DeepSeek Flash + cache Sonnet ревью перед merge $200–800
500+ задач Agent/день Dual route DeepSeek / Hy3 Opus только на критических узлах $120–600 (преимущественно Flash)
Чувствительный код · резидентность данных Mac mini Ollama 7B–14B Flash API только для некритичного Железо > API
Финансы / здравоохранение · дорогие ошибки Flash-черновики + retrieval Opus / GPT-4o + human gate Диктуется compliance

Правило большого пальца: Flash несёт объём; Frontier охраняет ворота. Дефолтный стек = DeepSeek / Hy3 + Claude Sonnet. Тренды использования: реальность цен OpenRouter.

Краткие заметки по аудитории

  • Solo / IDE: подписки упаковывают стоимость токенов — вы оптимизируете время, а не $/M. Возвращайтесь к API-ценам, когда включённых fast requests уже не хватает.
  • Indie Agent: DeepSeek по умолчанию + Sonnet на merge — самый простой split; бюджет $20–80, пока дашборды usage не покажут иное.
  • Длинные CJK-цепочки: стабильность tool у Hy3 часто важнее сырого $/M; Kimi — когда документы в основном на mainland-китайском.
  • RAG-продукт: кэшируйте system prompt и префиксы документов; Flash + ревью Sonnet обходит один Sonnet на порядок.
  • 500+ задач/день: dual route DeepSeek/Hy3 раньше Opus; Opus — только на шагах с human gate.
  • Резидентность данных: локальные 7B–14B убирают поминутную оплату токенов для предсказуемых нагрузок; API — для всплесков и MoE 200B+.
  • Регулируемые отрасли: цена вторична к audit trail — но объём всё равно гоните через Flash, не Opus. Фиксируйте пути эскалации для compliance.

Одной строкой: цена выбирает Flash; риск — Sonnet/Opus. 100 млн токенов — ориентир; таблица аудиторий — ответ.

Возвращайтесь к этой странице, когда вендоры снова срежут Flash-цены — июнь 2026 двигался быстрее, чем frontier-листы 2025. Раз в месяц выгружайте свой split usage; таблицы стареют медленно, а счёт двигает именно ваше соотношение input/output. Явные review-gates позволяют держать Sonnet в узком коридоре, а не платить за него на каждом шаге цикла.

ZavCloud

Узнайте, что покрывает локальный inference, прежде чем планировать API

Ollama на Cloud Mac — найдите дневной потолок токенов для 7B/14B, затем задайте бюджет Flash API.

Тарифы Cloud Mac
Cloud MacАренда Mac mini онлайн