Почему дешёвые модели съедают так много токенов?

Циклы агентов, RAG-переранжирование, пакетные саммари терпят среднее качество за один проход, но жрут токены без жалости. Низкая цена позволяет открывать длинный контекст и многократно перезапускать задачу, не вызывая Claude Sonnet на каждый чих.

Реальная цена OpenRouter ниже заявленной?

Часто да. Средневзвешенная цена входа DeepSeek V4 Flash может опускаться до ~$0,04/M, потому что prompt caching даёт 50–94% попаданий — повторяющиеся system prompt и RAG-контекст попадают в кэш и считаются дешевле.

Когда брать API, а когда гонять Ollama локально?

OpenRouter API — при низкой чувствительности данных, пиковых нагрузках и необходимости MoE 200B+. Mac mini с локальным Ollama выгоднее при фиксированном потоке 7B–14B, требовании «данные не покидают периметр» и предсказуемом дневном объёме.

Правда о ценах OpenRouter: почему самые дешёвые модели «захватывают» 28,9 трлн токенов?

Q: Какая модель лидирует по объёму на OpenRouter?

По состоянию на июнь 2026 года DeepSeek V4 Flash занимает первое место на OpenRouter, на втором — preview Tencent Hy3. Обе — недорогие MoE-архитектуры с входом около $0,10/M токенов.

Если вы до сих пор выбираете модель по MMLU, GPT-Score и прочим таблицам лидеров — поздравляю: вы, скорее всего, платите за не тот критерий. Не за качество в продакшене. За красивую строчку в презентации.

Свежие данные OpenRouter за семь дней бьют по самолюбию сильнее любого бенчмарка: в мире AI побеждает не самая умная модель, а самая дешёвая — та, которую не страшно дёргать снова и снова. В начале июня 2026 года недельный объём платформы — 28,9 трлн токенов (+7,4%). Один DeepSeek V4 Flash съел 3,43 трлн. В топе — MoE с входом порядка $0,10/M, а не GPT-4o, не Claude Opus и уж точно не «самая сильная» модель из вашего внутреннего сравнительного листа.

Ниже — разбор ценового разрыва, трёхуровневого раскола рынка и того, где встать между API-маршрутизацией и локальным Ollama на Mac mini. Технические цифры все на месте, но вывод скажу сразу: AI переходит от гонки возможностей к гонке стоимости — и в этой гонке «дёшево + достаточно хорошо» = модель по умолчанию.

28,9T

токенов OpenRouter за неделю

3,43T

DeepSeek V4 Flash, одна модель

26×

разница в стоимости Agent-задачи Flash vs Sonnet

28,9 трлн токенов: цифра, которая переписывает правила отрасли

OpenRouter — агрегатор и маршрутизатор LLM API. То, что разработчики реально вызывают здесь, ближе к «полю боя», чем любой synthetic benchmark. Первая неделя июня 2026:

Весь сайт за неделю: 28,9 трлн токенов, пятая неделя роста подряд, +7,4% к предыдущей
Китайские модели: 9,2 трлн — почти вдвое больше, чем 4,9 трлн у американских
DeepSeek V4 Flash: первое место, 3,43 трлн за неделю, дневной пик свыше 800 млрд
Tencent Hy3 preview: сразу за лидером — через несколько недель после релиза глобальное второе место
xAI: абсолютный объём упал на 73% — единственный крупный игрок с отрицательной динамикой в топе

Верх таблицы — почти сплошь «дешёвые MoE». Не GPT-4o. Не Claude Opus. Даже не та «самая сильная» модель, которую вы часами сравнивали в ноутбуке.

Anthropic — одна из немногих западных лабораторий, чья доля растёт. Но в абсолютных токенах DeepSeek-линейка уносит в другую лигу. Это не PR-победа. Это голосование кошельком — сухое, беспощадное, без скидок на бренд.

Источник данных

Цифры — публичные графики использования на страницах моделей OpenRouter и анализ рейтингов провайдеров сообщества (начало июня 2026). OpenRouter маршрутизирует запросы между backend-провайдерами; фактическое списание смотрите в биллинге аккаунта.

Парадокс, который больно признавать: дорогие модели «выталкивают» с главной сцены

Смотрите только на бенчмарки — получите ложную интуицию: умнее модель → её должны чаще вызывать. Реальность рисует противоположную картину.

На практике:

Claude / GPT: качество высокое, но каждый вызов — удар по бюджету
DeepSeek / Hy3 / MiMo: «достаточно хорошо» + смешная цена — разработчик не боится бесконечных ретраев

Итог формулируется неприятно, но честно: дело не в том, кто сильнее, а в том, кого можно массово дёргать. Раньше соревновались в «кто умнее». Теперь — в «кто выдержит миллионный цикл агента без нервного срыва финдира». 28,9 трлн токенов — материальное доказательство сдвига. Трафик не врёт. Счёт в конце месяца — тем более.

Я видел команды, которые месяцами спорили о «лучшей» модели в Slack, а потом внезапно обнаруживали, что продакшен давно сидит на Flash-уровне — просто никто не хотел признать, что benchmark и биллинг живут в разных вселенных.

Почему дешёвые модели правят трафиком — и это не случайность

① Агенты взорвали расход токенов — разница в цене стала вопросом выживания

AI-агент — уже не «спросил — получил ответ». Он читает репозиторий, пишет патч, гоняет тесты, ловит ошибку, снова крутит цикл. Одна задача раздувается с 2K до 50K–200K токенов. Умножьте число вызовов на пятьдесят — и разница между «+$0,015 за проход» и «+$0,0001» перестаёт быть темой для оптимизации. Это структурный обрыв.

Когда Claude Code или OpenHands становятся ежедневным инструментом, отдавать фазы «попробуй ещё раз / поищи / набросай черновик» на Sonnet — не «погоня за качеством». Это поджигание бюджета. Разработчики не стали жадными. Агент просто вынес арифметику на стол: умножение видно невооружённым глазом.

② MoE сделал «дёшево + достаточно сильно» реальностью, а не лозунгом

DeepSeek V4 Flash: 284B параметров всего, ~13B активируется на проход. MiMo-V2-Flash: 309B всего, 15B в работе. Стоимость инференса привязана к активированным параметрам, не к цифре на обложке слайда. Вам не нужна «самая большая» модель — нужна «самая эффективная активация».

MiMo-V2-Flash на SWE-bench Verified — первое место среди open-source, по ощущениям близко к Claude Sonnet 4.5, а API обходится примерно в 3,5% от цены Sonnet. Это не «ну сойдёт». Это почти то же качество — обрыв по цене. OpenRouter прямо подсвечивает такое сравнение на карточке модели.

③ Длинный контекст + кэш добивают стоимость

DeepSeek V4 Flash тянет 1M контекста; у части провайдеров prompt caching бьёт в 90%+ попаданий, средневзвешенный вход падает до ~$0,044/M при номинале $0,098/M. Один и тот же system prompt во втором вызове — почти бесплатно.

В RAG одни и те же куски документа крутятся снова и снова — после кэша входные токены почти не считаются. «Открыть длинный контекст» перестало быть табу по деньгам и стало нормой. Так ломается старая логика линейного биллинга: повторное чтение — не штраф, а преимущество.

Реальная цена OpenRouter — не то, что вы видите в прайсе

Большинство смотрит на первый слой и думает, что «стикер = расход». На деле три уровня:

Номинал: $0,1 / $3 / $10 за input/output на странице модели
Взвешенная маршрутизация: OpenRouter выбирает backend по задержке, доступности, цене — среднее часто ниже номинала
Скидка кэша: повторяющийся префикс prompt считается по cache read (у MiMo-V2-Flash чтение кэша $0,01/M — примерно десятая часть входа)

Модель	Вход /M	Выход /M	Кэш /M	Контекст
DeepSeek V4 Flash	~$0,098	~$0,197	до 94% hit у части провайдеров	1M
MiMo-V2-Flash	$0,10	$0,30	$0,01	256K
Claude Sonnet 4.5 (эталон)	~$3,00	~$15,00	есть	200K
GPT-4o (эталон)	~$2,50	~$10,00	есть	128K

Экстремальный пример — агентная задача (100K вход + 10K выход, 80% входа из кэша):

DeepSeek V4 Flash: ≈ $0,008
Claude Sonnet 4.5: ≈ $0,21

В 26 раз дороже. Пятьсот таких задач в день — $4 против $105. Это не «ещё чуть-чуть оптимизируем». Это разные вселенные экономики. Поток 28,9 трлн токенов в сторону дешёвых моделей — не случайность. Закономерность.

Рынок раскалывается на три этажа — и это уже видно в цифрах

Больше нет одного «выбери самую сильную и живи спокойно». Данные OpenRouter рисуют три слоя:

Уровень	Роль	Типичные модели	Доля токенов
Flash-исполнение	Съедает ~80% токенов — default для пайплайна	DeepSeek V4 Flash, Hy3, серия MiMo	↑ растёт
Средний судья	Критические шаги, где нужна осторожность	Gemini Flash, Claude Sonnet	→ стабильно, не основной поток
Frontier-люкс	Не тянет основной цикл — только ревью	GPT-4o, Claude Opus	↓ на обочину

Flash-слой: дёшево + достаточно умно + можно вызывать бесконечно. Frontier всё больше похож на люксовый сегмент — блестит, но основной агентный конвейер на нём уже не тянут. Средний слой — узлы «здесь лучше не ошибиться».

Границы возможностей никуда не делись

Дешёвая модель — не панацея. Секреты, комплаенс-аудит, многошаговые матдоказательства, сценарии, где один промах стоит дорого (автотрейдинг, меддиагностика) — по-прежнему требуют frontier или человека в контуре. Трёхуровневый раскол про распределение default-трафика, а не про «сильнейшие модели умерли».

Инженерная правда: кто дешевле — тот и становится «моделью по умолчанию»

В эпоху агентов многие не замечают простого уравнения:

Модель по умолчанию = модель трафика = рыночная модель. Не самая сильная.

Первая строка в SDK, preset фреймворка, onboarding-документ команды — это вход в воронку. Когда вход DeepSeek V4 Flash в тридцать раз дешевле Sonnet, а разрыв на SWE-bench далеко не в тридцать раз, «дефолт» сам скатывается к дешёвому. Никто не объявляет указ. Кошелёк и инженерная инерция решают за вас.

3,43 трлн из 28,9 трлн у одного Flash — не картина «каждый взял своё». Это сигнал: одно значение по умолчанию правит полем.

Маршрутизация по слоям — не упрямое «всегда самое дешёвое»

Контроль расходов — не в том, чтобы навсегда приклеиться к Flash. А в маршрутизации по риску задачи: Flash съедает 80% токенов, frontier держит 20% критических ворот:

Схема слоистой маршрутизации OpenRouter

# Flash-слой: ~80% токенов
cheap_model = "deepseek/deepseek-v4-flash"
frontier_model = "anthropic/claude-sonnet-4.5"

# Fallback только если качество не прошло — не наоборот
response = openrouter.chat(model=cheap_model, messages=msgs)
if quality_check(response) == FAIL:
    response = openrouter.chat(model=frontier_model, messages=msgs)

# Фиксированный system prompt → максимум cache hit
messages = [system_prompt, *cached_context, user_query]

OpenRouter из коробки умеет model fallbacks и provider routing. Для агентных MCP-пайплайнов: «прочитать репо, найти файлы, набросать патч» → DeepSeek V4 Flash; «финальный review diff перед merge» → Sonnet. Основная масса токенов — в первом; качественные ворота — во втором. Frontier не выбрасываем — просто не пускаем в главный цикл.

Дешёвый API ≠ можно слать что угодно

OpenRouter гоняет запросы через разных провайдеров — трафик может идти через США или третьи страны. Исходники, PII, регуляторика — смотрите в сторону локального или выделенного Cloud Mac инференса. Экономия на токенах не перекрывает compliance-риск.

Локальный инференс vs API: третий путь, который многие забывают

История с 28,9 трлн не означает «всем срочно в API». Локальный инференс по-прежнему выигрывает структурно:

Предсказуемый дневной объём: стабильные 50K–500K токенов/день на 7B/14B — Mac mini M4 24GB с Ollama сходится к нулевой марже (в замерах 7B даёт ~34–37 tok/s)
Данные не покидают периметр: исходники, PII, медицина/финансы — не на OpenRouter
Чувствительность к задержке: inline-дополнение в IDE — без сетевого RTT
CI на той же машине вне пика: Cloud Mac днём — xcodebuild, ночью — пакетный инференс

Нужны MoE 200B+, внезапный пик или быстрые эксперименты без своего GPU-кластера — OpenRouter за $0,10/M почти безальтернативен. Разве что у вас уже стоят H100 рядами.

Гибрид 2026

Локальный Ollama (будни 7B–14B) + OpenRouter Flash (длинные агентные цепочки) + Frontier (финальный review). Cloud Mac — слой проверки: до покупки железа прогоните те же benchmark-скрипты по Swap и tok/s и поймите, какие workload вообще не должны уезжать в API.

Что на самом деле говорят 28,9 трлн токенов

28,9 трлн — не маркетинговая победа DeepSeek, не националистический нарратив про «китайские модели», и уж точно не некролог frontier-моделям.

Это сигнал: AI выходит из фазы «кто умнее» в фазу «кто дешевле при достаточном качестве». В гонке стоимости «самый дешёвый + достаточно хороший» становится победителем по умолчанию. Бенчмарки меряют потолок. Поток токенов меряет реальный выбор — и выбор уже сделан.

Если вы по умолчанию гоняете агента на «самой сильной» модели, вы, вероятно, платите в десять раз больше за выбор, который почти не меняет итог.

Я не призываю завтра же выкинуть Claude или GPT. Я призываю честно спросить: кто написал ваш default model string — бенчмарк или счёт? В эпоху агентов второе — вопрос выживания команды, а не перфекционизма в таблице лидеров.

Откройте dashboard OpenRouter за последний месяц. Посмотрите, какая модель реально съела бюджет. Сравните с тем, что написано в README. Разрыв между ними — и есть ваша правда о ценах. Всё остальное — декорации.

Частые вопросы

В: Какая модель лидирует по объёму на OpenRouter?
О: DeepSeek V4 Flash — 3,43 трлн за неделю, вход ~$0,10/M. Tencent Hy3 preview на втором месте.

В: Почему китайские модели обогнали американские по токенам?
О: Агрессивные цены + зрелый MoE + open-source для self-host, плюс эпоха агентов, где важно «не бояться вызывать снова». Не всегда качество «везде лучше» — структура затрат другая.

В: Дешёвые модели годятся для продакшена?
О: Да, если терпимы редкие промахи, есть автоповтор и frontier на подстраховке. Нет — если цена одной ошибки катастрофична.

В: Как следить за реальными расходами?
О: Dashboard OpenRouter по моделям и дням. Плюс middleware в приложении — логируйте model и token count на каждый вызов. Иначе агентный цикл в конце месяца подарит «сюрприз», от которого больно.

ZavCloud

Сначала поймите, что тянет локально — потом закладывайте бюджет API

Прогоните Ollama-benchmark: tok/s и границы Swap для 7B/14B — workload, который локальная машина держит, не стоит отправлять в OpenRouter с 26-кратной наценкой.

Смотреть тарифы Cloud Mac