Если вы до сих пор выбираете модель по MMLU, GPT-Score и прочим таблицам лидеров — поздравляю: вы, скорее всего, платите за не тот критерий. Не за качество в продакшене. За красивую строчку в презентации.
Свежие данные OpenRouter за семь дней бьют по самолюбию сильнее любого бенчмарка: в мире AI побеждает не самая умная модель, а самая дешёвая — та, которую не страшно дёргать снова и снова. В начале июня 2026 года недельный объём платформы — 28,9 трлн токенов (+7,4%). Один DeepSeek V4 Flash съел 3,43 трлн. В топе — MoE с входом порядка $0,10/M, а не GPT-4o, не Claude Opus и уж точно не «самая сильная» модель из вашего внутреннего сравнительного листа.
Ниже — разбор ценового разрыва, трёхуровневого раскола рынка и того, где встать между API-маршрутизацией и локальным Ollama на Mac mini. Технические цифры все на месте, но вывод скажу сразу: AI переходит от гонки возможностей к гонке стоимости — и в этой гонке «дёшево + достаточно хорошо» = модель по умолчанию.
28,9 трлн токенов: цифра, которая переписывает правила отрасли
OpenRouter — агрегатор и маршрутизатор LLM API. То, что разработчики реально вызывают здесь, ближе к «полю боя», чем любой synthetic benchmark. Первая неделя июня 2026:
- Весь сайт за неделю: 28,9 трлн токенов, пятая неделя роста подряд, +7,4% к предыдущей
- Китайские модели: 9,2 трлн — почти вдвое больше, чем 4,9 трлн у американских
- DeepSeek V4 Flash: первое место, 3,43 трлн за неделю, дневной пик свыше 800 млрд
- Tencent Hy3 preview: сразу за лидером — через несколько недель после релиза глобальное второе место
- xAI: абсолютный объём упал на 73% — единственный крупный игрок с отрицательной динамикой в топе
Верх таблицы — почти сплошь «дешёвые MoE». Не GPT-4o. Не Claude Opus. Даже не та «самая сильная» модель, которую вы часами сравнивали в ноутбуке.
Anthropic — одна из немногих западных лабораторий, чья доля растёт. Но в абсолютных токенах DeepSeek-линейка уносит в другую лигу. Это не PR-победа. Это голосование кошельком — сухое, беспощадное, без скидок на бренд.
Источник данных
Цифры — публичные графики использования на страницах моделей OpenRouter и анализ рейтингов провайдеров сообщества (начало июня 2026). OpenRouter маршрутизирует запросы между backend-провайдерами; фактическое списание смотрите в биллинге аккаунта.
Парадокс, который больно признавать: дорогие модели «выталкивают» с главной сцены
Смотрите только на бенчмарки — получите ложную интуицию: умнее модель → её должны чаще вызывать. Реальность рисует противоположную картину.
На практике:
- Claude / GPT: качество высокое, но каждый вызов — удар по бюджету
- DeepSeek / Hy3 / MiMo: «достаточно хорошо» + смешная цена — разработчик не боится бесконечных ретраев
Итог формулируется неприятно, но честно: дело не в том, кто сильнее, а в том, кого можно массово дёргать. Раньше соревновались в «кто умнее». Теперь — в «кто выдержит миллионный цикл агента без нервного срыва финдира». 28,9 трлн токенов — материальное доказательство сдвига. Трафик не врёт. Счёт в конце месяца — тем более.
Я видел команды, которые месяцами спорили о «лучшей» модели в Slack, а потом внезапно обнаруживали, что продакшен давно сидит на Flash-уровне — просто никто не хотел признать, что benchmark и биллинг живут в разных вселенных.
Почему дешёвые модели правят трафиком — и это не случайность
① Агенты взорвали расход токенов — разница в цене стала вопросом выживания
AI-агент — уже не «спросил — получил ответ». Он читает репозиторий, пишет патч, гоняет тесты, ловит ошибку, снова крутит цикл. Одна задача раздувается с 2K до 50K–200K токенов. Умножьте число вызовов на пятьдесят — и разница между «+$0,015 за проход» и «+$0,0001» перестаёт быть темой для оптимизации. Это структурный обрыв.
Когда Claude Code или OpenHands становятся ежедневным инструментом, отдавать фазы «попробуй ещё раз / поищи / набросай черновик» на Sonnet — не «погоня за качеством». Это поджигание бюджета. Разработчики не стали жадными. Агент просто вынес арифметику на стол: умножение видно невооружённым глазом.
② MoE сделал «дёшево + достаточно сильно» реальностью, а не лозунгом
DeepSeek V4 Flash: 284B параметров всего, ~13B активируется на проход. MiMo-V2-Flash: 309B всего, 15B в работе. Стоимость инференса привязана к активированным параметрам, не к цифре на обложке слайда. Вам не нужна «самая большая» модель — нужна «самая эффективная активация».
MiMo-V2-Flash на SWE-bench Verified — первое место среди open-source, по ощущениям близко к Claude Sonnet 4.5, а API обходится примерно в 3,5% от цены Sonnet. Это не «ну сойдёт». Это почти то же качество — обрыв по цене. OpenRouter прямо подсвечивает такое сравнение на карточке модели.
③ Длинный контекст + кэш добивают стоимость
DeepSeek V4 Flash тянет 1M контекста; у части провайдеров prompt caching бьёт в 90%+ попаданий, средневзвешенный вход падает до ~$0,044/M при номинале $0,098/M. Один и тот же system prompt во втором вызове — почти бесплатно.
В RAG одни и те же куски документа крутятся снова и снова — после кэша входные токены почти не считаются. «Открыть длинный контекст» перестало быть табу по деньгам и стало нормой. Так ломается старая логика линейного биллинга: повторное чтение — не штраф, а преимущество.
Реальная цена OpenRouter — не то, что вы видите в прайсе
Большинство смотрит на первый слой и думает, что «стикер = расход». На деле три уровня:
- Номинал: $0,1 / $3 / $10 за input/output на странице модели
- Взвешенная маршрутизация: OpenRouter выбирает backend по задержке, доступности, цене — среднее часто ниже номинала
- Скидка кэша: повторяющийся префикс prompt считается по cache read (у MiMo-V2-Flash чтение кэша $0,01/M — примерно десятая часть входа)
| Модель | Вход /M | Выход /M | Кэш /M | Контекст |
|---|---|---|---|---|
| DeepSeek V4 Flash | ~$0,098 | ~$0,197 | до 94% hit у части провайдеров | 1M |
| MiMo-V2-Flash | $0,10 | $0,30 | $0,01 | 256K |
| Claude Sonnet 4.5 (эталон) | ~$3,00 | ~$15,00 | есть | 200K |
| GPT-4o (эталон) | ~$2,50 | ~$10,00 | есть | 128K |
Экстремальный пример — агентная задача (100K вход + 10K выход, 80% входа из кэша):
- DeepSeek V4 Flash: ≈ $0,008
- Claude Sonnet 4.5: ≈ $0,21
В 26 раз дороже. Пятьсот таких задач в день — $4 против $105. Это не «ещё чуть-чуть оптимизируем». Это разные вселенные экономики. Поток 28,9 трлн токенов в сторону дешёвых моделей — не случайность. Закономерность.
Рынок раскалывается на три этажа — и это уже видно в цифрах
Больше нет одного «выбери самую сильную и живи спокойно». Данные OpenRouter рисуют три слоя:
| Уровень | Роль | Типичные модели | Доля токенов |
|---|---|---|---|
| Flash-исполнение | Съедает ~80% токенов — default для пайплайна | DeepSeek V4 Flash, Hy3, серия MiMo | ↑ растёт |
| Средний судья | Критические шаги, где нужна осторожность | Gemini Flash, Claude Sonnet | → стабильно, не основной поток |
| Frontier-люкс | Не тянет основной цикл — только ревью | GPT-4o, Claude Opus | ↓ на обочину |
Flash-слой: дёшево + достаточно умно + можно вызывать бесконечно. Frontier всё больше похож на люксовый сегмент — блестит, но основной агентный конвейер на нём уже не тянут. Средний слой — узлы «здесь лучше не ошибиться».
Границы возможностей никуда не делись
Дешёвая модель — не панацея. Секреты, комплаенс-аудит, многошаговые матдоказательства, сценарии, где один промах стоит дорого (автотрейдинг, меддиагностика) — по-прежнему требуют frontier или человека в контуре. Трёхуровневый раскол про распределение default-трафика, а не про «сильнейшие модели умерли».
Инженерная правда: кто дешевле — тот и становится «моделью по умолчанию»
В эпоху агентов многие не замечают простого уравнения:
Модель по умолчанию = модель трафика = рыночная модель. Не самая сильная.
Первая строка в SDK, preset фреймворка, onboarding-документ команды — это вход в воронку. Когда вход DeepSeek V4 Flash в тридцать раз дешевле Sonnet, а разрыв на SWE-bench далеко не в тридцать раз, «дефолт» сам скатывается к дешёвому. Никто не объявляет указ. Кошелёк и инженерная инерция решают за вас.
3,43 трлн из 28,9 трлн у одного Flash — не картина «каждый взял своё». Это сигнал: одно значение по умолчанию правит полем.
Маршрутизация по слоям — не упрямое «всегда самое дешёвое»
Контроль расходов — не в том, чтобы навсегда приклеиться к Flash. А в маршрутизации по риску задачи: Flash съедает 80% токенов, frontier держит 20% критических ворот:
# Flash-слой: ~80% токенов cheap_model = "deepseek/deepseek-v4-flash" frontier_model = "anthropic/claude-sonnet-4.5" # Fallback только если качество не прошло — не наоборот response = openrouter.chat(model=cheap_model, messages=msgs) if quality_check(response) == FAIL: response = openrouter.chat(model=frontier_model, messages=msgs) # Фиксированный system prompt → максимум cache hit messages = [system_prompt, *cached_context, user_query]
OpenRouter из коробки умеет model fallbacks и provider routing. Для агентных MCP-пайплайнов: «прочитать репо, найти файлы, набросать патч» → DeepSeek V4 Flash; «финальный review diff перед merge» → Sonnet. Основная масса токенов — в первом; качественные ворота — во втором. Frontier не выбрасываем — просто не пускаем в главный цикл.
Дешёвый API ≠ можно слать что угодно
OpenRouter гоняет запросы через разных провайдеров — трафик может идти через США или третьи страны. Исходники, PII, регуляторика — смотрите в сторону локального или выделенного Cloud Mac инференса. Экономия на токенах не перекрывает compliance-риск.
Локальный инференс vs API: третий путь, который многие забывают
История с 28,9 трлн не означает «всем срочно в API». Локальный инференс по-прежнему выигрывает структурно:
- Предсказуемый дневной объём: стабильные 50K–500K токенов/день на 7B/14B — Mac mini M4 24GB с Ollama сходится к нулевой марже (в замерах 7B даёт ~34–37 tok/s)
- Данные не покидают периметр: исходники, PII, медицина/финансы — не на OpenRouter
- Чувствительность к задержке: inline-дополнение в IDE — без сетевого RTT
- CI на той же машине вне пика: Cloud Mac днём —
xcodebuild, ночью — пакетный инференс
Нужны MoE 200B+, внезапный пик или быстрые эксперименты без своего GPU-кластера — OpenRouter за $0,10/M почти безальтернативен. Разве что у вас уже стоят H100 рядами.
Гибрид 2026
Локальный Ollama (будни 7B–14B) + OpenRouter Flash (длинные агентные цепочки) + Frontier (финальный review). Cloud Mac — слой проверки: до покупки железа прогоните те же benchmark-скрипты по Swap и tok/s и поймите, какие workload вообще не должны уезжать в API.
Что на самом деле говорят 28,9 трлн токенов
28,9 трлн — не маркетинговая победа DeepSeek, не националистический нарратив про «китайские модели», и уж точно не некролог frontier-моделям.
Это сигнал: AI выходит из фазы «кто умнее» в фазу «кто дешевле при достаточном качестве». В гонке стоимости «самый дешёвый + достаточно хороший» становится победителем по умолчанию. Бенчмарки меряют потолок. Поток токенов меряет реальный выбор — и выбор уже сделан.
Если вы по умолчанию гоняете агента на «самой сильной» модели, вы, вероятно, платите в десять раз больше за выбор, который почти не меняет итог.
Я не призываю завтра же выкинуть Claude или GPT. Я призываю честно спросить: кто написал ваш default model string — бенчмарк или счёт? В эпоху агентов второе — вопрос выживания команды, а не перфекционизма в таблице лидеров.
Откройте dashboard OpenRouter за последний месяц. Посмотрите, какая модель реально съела бюджет. Сравните с тем, что написано в README. Разрыв между ними — и есть ваша правда о ценах. Всё остальное — декорации.
Частые вопросы
В: Какая модель лидирует по объёму на OpenRouter?
О: DeepSeek V4 Flash — 3,43 трлн за неделю, вход ~$0,10/M. Tencent Hy3 preview на втором месте.
В: Почему китайские модели обогнали американские по токенам?
О: Агрессивные цены + зрелый MoE + open-source для self-host, плюс эпоха агентов, где важно «не бояться вызывать снова». Не всегда качество «везде лучше» — структура затрат другая.
В: Дешёвые модели годятся для продакшена?
О: Да, если терпимы редкие промахи, есть автоповтор и frontier на подстраховке. Нет — если цена одной ошибки катастрофична.
В: Как следить за реальными расходами?
О: Dashboard OpenRouter по моделям и дням. Плюс middleware в приложении — логируйте model и token count на каждый вызов. Иначе агентный цикл в конце месяца подарит «сюрприз», от которого больно.
ZavCloud
Сначала поймите, что тянет локально — потом закладывайте бюджет API
Прогоните Ollama-benchmark: tok/s и границы Swap для 7B/14B — workload, который локальная машина держит, не стоит отправлять в OpenRouter с 26-кратной наценкой.
Смотреть тарифы Cloud Mac