Сразу суть: не выбирайте модель по публичным leaderboard — выбирайте по точке входа workflow и глубине каждой задачи. В июне 2026 мы прогнали один и тот же developer task pack против Claude Fable 5, Claude Opus 4.8 и Gemini 3.5 Flash. Таблицы ниже показывают, кто primary, кто черновит и кто подписывает перед merge. Очки leaderboard — не водораздел; точка входа и token budget — да.
Почему выбор модели похож на выбор CI runner
В 2026 большинство команд ведут четыре lane — IDE completion, CLI agents, GitHub Actions batch jobs и architecture review — но всё равно тянутся к одной «лучшей» модели везде. Дорогие tier'ы уходят на triage логов; быстрые — на cross-module рефакторы. Проблема не в capability — а в неправильной execution boundary в неправильном слоте.
Та же логика, что у one job, one runner workspace: вы не ищете глобально самую быструю машину; вы подбираете уровень изоляции и unit cost под тип job. MMLU почти не предсказывает «Issue → PR → green CI». Нужно другое: на этой точке входа, какой tier стабильно проходит в рамках бюджета?
Ещё tension — local vs remote: инференс в облаке, но git diff, Xcode build и тесты — на Mac. Когда agent loop и compile делят 16 GB RAM, любая модель кажется «медленнее» — это runtime, не IQ. Отсюда перенос длинных job на Cloud Mac execution node.
В распределённых командах часто видим обратный перекос: Opus включён «на всякий случай» в IDE, а architecture review остаётся в Telegram — или Flash тянут на рефакторинг модулей ради низкого API-счёта. Оба сценария переносят стоимость в человеко-часы и CI retries.
Три роли, не три tier'а
Сначала группируйте по workflow role, потом сравнивайте flagship specs:
- Loop layer — Claude Fable 5: высокочастотные короткие coding agents; низкая latency, предсказуемые tool-use cycles.
- Deliberate layer — Claude Opus 4.8: long-context reasoning, architecture trade-offs, risk review; высокое качество за проход, не за секунду.
- Throughput layer — Gemini 3.5 Flash: bulk structured work, latency-sensitive batches; дешёвый «80% draft first».
Это станции одного pipeline, не upgrade ladder. Opus как Tab completion сжигает бюджет; Flash как единственный pre-merge reviewer пускает дефекты в main.
На практике: на каждый PR Fable пишет код, Flash классифицирует issues и генерирует test skeletons, Opus read-only читает финальный diff. Смешивать роли на одних файлах — лишние tokens без прироста качества.
Базовое сравнение: вход / исполнение / контекст
Заголовки колонок фиксированы для всех таблиц в статье.
| Инструмент | Вход | Исполнение | Контекст | Лучше всего для |
|---|---|---|---|---|
| Claude Fable 5 | Claude Code CLI, Cursor Agent, API | Сильно: multi-file edits, test loops, MCP tools | Средне-длинное окно (~200K), daily repos | Инженеры с ежедневными agents |
| Claude Opus 4.8 | API, ручное переключение IDE, review bots | Очень сильно: complex reasoning, deps, security audit | Extra-long window + deep reasoning | Tech leads, architects, merge gatekeepers |
| Gemini 3.5 Flash | AI Studio, Vertex, batch API | Умеренно: structured gen, classification, templates | Средне-длинное окно, parallel batches | Data/Ops, doc pipelines, cost-sensitive teams |
Стоимость и permissions (те же колонки):
| Инструмент | Вход | Исполнение | Контекст | Лучше всего для |
|---|---|---|---|---|
| Claude Fable 5 | Usage + subscription bundles | Enterprise tool allowlists | Anthropic data policy; Western SaaS fit | Команды уже на Claude Code |
| Claude Opus 4.8 | Premium usage; избегать default-on | Read-only review mode хорошо ложится | Тот же Anthropic stack; long jobs быстро копят tokens | Команды с явным pre-merge review |
| Gemini 3.5 Flash | Низкие usage prices; GCP billing | Vertex IAM granularity | Google Cloud compliance | GCP shops с оптимизацией batch cost |
После таблиц: Fable 5 — daily work; Opus 4.8 — sign-off; Flash — первая станция линии. См. тарифы OpenRouter для routing всех трёх через один gateway.
Benchmark-задачи и прогоны на Mac
Инференс через API каждого вендора. Использовали тот же agent shell — Claude Code + git + xcodebuild test — на Mac mini M4 16 GB (local) и ZavCloud datacenter M4 24 GB (remote), три прогона на задачу. Минуты — оценочные диапазоны (median ± normal variance), не один stopwatch reading. Считаем pass rate, end-to-end time bands и weekly token bills — не abstract IQ.
| Задача | Fable 5 | Opus 4.8 | Gemini 3.5 Flash |
|---|---|---|---|
| API refactor 8 файлов + green tests | Pass; ~15–20 мин; mid tokens | Pass; ~20–30 мин; high tokens | Partial; manual edge fixes |
| GitHub Issue → PR (1 CI fix round) | Pass; ~20–25 мин | Pass; ~30–35 мин | Draft OK; CI often round 2 |
| 1 000 log lines + alert rule draft | Pass; overkill | Pass; poor ROI | Pass; ~5–10 мин; very low tokens |
| ADR review (read-only) | Good; occasional missed deps | Excellent; risks covered | Good; template-heavy |
| Agent + Xcode на Mac 16 GB | Local swap risk; fine on cloud | Same; avoid long local runs | Batch OK; weak as IDE agent brain |
Mac takeaway: bottlenecks часто — runtime, не model IQ. С Xcode и Claude Code на 16 GB все три кажутся медленными — upgrade на Opus не лечит swap. Как в наших тестах 16 GB vs 24 GB: agent primary machine хочет 24 GB или выделенный Cloud Mac node.
Scenario matrix
| Если вы… | Primary model | Почему |
|---|---|---|
| Ежедневно шипите фичи через Claude Code / Cursor Agent | Fable 5 | Latency и cost под high-frequency loops |
| Pre-merge architecture или security review | Opus 4.8 | Depth оправдывает premium tokens за проход |
| Ops/data: logs, tickets, bulk docs | Gemini 3.5 Flash | Лучший throughput per dollar |
| Уже на GCP, unified billing + IAM | Flash primary + Fable backup | Vertex для permissions; Fable для coding agents |
| Tight budget, Opus не default-on | Fable 5 + manual Opus upgrade | Upgrade только на label ready-for-review |
| Auto-fix failing tests в CI | Fable 5 | Пара с Cloud Mac CI automation для real-device tests |
Рекомендуемые стеки
- Solo developer — Fable 5 для daily agents; Flash для email/doc drafts; Opus только в release weeks.
- Команда ~10 человек — Fable 5 в production workflow Claude Code; CI auto-fix с Fable; Opus bot read-only на merge.
- Cost-first data platform — Flash batch pipelines + Fable 5 на internal tool repos; без daily Opus.
С AI coding agent Skills / MCP: models reason; Mac nodes execute — не направляйте Flash на production shell.
Типичные ошибки
- #1 Leaderboard default — benchmarks тестируют short Q&A, не Issue → PR → green CI.
- #2 Opus always on — weekly bills учат быстро; используйте event triggers.
- #3 Flash alone на cross-module refactors — экономит tokens, переносит review time на людей.
- #4 Ignoring Mac RAM — swap делает любую модель «глупой».
- #5 Comparing models без routing rules — без upgrade policy — бесконечные споры.
Rollout в 7 шагов
- Track weekly entries — часы в IDE, CLI, CI, review.
- Write pass criteria — green tests, diff caps, security checklist.
- Run 12-task pack — три прогона на модель (таблицы выше).
- Calculate weekly token spend — включая retries; сравнить OpenRouter routes.
- Fill scenario matrix — primary, fallback, upgrade triggers.
- Commit to CLAUDE.md / CI — align с архитектурой Claude Code.
- Review at four weeks — merge defects + bills; drop tiers under 10% usage.
FAQ
Чем Fable 5 отличается от Opus 4.8?
Fable 5 — high-frequency agent loops; Opus 4.8 — low-frequency, high-stakes decisions. Роли рабочих станций, не IQ ladder.
Может ли Gemini 3.5 Flash заменить Claude Code?
Не полное agent seat — лучше как upstream draft и batch layer; Fable 5 должен владеть repo + tests downstream.
Три модели разорят по бюджету?
Всё ещё дешевле, чем default Opus везде. Routing: ~90% Fable/Flash, Opus только для review.
Как это связано с выбором модели в Cursor?
Cursor — IDE entry; models — engines. Entry fit: сценарии Copilot vs Cursor; эта статья — про engine tiers.
Итог
Выбор Fable 5, Opus 4.8 или Gemini 3.5 Flash в 2026 сводится к какой entry запускает задачу и сколько tokens вы тратите на глубину reasoning. Fable 5 — default loops, Flash — throughput drafts, Opus 4.8 — pre-merge sign-off — настоящее разделение — workflow layering, не model worship. Execution на правильном Mac node важнее погони за «сильнее default».
ZavCloud · Cloud Mac
Модели в облаке, исполнение на настоящем macOS
Выделенный Mac mini M4: Claude Code agents, Xcode tests и GitHub Actions runners на одном node — чтобы tool loops Fable 5 не душились local RAM.
Посмотреть тарифы