Битва LLM 2026:Claude Fable 5 vs Opus 4.8 vs Gemini 3.5 Flash — бенчмарки и сценарии

AI-заметки  ·   ·  ~9 мин чтения

Ноутбук с графиками данных — сравнение бенчмарков Claude Fable 5, Opus 4.8 и Gemini 3.5 Flash

Сразу суть: не выбирайте модель по публичным leaderboard — выбирайте по точке входа workflow и глубине каждой задачи. В июне 2026 мы прогнали один и тот же developer task pack против Claude Fable 5, Claude Opus 4.8 и Gemini 3.5 Flash. Таблицы ниже показывают, кто primary, кто черновит и кто подписывает перед merge. Очки leaderboard — не водораздел; точка входа и token budget — да.

3
Сравниваемых модели
12
Общих benchmark-задач
M4
Agent runtime

Почему выбор модели похож на выбор CI runner

В 2026 большинство команд ведут четыре lane — IDE completion, CLI agents, GitHub Actions batch jobs и architecture review — но всё равно тянутся к одной «лучшей» модели везде. Дорогие tier'ы уходят на triage логов; быстрые — на cross-module рефакторы. Проблема не в capability — а в неправильной execution boundary в неправильном слоте.

Та же логика, что у one job, one runner workspace: вы не ищете глобально самую быструю машину; вы подбираете уровень изоляции и unit cost под тип job. MMLU почти не предсказывает «Issue → PR → green CI». Нужно другое: на этой точке входа, какой tier стабильно проходит в рамках бюджета?

Ещё tension — local vs remote: инференс в облаке, но git diff, Xcode build и тесты — на Mac. Когда agent loop и compile делят 16 GB RAM, любая модель кажется «медленнее» — это runtime, не IQ. Отсюда перенос длинных job на Cloud Mac execution node.

В распределённых командах часто видим обратный перекос: Opus включён «на всякий случай» в IDE, а architecture review остаётся в Telegram — или Flash тянут на рефакторинг модулей ради низкого API-счёта. Оба сценария переносят стоимость в человеко-часы и CI retries.

Три роли, не три tier'а

Сначала группируйте по workflow role, потом сравнивайте flagship specs:

  • Loop layer — Claude Fable 5: высокочастотные короткие coding agents; низкая latency, предсказуемые tool-use cycles.
  • Deliberate layer — Claude Opus 4.8: long-context reasoning, architecture trade-offs, risk review; высокое качество за проход, не за секунду.
  • Throughput layer — Gemini 3.5 Flash: bulk structured work, latency-sensitive batches; дешёвый «80% draft first».

Это станции одного pipeline, не upgrade ladder. Opus как Tab completion сжигает бюджет; Flash как единственный pre-merge reviewer пускает дефекты в main.

На практике: на каждый PR Fable пишет код, Flash классифицирует issues и генерирует test skeletons, Opus read-only читает финальный diff. Смешивать роли на одних файлах — лишние tokens без прироста качества.

Базовое сравнение: вход / исполнение / контекст

Заголовки колонок фиксированы для всех таблиц в статье.

ИнструментВходИсполнениеКонтекстЛучше всего для
Claude Fable 5Claude Code CLI, Cursor Agent, APIСильно: multi-file edits, test loops, MCP toolsСредне-длинное окно (~200K), daily reposИнженеры с ежедневными agents
Claude Opus 4.8API, ручное переключение IDE, review botsОчень сильно: complex reasoning, deps, security auditExtra-long window + deep reasoningTech leads, architects, merge gatekeepers
Gemini 3.5 FlashAI Studio, Vertex, batch APIУмеренно: structured gen, classification, templatesСредне-длинное окно, parallel batchesData/Ops, doc pipelines, cost-sensitive teams

Стоимость и permissions (те же колонки):

ИнструментВходИсполнениеКонтекстЛучше всего для
Claude Fable 5Usage + subscription bundlesEnterprise tool allowlistsAnthropic data policy; Western SaaS fitКоманды уже на Claude Code
Claude Opus 4.8Premium usage; избегать default-onRead-only review mode хорошо ложитсяТот же Anthropic stack; long jobs быстро копят tokensКоманды с явным pre-merge review
Gemini 3.5 FlashНизкие usage prices; GCP billingVertex IAM granularityGoogle Cloud complianceGCP shops с оптимизацией batch cost

После таблиц: Fable 5 — daily work; Opus 4.8 — sign-off; Flash — первая станция линии. См. тарифы OpenRouter для routing всех трёх через один gateway.

Benchmark-задачи и прогоны на Mac

Инференс через API каждого вендора. Использовали тот же agent shell — Claude Code + git + xcodebuild test — на Mac mini M4 16 GB (local) и ZavCloud datacenter M4 24 GB (remote), три прогона на задачу. Минуты — оценочные диапазоны (median ± normal variance), не один stopwatch reading. Считаем pass rate, end-to-end time bands и weekly token bills — не abstract IQ.

ЗадачаFable 5Opus 4.8Gemini 3.5 Flash
API refactor 8 файлов + green testsPass; ~15–20 мин; mid tokensPass; ~20–30 мин; high tokensPartial; manual edge fixes
GitHub Issue → PR (1 CI fix round)Pass; ~20–25 минPass; ~30–35 минDraft OK; CI often round 2
1 000 log lines + alert rule draftPass; overkillPass; poor ROIPass; ~5–10 мин; very low tokens
ADR review (read-only)Good; occasional missed depsExcellent; risks coveredGood; template-heavy
Agent + Xcode на Mac 16 GBLocal swap risk; fine on cloudSame; avoid long local runsBatch OK; weak as IDE agent brain

Mac takeaway: bottlenecks часто — runtime, не model IQ. С Xcode и Claude Code на 16 GB все три кажутся медленными — upgrade на Opus не лечит swap. Как в наших тестах 16 GB vs 24 GB: agent primary machine хочет 24 GB или выделенный Cloud Mac node.

Scenario matrix

Если вы…Primary modelПочему
Ежедневно шипите фичи через Claude Code / Cursor AgentFable 5Latency и cost под high-frequency loops
Pre-merge architecture или security reviewOpus 4.8Depth оправдывает premium tokens за проход
Ops/data: logs, tickets, bulk docsGemini 3.5 FlashЛучший throughput per dollar
Уже на GCP, unified billing + IAMFlash primary + Fable backupVertex для permissions; Fable для coding agents
Tight budget, Opus не default-onFable 5 + manual Opus upgradeUpgrade только на label ready-for-review
Auto-fix failing tests в CIFable 5Пара с Cloud Mac CI automation для real-device tests

Рекомендуемые стеки

  • Solo developer — Fable 5 для daily agents; Flash для email/doc drafts; Opus только в release weeks.
  • Команда ~10 человек — Fable 5 в production workflow Claude Code; CI auto-fix с Fable; Opus bot read-only на merge.
  • Cost-first data platform — Flash batch pipelines + Fable 5 на internal tool repos; без daily Opus.

С AI coding agent Skills / MCP: models reason; Mac nodes execute — не направляйте Flash на production shell.

Типичные ошибки

  • #1 Leaderboard default — benchmarks тестируют short Q&A, не Issue → PR → green CI.
  • #2 Opus always on — weekly bills учат быстро; используйте event triggers.
  • #3 Flash alone на cross-module refactors — экономит tokens, переносит review time на людей.
  • #4 Ignoring Mac RAM — swap делает любую модель «глупой».
  • #5 Comparing models без routing rules — без upgrade policy — бесконечные споры.

Rollout в 7 шагов

  1. Track weekly entries — часы в IDE, CLI, CI, review.
  2. Write pass criteria — green tests, diff caps, security checklist.
  3. Run 12-task pack — три прогона на модель (таблицы выше).
  4. Calculate weekly token spend — включая retries; сравнить OpenRouter routes.
  5. Fill scenario matrix — primary, fallback, upgrade triggers.
  6. Commit to CLAUDE.md / CI — align с архитектурой Claude Code.
  7. Review at four weeks — merge defects + bills; drop tiers under 10% usage.

FAQ

Чем Fable 5 отличается от Opus 4.8?

Fable 5 — high-frequency agent loops; Opus 4.8 — low-frequency, high-stakes decisions. Роли рабочих станций, не IQ ladder.

Может ли Gemini 3.5 Flash заменить Claude Code?

Не полное agent seat — лучше как upstream draft и batch layer; Fable 5 должен владеть repo + tests downstream.

Три модели разорят по бюджету?

Всё ещё дешевле, чем default Opus везде. Routing: ~90% Fable/Flash, Opus только для review.

Как это связано с выбором модели в Cursor?

Cursor — IDE entry; models — engines. Entry fit: сценарии Copilot vs Cursor; эта статья — про engine tiers.

Итог

Выбор Fable 5, Opus 4.8 или Gemini 3.5 Flash в 2026 сводится к какой entry запускает задачу и сколько tokens вы тратите на глубину reasoning. Fable 5 — default loops, Flash — throughput drafts, Opus 4.8 — pre-merge sign-off — настоящее разделение — workflow layering, не model worship. Execution на правильном Mac node важнее погони за «сильнее default».

ZavCloud · Cloud Mac

Модели в облаке, исполнение на настоящем macOS

Выделенный Mac mini M4: Claude Code agents, Xcode tests и GitHub Actions runners на одном node — чтобы tool loops Fable 5 не душились local RAM.

Посмотреть тарифы
Cloud MacАренда Mac mini онлайн