Coding-agent harnesses — сравнение
domain: harness · grid · 2026-06-04 · confidence: medium
О чём это.
Девять реальных кодовых harness'ов 2025–2026 как обвязки вокруг LLM. Каждый — это Model + Harness;
именно архитектура обвязки (контекст-менеджмент, edit-format, топология, права) определяет, насколько близко
к потолку модели дотягивается агент. Концептуальная рамка — в отчёте «Харнес для LLM».
CLI / terminal-native
IDE-centric
Autonomous / cloud
Девять harness'ов
CLI · closed
Claude Code
Claude (Opus / Sonnet / Haiku) · модель и harness одной командой
- Edit-формат: string-replace
- Контекст: многослойно (auto-/reactive-/micro-compact, snip, collapse)
- Sub-agents с изолированными окнами; чекпойнты + режимы прав
- Эталон co-design «the wire format is part of the model»
CLI+cloud · OSS (Rust)
OpenAI Codex CLI
GPT-5.x-Codex
- Edit-формат: patch-based
- Компакция вшита в модель (GPT-5.1-Codex-Max)
- Чисто на одиночных шагах; теряет когерентность после 3–4 шагов
- 3–4× меньше токенов, но ниже на SWE-bench Pro vs Claude Code
IDE · closed
Cursor (Composer)
своя Composer (MoE, RL) + Claude / GPT / Gemini
- Agent-centric с версии 2.0 (окт 2025)
- Мульти-агент через git worktrees; best-of-N
- Своя модель обучена «in situ» внутри harness'а
- Full-time команда переписывает промпты под каждую модель
IDE (VS Code) · OSS Apache-2.0
Cline / Roo Code
model-agnostic (GPT-5, Claude 4.x, Gemini, local)
- Общий ~80% кодовой базы; Roo — форк Cline
- Roo: diff-based правки (~30% экономии токенов) + кастомные режимы
- Cline: переписывает файлы целиком (безопаснее, дороже)
- MCP: у Cline маркетплейс, у Roo — ручная конфигурация
CLI · OSS
Aider
model-agnostic (GPT-5, Claude, Gemini, DeepSeek, Ollama)
- Явные edit-formats (whole / diff / search-replace)
- Architect/Editor split — план и применение разными LLM
- Глубокая git-интеграция (авто-коммиты)
- Нативного MCP нет (на v0.86.x)
CLI · OSS
Gemini CLI
Gemini 3 (1M контекст)
- Built-in: Google Search grounding, file ops, shell, web fetch
- Огромное окно снижает нужду в агрессивной компакции
- Постепенно вытесняется Antigravity CLI
CLI+IDE · closed
Amp (Sourcegraph)
Claude Opus/Sonnet, GPT-5 series
- «Deep mode» — автономный research-режим (GPT-5.2-Codex)
- Per-model маршрутизация под разные задачи
Autonomous cloud · closed
Devin (Cognition)
проприетарный backend
- Sandbox: браузер + терминал + редактор; планирует/кодит/тестит
- Single-threaded философия («Don't build multi-agents»)
- Исторический якорь: 13.86% SWE-bench (март 2024)
Autonomous · OSS self-host
OpenHands
multi-backend (любые LLM)
- CodeAct: «agents that think in code» (действия как код)
- Docker-sandbox + SSH + Jupyter + BrowserGym
- Философия: freedom / transparency / ownership (vs Devin)
Сравнение по осям
Что в этой таблице на самом деле сравнивается.
Это сравнение обвязок, не моделей. Один и тот же Opus даёт 93% в Cursor и 77% в Claude Code
на Terminal-Bench 2.0 — то есть колонки «edit-формат / контекст / топология» объясняют разброс результата
не хуже, чем выбор модели. Цифры — из practitioner-источников (confidence medium).
Когда что выбирать
- Связная многошаговая сборка фичи в терминале → Claude Code (держит когерентность на длинных цепочках) или Codex CLI (дешевле по токенам, если задача короткими шагами).
- Работа внутри IDE + параллельные попытки → Cursor (мульти-агент через worktrees, best-of-N), либо OSS-альтернатива Cline/Roo (Roo — если важна экономия токенов diff-правками).
- Vendor-agnostic, лёгкий, git-first → Aider (свобода выбора модели + edit-format под неё; Architect/Editor для сложных правок).
- Очень большой контекст без ручной компакции → Gemini CLI (1M окно).
- Полная автономия, self-host, контроль и прозрачность → OpenHands (Docker-sandbox, любые модели). Если нужен «отполированный продукт под ключ» и не смущает проприетарность → Devin.
- Принцип топологии: для связного артефакта (код) — single-threaded; для breadth-first ресёрча — multi-agent, но ~15× токенов (см. спор Cognition ↔ Anthropic).
Сквозной вывод.
«Лучшего» harness'а нет — есть совпадение архетипа обвязки с задачей и моделью. Тренд 2026 — «тонкий harness»:
способности (планирование, компакция) мигрируют из обвязки в модель, и harness'ы, co-designed с конкретной
моделью (Claude Code, Cursor+Composer), выигрывают за счёт совпадения «wire format».