Anthropic выпустила Claude Opus 4.8 и сделала упор на «честность» модели

Новая флагманская модель реже выдаёт ошибки в коде за готовый результат и чаще признаёт, когда не уверена в ответе.

Заодно в чат-боте появилась настройка, позволяющая выбирать, сколько усилий Claude тратит на задачу.

Компания Anthropic представила Claude Opus 4.8 — обновлённую флагманскую модель, вышедшую 28 мая, всего через шесть недель после предыдущей версии Opus 4.7. Цена за использование осталась прежней. Главный акцент релиза компания делает не на «интеллекте» как таковом, а на надёжности: по её данным, Opus 4.8 примерно в четыре раза реже предыдущей версии оставляет незамеченными собственные ошибки в написанном коде.

Anthropic называет это «честностью» модели: Opus 4.8 чаще сообщает, когда не уверена в результате или в источнике информации, и реже выдаёт ничем не подтверждённые утверждения. По заявлению компании, модель также набрала более высокие оценки по внутренним метрикам безопасности и «просоциальности» — например, в том, насколько она поддерживает самостоятельность пользователя и действует в его интересах. Все эти показатели Anthropic приводит по результатам собственных тестов.

По бенчмаркам Opus 4.8 лидирует в шести из семи тестов, которые приводит Anthropic. В тесте на агентное программирование SWE-Bench Pro модель набрала 69,2 % против 64,3 % у предыдущей версии, опередив GPT-5.5 и Gemini 3.1 Pro. Исключение — работа в терминале: в бенчмарке Terminal-Bench 2.1 впереди оказалась GPT-5.5 с 78,2 % против 74,6 % у Opus 4.8.

Вместе с моделью Anthropic добавила в чат-бот и агентный режим Claude Cowork настройку «усилий» — пользователь может выбирать, насколько тщательно Claude прорабатывает ответ. По умолчанию для Opus 4.8 выбран режим High; в более быстром режиме модель отвечает примерно в 2,5 раза быстрее и обходится втрое дешевле прежних версий, а для самых сложных задач предусмотрены повышенные уровни. Для младших моделей возможности урезаны: у Sonnet выбор уровней ограничен, а у Haiku его нет вовсе.

Параллельно компания представила для среды разработки Claude Code функцию «динамических рабочих процессов»: ИИ-агент может планировать длинную многоэтапную задачу и запускать сотни параллельных субагентов в одной сессии — вплоть до переноса целых проектов на сотни тысяч строк кода. Функция доступна на тарифах Enterprise, Team и Max. Кроме того, Anthropic пообещала в ближайшие недели открыть более широкий доступ к линейке Mythos — отдельному направлению, связанному с поиском уязвимостей нулевого дня.