Anthropic выпустила Claude Opus 4.8 и сделала упор на «честность» модели

04:30, 29 мая 2026

04:30, 29 мая 20262 минуты на чтение

Anthropic выпустила Claude Opus 4.8 и сделала упор на «честность» модели

Кодик кратко объясняет суть статьи

Anthropic представила обновлённую флагманскую модель Claude Opus 4.8, сделав акцент на повышении надёжности и «честности»: модель в четыре раза реже, чем Opus 4.7, пропускает ошибки в коде и чаще признаёт неуверенность в ответах. Она реже выдаёт ложную информацию, показала улучшения по метрикам безопасности и просоциальности, а также лидирует в шести из семи бенчмарков, включая SWE-Bench Pro (69,2%), опередив GPT-4.5 и Gemini 3.1 Pro. В тесте Terminal-Bench 2.1 уступает GPT-4.5 (74,6% против 78,2%). Цена на Opus осталась прежней. В чат-бот добавлена настройка «усилий»: пользователь может выбирать степень тщательности обработки запроса. По умолчанию для Opus 4.8 установлен режим High, а в более быстром режиме ответы в 2,5 раза быстрее и втрое дешевле; для сложных задач доступны повышенные уровни. У младших моделей (Sonnet, Haiku) функция ограничена. Также запущены «динамические рабочие процессы» в Claude Code — ИИ может планировать многоэтапные задачи и запускать сотни субагентов одновременно, включая перенос крупных проектов. Доступно на тарифах Enterprise, Team и Max. В ближайшее время будет расширен доступ к направлению Mythos, ориентированному на поиск уязвимостей нулевого дня.

Работает на базе Yandex AI Studio

Читайте в Telegram

Новая флагманская модель реже выдаёт ошибки в коде за готовый результат и чаще признаёт, когда не уверена в ответе.

Заодно в чат-боте появилась настройка, позволяющая выбирать, сколько усилий Claude тратит на задачу.

Компания Anthropic представила Claude Opus 4.8 — обновлённую флагманскую модель, вышедшую 28 мая, всего через шесть недель после предыдущей версии Opus 4.7. Цена за использование осталась прежней. Главный акцент релиза компания делает не на «интеллекте» как таковом, а на надёжности: по её данным, Opus 4.8 примерно в четыре раза реже предыдущей версии оставляет незамеченными собственные ошибки в написанном коде.

Anthropic называет это «честностью» модели: Opus 4.8 чаще сообщает, когда не уверена в результате или в источнике информации, и реже выдаёт ничем не подтверждённые утверждения. По заявлению компании, модель также набрала более высокие оценки по внутренним метрикам безопасности и «просоциальности» — например, в том, насколько она поддерживает самостоятельность пользователя и действует в его интересах. Все эти показатели Anthropic приводит по результатам собственных тестов.

По бенчмаркам Opus 4.8 лидирует в шести из семи тестов, которые приводит Anthropic. В тесте на агентное программирование SWE-Bench Pro модель набрала 69,2 % против 64,3 % у предыдущей версии, опередив GPT-5.5 и Gemini 3.1 Pro. Исключение — работа в терминале: в бенчмарке Terminal-Bench 2.1 впереди оказалась GPT-5.5 с 78,2 % против 74,6 % у Opus 4.8.

Вместе с моделью Anthropic добавила в чат-бот и агентный режим Claude Cowork настройку «усилий» — пользователь может выбирать, насколько тщательно Claude прорабатывает ответ. По умолчанию для Opus 4.8 выбран режим High; в более быстром режиме модель отвечает примерно в 2,5 раза быстрее и обходится втрое дешевле прежних версий, а для самых сложных задач предусмотрены повышенные уровни. Для младших моделей возможности урезаны: у Sonnet выбор уровней ограничен, а у Haiku его нет вовсе.

Параллельно компания представила для среды разработки Claude Code функцию «динамических рабочих процессов»: ИИ-агент может планировать длинную многоэтапную задачу и запускать сотни параллельных субагентов в одной сессии — вплоть до переноса целых проектов на сотни тысяч строк кода. Функция доступна на тарифах Enterprise, Team и Max. Кроме того, Anthropic пообещала в ближайшие недели открыть более широкий доступ к линейке Mythos — отдельному направлению, связанному с поиском уязвимостей нулевого дня.

Материал обновлен|05:31, 29 мая 2026

Обсудить

Горелкин про санкции ЕС против VK и МАКС: «теперь понятно, зачем подобную дичь так усердно сеяли»

ЕС ввёл санкции против VK и юрлица мессенджера МАКС

МегаФон расширил 5G-роуминг в популярных странах для летнего отдыха

Минпросвещения установило нормы на использование гаджетов детьми

ЕС не станет заставлять Sony выпускать игры на дисках

Google выпустила ИИ-модель для здоровья, обученную на триллионе минут данных с носимых устройств