29 мая 2026

eur = 83.69 0.97 (1.17 %)

btc = 73 558.00$ 682.14 (0.94 %)

eth = 2 010.18$ 35.37 (1.79 %)

ton = 1.77$ -0.03 (-1.64 %)

usd = 71.37 0.47 (0.66 %)

eur = 83.69 0.97 (1.17 %)

btc = 73 558.00$ 682.14 (0.94 %)

Anthropic выпустила Claude Opus 4.8 и сделала упор на «честность» модели

2 минуты на чтение
Anthropic выпустила Claude Opus 4.8 и сделала упор на «честность» модели

Кодик кратко объясняет суть статьи

Anthropic представила обновлённую флагманскую модель Claude Opus 4.8, сделав акцент на повышении надёжности и «честности»: модель в четыре раза реже, чем Opus 4.7, пропускает ошибки в коде и чаще признаёт неуверенность в ответах. Она реже выдаёт ложную информацию, показала улучшения по метрикам безопасности и просоциальности, а также лидирует в шести из семи бенчмарков, включая SWE-Bench Pro (69,2%), опередив GPT-4.5 и Gemini 3.1 Pro. В тесте Terminal-Bench 2.1 уступает GPT-4.5 (74,6% против 78,2%). Цена на Opus осталась прежней. В чат-бот добавлена настройка «усилий»: пользователь может выбирать степень тщательности обработки запроса. По умолчанию для Opus 4.8 установлен режим High, а в более быстром режиме ответы в 2,5 раза быстрее и втрое дешевле; для сложных задач доступны повышенные уровни. У младших моделей (Sonnet, Haiku) функция ограничена. Также запущены «динамические рабочие процессы» в Claude Code — ИИ может планировать многоэтапные задачи и запускать сотни субагентов одновременно, включая перенос крупных проектов. Доступно на тарифах Enterprise, Team и Max. В ближайшее время будет расширен доступ к направлению Mythos, ориентированному на поиск уязвимостей нулевого дня.

Читайте в Telegram

|

Новая флагманская модель реже выдаёт ошибки в коде за готовый результат и чаще признаёт, когда не уверена в ответе.

Заодно в чат-боте появилась настройка, позволяющая выбирать, сколько усилий Claude тратит на задачу.

Anthropic выпустила Claude Opus 4.8 и сделала упор на «честность» модели

Компания Anthropic представила Claude Opus 4.8 — обновлённую флагманскую модель, вышедшую 28 мая, всего через шесть недель после предыдущей версии Opus 4.7. Цена за использование осталась прежней. Главный акцент релиза компания делает не на «интеллекте» как таковом, а на надёжности: по её данным, Opus 4.8 примерно в четыре раза реже предыдущей версии оставляет незамеченными собственные ошибки в написанном коде.

Anthropic выпустила Claude Opus 4.8 и сделала упор на «честность» модели

Anthropic называет это «честностью» модели: Opus 4.8 чаще сообщает, когда не уверена в результате или в источнике информации, и реже выдаёт ничем не подтверждённые утверждения. По заявлению компании, модель также набрала более высокие оценки по внутренним метрикам безопасности и «просоциальности» — например, в том, насколько она поддерживает самостоятельность пользователя и действует в его интересах. Все эти показатели Anthropic приводит по результатам собственных тестов.

Anthropic выпустила Claude Opus 4.8 и сделала упор на «честность» модели

По бенчмаркам Opus 4.8 лидирует в шести из семи тестов, которые приводит Anthropic. В тесте на агентное программирование SWE-Bench Pro модель набрала 69,2 % против 64,3 % у предыдущей версии, опередив GPT-5.5 и Gemini 3.1 Pro. Исключение — работа в терминале: в бенчмарке Terminal-Bench 2.1 впереди оказалась GPT-5.5 с 78,2 % против 74,6 % у Opus 4.8.

Anthropic выпустила Claude Opus 4.8 и сделала упор на «честность» модели

Вместе с моделью Anthropic добавила в чат-бот и агентный режим Claude Cowork настройку «усилий» — пользователь может выбирать, насколько тщательно Claude прорабатывает ответ. По умолчанию для Opus 4.8 выбран режим High; в более быстром режиме модель отвечает примерно в 2,5 раза быстрее и обходится втрое дешевле прежних версий, а для самых сложных задач предусмотрены повышенные уровни. Для младших моделей возможности урезаны: у Sonnet выбор уровней ограничен, а у Haiku его нет вовсе.

Параллельно компания представила для среды разработки Claude Code функцию «динамических рабочих процессов»: ИИ-агент может планировать длинную многоэтапную задачу и запускать сотни параллельных субагентов в одной сессии — вплоть до переноса целых проектов на сотни тысяч строк кода. Функция доступна на тарифах Enterprise, Team и Max. Кроме того, Anthropic пообещала в ближайшие недели открыть более широкий доступ к линейке Mythos — отдельному направлению, связанному с поиском уязвимостей нулевого дня.

Теги:
Материал обновлен|
Обсудить
Блоги 580
ВКонтакте
ВТБ
OTP Bank
ЦНИС
билайн
Softline
Слетать.ру
Т-Банк
Газпромбанк
МТС

Привет, это Кодик! Я создан, чтобы помогать вам с  разными задачами. Задайте мне вопрос…