14 октября 2025

eur = 93.92 -0.13 (-0.14 %)

btc = 113 441.00$ -1 864.43 (-1.62 %)

eth = 4 144.46$ -15.91 (-0.38 %)

ton = 2.30$ 0.03 (1.40 %)

usd = 80.85 -0.34 (-0.41 %)

eur = 93.92 -0.13 (-0.14 %)

btc = 113 441.00$ -1 864.43 (-1.62 %)

OpenAI проверила, кто из ИИ-моделей работает лучше

2 минуты на чтение
OpenAI проверила, кто из ИИ-моделей работает лучше

ГигаЧат кратко объясняет суть статьи

OpenAI разработала метрику GDPval, оценивающую эффективность ИИ-моделей в выполнении задач из 44 профессий, критичных для экономики США. Метрика фокусируется на интеллектуальных видах деятельности, требующих анализа и принятия решений. Тестирование включало модели OpenAI (включая GPT-5), а также конкурентов от Anthropic, Google и xAI. Лидерство заняла модель Claude Opus 4.1, отличившись в эстетических задачах, тогда как GPT-5 показала лучшие результаты по точности и отраслевым знаниям. Несмотря на значительное повышение качества и скорости работы моделей, OpenAI подчёркивает необходимость человеческого контроля и интеграции в реальные процессы, исключая немедленную замену специалистов.

OpenAI снова проверяет границы возможного. Компания представила GDPval, новую метрику, которая показывает, как ИИ справляется с прикладными задачами в 44 профессиях. Разбираемся, что именно она измеряет и стоит ли волноваться за свою работу.

На этот раз OpenAI говорит осторожнее. Никаких громких заявлений о «замене людей машинами», только акцент на «помощи человеку». GDPval, по словам команды, создана, чтобы трезво оценить, где модели уже могут быть полезны. Видимо, в OpenAI не спешат начинать разговор о том, кто кого заменит первыми, где и так всё очевидно. Поэтому анализ сфокусирован исключительно на том, как ИИ может улучшить нашу работу, а не забрать её.

Что оценивали

В основу GDPval легли 44 профессии из девяти отраслей, которые вносят наибольший вклад в ВВП США. Команда собрала 1320 реальных рабочих заданий: от юридических документов и инженерных чертежей до переписки со службой поддержки и планов ухода за пациентами. И так далее, список охватывает широкий спектр профессиональных сценариев, где ИИ может применяться на практике.

Главное внимание уделили тем видам деятельности, где результат зависит от знаний, опыта и аналитического мышления. Чтобы определить, какие профессии попадают в эту категорию, OpenAI использовала государственную базу ONET, которая классифицирует работу по уровню интеллектуальной и физической вовлечённости.

В выборку вошли те, где как минимум 60% задач требуют умственного труда: умения рассуждать, принимать решения и работать с информацией. Среди них юристы, инженеры, разработчики, врачи, аналитики, специалисты поддержки и другие профессии, где влияние ИИ может быть наиболее заметным.

Результаты

OpenAI решила не ограничиваться только своими моделями и протестировала сразу несколько систем. В исследовании участвовали GPT-4o, o4-mini, OpenAI o3, GPT-5, а также конкуренты Claude Opus 4.1 от Anthropic, Gemini 2.5 Pro от Google и Grok 4 от xAI.

OpenAI проверила, кто из ИИ-моделей работает лучше

Неожиданно лидерство досталось не OpenAI. Лучшей моделью по совокупным показателям стала Claude Opus 4.1, особенно в эстетических задачах: оформлении документов, структуре слайдов и визуальной логике. GPT-5 заняла второе место, показав высший результат по точности и глубине отраслевых знаний. Более мощная версия GPT-5 high получила оценку «на уровне или выше экспертов» чуть более чем в 40% случаев. Для сравнения, GPT-4o, выпущенная весной 2024 года, набрала лишь 13,7%.

OpenAI проверила, кто из ИИ-моделей работает лучше

Отдельно исследователи отметили рост эффективности. С момента релиза GPT-4o до GPT-5 качество выполнения задач фактически удвоилось. Модели не только стали точнее, но и выполняют рабочие сценарии GDPval примерно в сто раз быстрее и дешевле, чем специалисты-люди. Однако OpenAI уточняет, что речь идёт лишь о «чистом времени модели» и стоимости API, без учёта человеческой проверки, доработок и внедрения в реальные процессы. Так что, по крайней мере пока, поводы для паники можно отложить.

Теги:

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от ГигаЧат 
1-bg-изображение-0
img-content-1-изображение-0

ГигаЧат: коротко о главном

Как изменился Код Дурова вместе с ГигаЧат?

Узнай о всех возможностях в FAQ-статье 
Российские банки планируют создать новую платёжную систему без карт

ГигаЧат: коротко о главном

Российские банки планируют создать новую платёжную систему без карт

Полная версия 
Мошенники подделали голос ребёнка с помощью нейросети

ГигаЧат: коротко о главном

Мошенники подделали голос ребёнка с помощью нейросети

Полная версия 

Реализовано через ГигаЧат 

Сейчас читают
Цифра в деле
Цифра в деле
Смотреть
Реклама. ПАО Сбербанк. erid: 2Vtzqv3u7MN
Карьера
Блоги 432
Газпромбанк
OTP Bank
МТС
Т-Банк
X5 Tech
билайн
Сбер
Яндекс Практикум
Ozon Tech
Циан

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы