24 декабря 2025

eur = 92.81 -0.05 (-0.05 %)

btc = 87 507.00$ - 982.85 (-1.11 %)

eth = 2 965.23$ -41.61 (-1.38 %)

ton = 1.48$ 0.02 (1.16 %)

usd = 78.58 -0.73 (-0.92 %)

eur = 92.81 -0.05 (-0.05 %)

btc = 87 507.00$ - 982.85 (-1.11 %)

OpenAI проверила, кто из ИИ-моделей работает лучше

2 минуты на чтение
OpenAI проверила, кто из ИИ-моделей работает лучше

OpenAI снова проверяет границы возможного. Компания представила GDPval, новую метрику, которая показывает, как ИИ справляется с прикладными задачами в 44 профессиях. Разбираемся, что именно она измеряет и стоит ли волноваться за свою работу.

На этот раз OpenAI говорит осторожнее. Никаких громких заявлений о «замене людей машинами», только акцент на «помощи человеку». GDPval, по словам команды, создана, чтобы трезво оценить, где модели уже могут быть полезны. Видимо, в OpenAI не спешат начинать разговор о том, кто кого заменит первыми, где и так всё очевидно. Поэтому анализ сфокусирован исключительно на том, как ИИ может улучшить нашу работу, а не забрать её.

Что оценивали

В основу GDPval легли 44 профессии из девяти отраслей, которые вносят наибольший вклад в ВВП США. Команда собрала 1320 реальных рабочих заданий: от юридических документов и инженерных чертежей до переписки со службой поддержки и планов ухода за пациентами. И так далее, список охватывает широкий спектр профессиональных сценариев, где ИИ может применяться на практике.

Главное внимание уделили тем видам деятельности, где результат зависит от знаний, опыта и аналитического мышления. Чтобы определить, какие профессии попадают в эту категорию, OpenAI использовала государственную базу ONET, которая классифицирует работу по уровню интеллектуальной и физической вовлечённости.

В выборку вошли те, где как минимум 60% задач требуют умственного труда: умения рассуждать, принимать решения и работать с информацией. Среди них юристы, инженеры, разработчики, врачи, аналитики, специалисты поддержки и другие профессии, где влияние ИИ может быть наиболее заметным.

Результаты

OpenAI решила не ограничиваться только своими моделями и протестировала сразу несколько систем. В исследовании участвовали GPT-4o, o4-mini, OpenAI o3, GPT-5, а также конкуренты Claude Opus 4.1 от Anthropic, Gemini 2.5 Pro от Google и Grok 4 от xAI.

OpenAI проверила, кто из ИИ-моделей работает лучше

Неожиданно лидерство досталось не OpenAI. Лучшей моделью по совокупным показателям стала Claude Opus 4.1, особенно в эстетических задачах: оформлении документов, структуре слайдов и визуальной логике. GPT-5 заняла второе место, показав высший результат по точности и глубине отраслевых знаний. Более мощная версия GPT-5 high получила оценку «на уровне или выше экспертов» чуть более чем в 40% случаев. Для сравнения, GPT-4o, выпущенная весной 2024 года, набрала лишь 13,7%.

OpenAI проверила, кто из ИИ-моделей работает лучше

Отдельно исследователи отметили рост эффективности. С момента релиза GPT-4o до GPT-5 качество выполнения задач фактически удвоилось. Модели не только стали точнее, но и выполняют рабочие сценарии GDPval примерно в сто раз быстрее и дешевле, чем специалисты-люди. Однако OpenAI уточняет, что речь идёт лишь о «чистом времени модели» и стоимости API, без учёта человеческой проверки, доработок и внедрения в реальные процессы. Так что, по крайней мере пока, поводы для паники можно отложить.

Читать первым в Telegram-канале «Код Дурова»

Сейчас читают
Глоссарий Telegram: 200+ терминов и функций мессенджера
Глоссарий Telegram: 200+ терминов и функций мессенджера

Глоссарий Telegram: 200+ терминов и функций мессенджера

Гайд по Telegram: справочник терминов и функций

Читать
Карьера
Блоги 460
OTP Bank
билайн
Газпромбанк
Т-Банк
МТС
X5 Tech
Сбер
Яндекс Практикум
Ozon Tech
Циан

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы