OpenAI проверила, кто из ИИ-моделей работает лучше

OpenAI снова проверяет границы возможного. Компания представила GDPval, новую метрику, которая показывает, как ИИ справляется с прикладными задачами в 44 профессиях. Разбираемся, что именно она измеряет и стоит ли волноваться за свою работу.

На этот раз OpenAI говорит осторожнее. Никаких громких заявлений о «замене людей машинами», только акцент на «помощи человеку». GDPval, по словам команды, создана, чтобы трезво оценить, где модели уже могут быть полезны. Видимо, в OpenAI не спешат начинать разговор о том, кто кого заменит первыми, где и так всё очевидно. Поэтому анализ сфокусирован исключительно на том, как ИИ может улучшить нашу работу, а не забрать её.

Что оценивали

В основу GDPval легли 44 профессии из девяти отраслей, которые вносят наибольший вклад в ВВП США. Команда собрала 1320 реальных рабочих заданий: от юридических документов и инженерных чертежей до переписки со службой поддержки и планов ухода за пациентами. И так далее, список охватывает широкий спектр профессиональных сценариев, где ИИ может применяться на практике.

Главное внимание уделили тем видам деятельности, где результат зависит от знаний, опыта и аналитического мышления. Чтобы определить, какие профессии попадают в эту категорию, OpenAI использовала государственную базу ONET, которая классифицирует работу по уровню интеллектуальной и физической вовлечённости.

В выборку вошли те, где как минимум 60% задач требуют умственного труда: умения рассуждать, принимать решения и работать с информацией. Среди них юристы, инженеры, разработчики, врачи, аналитики, специалисты поддержки и другие профессии, где влияние ИИ может быть наиболее заметным.

Результаты

OpenAI решила не ограничиваться только своими моделями и протестировала сразу несколько систем. В исследовании участвовали GPT-4o, o4-mini, OpenAI o3, GPT-5, а также конкуренты Claude Opus 4.1 от Anthropic, Gemini 2.5 Pro от Google и Grok 4 от xAI.

Неожиданно лидерство досталось не OpenAI. Лучшей моделью по совокупным показателям стала Claude Opus 4.1, особенно в эстетических задачах: оформлении документов, структуре слайдов и визуальной логике. GPT-5 заняла второе место, показав высший результат по точности и глубине отраслевых знаний. Более мощная версия GPT-5 high получила оценку «на уровне или выше экспертов» чуть более чем в 40% случаев. Для сравнения, GPT-4o, выпущенная весной 2024 года, набрала лишь 13,7%.

Отдельно исследователи отметили рост эффективности. С момента релиза GPT-4o до GPT-5 качество выполнения задач фактически удвоилось. Модели не только стали точнее, но и выполняют рабочие сценарии GDPval примерно в сто раз быстрее и дешевле, чем специалисты-люди. Однако OpenAI уточняет, что речь идёт лишь о «чистом времени модели» и стоимости API, без учёта человеческой проверки, доработок и внедрения в реальные процессы. Так что, по крайней мере пока, поводы для паники можно отложить.