OpenAI проверила, кто из ИИ-моделей работает лучше

10:43, 14 октября 2025

1,0к

10:43, 14 октября 20252 минуты на чтение

OpenAI проверила, кто из ИИ-моделей работает лучше

Кодик кратко объясняет суть статьи

OpenAI разработала метрику GDPval, оценивающую эффективность ИИ-моделей в выполнении задач из 44 профессий, критичных для экономики США. Метрика фокусируется на интеллектуальных видах деятельности, требующих анализа и принятия решений. Тестирование включало модели OpenAI (включая GPT-5), а также конкурентов от Anthropic, Google и xAI. Лидерство заняла модель Claude Opus 4.1, отличившись в эстетических задачах, тогда как GPT-5 показала лучшие результаты по точности и отраслевым знаниям. Несмотря на значительное повышение качества и скорости работы моделей, OpenAI подчёркивает необходимость человеческого контроля и интеграции в реальные процессы, исключая немедленную замену специалистов.

Работает на базе Yandex AI Studio

Читайте в Telegram

OpenAI снова проверяет границы возможного. Компания представила GDPval, новую метрику, которая показывает, как ИИ справляется с прикладными задачами в 44 профессиях. Разбираемся, что именно она измеряет и стоит ли волноваться за свою работу.

На этот раз OpenAI говорит осторожнее. Никаких громких заявлений о «замене людей машинами», только акцент на «помощи человеку». GDPval, по словам команды, создана, чтобы трезво оценить, где модели уже могут быть полезны. Видимо, в OpenAI не спешат начинать разговор о том, кто кого заменит первыми, где и так всё очевидно. Поэтому анализ сфокусирован исключительно на том, как ИИ может улучшить нашу работу, а не забрать её.

Что оценивали

В основу GDPval легли 44 профессии из девяти отраслей, которые вносят наибольший вклад в ВВП США. Команда собрала 1320 реальных рабочих заданий: от юридических документов и инженерных чертежей до переписки со службой поддержки и планов ухода за пациентами. И так далее, список охватывает широкий спектр профессиональных сценариев, где ИИ может применяться на практике.

Главное внимание уделили тем видам деятельности, где результат зависит от знаний, опыта и аналитического мышления. Чтобы определить, какие профессии попадают в эту категорию, OpenAI использовала государственную базу ONET, которая классифицирует работу по уровню интеллектуальной и физической вовлечённости.

В выборку вошли те, где как минимум 60% задач требуют умственного труда: умения рассуждать, принимать решения и работать с информацией. Среди них юристы, инженеры, разработчики, врачи, аналитики, специалисты поддержки и другие профессии, где влияние ИИ может быть наиболее заметным.

Результаты

OpenAI решила не ограничиваться только своими моделями и протестировала сразу несколько систем. В исследовании участвовали GPT-4o, o4-mini, OpenAI o3, GPT-5, а также конкуренты Claude Opus 4.1 от Anthropic, Gemini 2.5 Pro от Google и Grok 4 от xAI.

Неожиданно лидерство досталось не OpenAI. Лучшей моделью по совокупным показателям стала Claude Opus 4.1, особенно в эстетических задачах: оформлении документов, структуре слайдов и визуальной логике. GPT-5 заняла второе место, показав высший результат по точности и глубине отраслевых знаний. Более мощная версия GPT-5 high получила оценку «на уровне или выше экспертов» чуть более чем в 40% случаев. Для сравнения, GPT-4o, выпущенная весной 2024 года, набрала лишь 13,7%.

Отдельно исследователи отметили рост эффективности. С момента релиза GPT-4o до GPT-5 качество выполнения задач фактически удвоилось. Модели не только стали точнее, но и выполняют рабочие сценарии GDPval примерно в сто раз быстрее и дешевле, чем специалисты-люди. Однако OpenAI уточняет, что речь идёт лишь о «чистом времени модели» и стоимости API, без учёта человеческой проверки, доработок и внедрения в реальные процессы. Так что, по крайней мере пока, поводы для паники можно отложить.

Материал обновлен|18:25, 19 февраля 2026

Обсудить

В топовых iPhone 18 Pro Apple поставит более медленную память — и поднимет на них цены

Вступление в силу закона о регулировании криптовалют в России перенесли на 1 сентября

Meta запустила приложение, где мини-игры для пользователей создаются по текстовому описанию

Набиуллина: у вас будет выбор пользоваться или не пользоваться цифровым рублем

Россиянам могут разрешить хранить крипту на «холодных» кошельках. Но есть нюанс

Школьная сборная России победила на Международной олимпиаде по кибербезопасности