15 сентября 2025

eur = 99.33 -0.41 (-0.41 %)

btc = 114 670.00$ - 967.42 (-0.84 %)

eth = 4 512.34$ - 122.82 (-2.65 %)

ton = 3.14$ -0.03 (-0.89 %)

usd = 84.38 -1.28 (-1.50 %)

eur = 99.33 -0.41 (-0.41 %)

btc = 114 670.00$ - 967.42 (-0.84 %)

Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа

3 минуты на чтение
Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа

Компания сравнила новую модель YandexGPT 3 с предыдущей версией YandexGPT 2 и GPT-3.5-Turbo.

Сегодня компании постоянно сравнивают различные возможности своих нейросетей, но в этот раз Яндекс впервые раскрывает данные о том, насколько меньше ошибок стали допускать его генеративные модели.

Речь о самом сложном наборе запросов, которые только возможно сегодня придумать — по уверениям компании, модели специально дали трудные условия. Если бы использовались лёгкие вопросы, то показатель ошибок был бы ниже.

Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа
  • Как сообщили «Коду Дурова» в Яндексе, число фактических ошибок новой модели сократилось в сравнении с YandexGPT 2 с 16,4% до 13,5%. Речь о ситуациях, когда модель искажает общеизвестные факты.
  • Количество неподтверждённой информации тоже снизилось — с 6,4% у YandexGPT 2 до 5% у YandexGPT 3. Речь о данных, которые, например, не имеют подтверждений и опровержений.
  • YandexGPT 3 выдаёт 13,5% ответов с ошибкой, когда GPT-3.5-Turbo — 14,3%. Продукт OpenAI также почти на 1% чаще выдаёт ответы с неподтверждённой информацией — 5% у YandexGPT 3 против 5,9% у GPT-3.5-Turbo.
  • Опубликованные Яндексом данные говорят о том, что в сравнении с западными нейросетями российские разработки фактически показывают себя лучше.
  • Это связано с тем, что отечественная нейросеть обучается на российских данных, понимает локальный контекст, внутренние факты и события, а также культурные отсылки и прочее.

Яндекс также раскрыл результаты прохождения специальной локализованной версии одного из известных мировых бенчмарков MMLU. Он предоставляет разнообразный набор тестов для оценки понимания задач и их решения языковыми моделями.

В рамках прохождения MMLU специалисты Яндекса перевели оригинальные задания на русский, перепроверили тексты и исправили возникшие ошибки. Также они локализовали запросы: например, привели под российские стандарты запросы, связанные с единицами измерений.

Именно это позволило лучше учитывать локальный контекст и специфику запросов на русском языке. Результаты оказались следующими:

  • YandexGPT 3 и YandexGPT 2 дали 63% и 55% верных ответов, когда как ChatGPT 3.5 — 58%.
  • При этом LlaMA 2 (70 млрд параметров) в рамках этого же тестирования выдаёт 59% верных ответов.

В компании объяснили, что сегодня одной из важных задач разработчиков является модернизация модели до того уровня, когда она способна как можно точнее генерировать правдоподобный текст и «высказываться» на произвольные темы.

Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа
Данные согласно замеру side-by-side

Для снижения количества ошибок в ответах Яндекс дообучает свои генеративные модели. Для этого специалисты в том числе используют методику Reward, когда за каждый ответ в процессе обучения нейросеть получает награду — положительную или отрицательную.

В Яндексе подчеркнули, что фактически специалисты хвалят и ругают модель за те или иные ответы. На примере таких ответов им удаётся дообучать нейросеть так, чтобы она с большей вероятностью генерировала правильные и с меньшей ошибочные ответы.

Что ещё нового?

  • ML-разработчики получили возможность дообучать модель через сервис Yandex DataSphere на своих примерах.
  • Так она сможет точнее работать со спецификой конкретных задач и лучше соответствовать потребностям конкретного бизнеса, уверяют в компании.
Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа
Пример: как отвечают на запросы YandexGPT 2 и YandexGPT 3
  • Яндекс обещает внедрение YandexGPT 3 в свои продукты, но сторонние разработчики уже могут встраивать модель в собственные разработки через API.
  • Перед интеграцией в свои продукты у бизнеса есть возможность протестировать модель в отдельном чате на ограниченном количестве запросов. Для новых пользователей бесплатно доступно 100 запросов.
  • В сравнении с предыдущей версией, YandexGPT 3 может обрабатывать существенно больше запросов за единицу времени, при этом стоимость использования нейросети для бизнеса снизилась почти в два раза.
Материал обновлен|

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от ГигаЧат 
1-bg-изображение-0
img-content-1-изображение-0

ГигаЧат: коротко о главном

Как изменился Код Дурова вместе с ГигаЧат?

Узнай о всех возможностях в FAQ-статье 
Spotify расширила возможности бесплатных пользователей

ГигаЧат: коротко о главном

Spotify расширила возможности бесплатных пользователей

Полная версия 
«Магнит» запустил тестирование цифрового подтверждения возраста через мессенджер MAX«Магнит» запустил тестирование цифрового подтверждения возраста через мессенджер MAX«Магнит» запустил тестирование цифрового подтверждения возраста через мессенджер MAX

ГигаЧат: коротко о главном

«Магнит» запустил тестирование цифрового подтверждения возраста через мессенджер MAX

Полная версия 

Реализовано через ГигаЧат 

Сейчас читают
Редакция рекомендует
Карьера
Блоги 417
Газпромбанк
OTP Bank
Т-Банк
X5 Tech
билайн
МТС
Сбер
Яндекс Практикум
Ozon Tech
Циан

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы