Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа

Влад Войтенко

28 марта, 20243 минуты на чтение

Читать первым в Telegram-канале

Компания сравнила новую модель YandexGPT 3 с предыдущей версией YandexGPT 2 и GPT-3.5-Turbo.

Сегодня компании постоянно сравнивают различные возможности своих нейросетей, но в этот раз Яндекс впервые раскрывает данные о том, насколько меньше ошибок стали допускать его генеративные модели.

Речь о самом сложном наборе запросов, которые только возможно сегодня придумать — по уверениям компании, модели специально дали трудные условия. Если бы использовались лёгкие вопросы, то показатель ошибок был бы ниже.

Как сообщили «Коду Дурова» в Яндексе, число фактических ошибок новой модели сократилось в сравнении с YandexGPT 2 с 16,4% до 13,5%. Речь о ситуациях, когда модель искажает общеизвестные факты.

Количество неподтверждённой информации тоже снизилось — с 6,4% у YandexGPT 2 до 5% у YandexGPT 3. Речь о данных, которые, например, не имеют подтверждений и опровержений.

YandexGPT 3 выдаёт 13,5% ответов с ошибкой, когда GPT-3.5-Turbo — 14,3%. Продукт OpenAI также почти на 1% чаще выдаёт ответы с неподтверждённой информацией — 5% у YandexGPT 3 против 5,9% у GPT-3.5-Turbo.

Опубликованные Яндексом данные говорят о том, что в сравнении с западными нейросетями российские разработки фактически показывают себя лучше.

Это связано с тем, что отечественная нейросеть обучается на российских данных, понимает локальный контекст, внутренние факты и события, а также культурные отсылки и прочее.

Яндекс также раскрыл результаты прохождения специальной локализованной версии одного из известных мировых бенчмарков MMLU. Он предоставляет разнообразный набор тестов для оценки понимания задач и их решения языковыми моделями.

В рамках прохождения MMLU специалисты Яндекса перевели оригинальные задания на русский, перепроверили тексты и исправили возникшие ошибки. Также они локализовали запросы: например, привели под российские стандарты запросы, связанные с единицами измерений.

Именно это позволило лучше учитывать локальный контекст и специфику запросов на русском языке. Результаты оказались следующими:

YandexGPT 3 и YandexGPT 2 дали 63% и 55% верных ответов, когда как ChatGPT 3.5 — 58%.
При этом LlaMA 2 (70 млрд параметров) в рамках этого же тестирования выдаёт 59% верных ответов.

В компании объяснили, что сегодня одной из важных задач разработчиков является модернизация модели до того уровня, когда она способна как можно точнее генерировать правдоподобный текст и «высказываться» на произвольные темы.

Для снижения количества ошибок в ответах Яндекс дообучает свои генеративные модели. Для этого специалисты в том числе используют методику Reward, когда за каждый ответ в процессе обучения нейросеть получает награду — положительную или отрицательную.

В Яндексе подчеркнули, что фактически специалисты хвалят и ругают модель за те или иные ответы. На примере таких ответов им удаётся дообучать нейросеть так, чтобы она с большей вероятностью генерировала правильные и с меньшей ошибочные ответы.

Что ещё нового?

ML-разработчики получили возможность дообучать модель через сервис Yandex DataSphere на своих примерах.

Так она сможет точнее работать со спецификой конкретных задач и лучше соответствовать потребностям конкретного бизнеса, уверяют в компании.

Пример: как отвечают на запросы YandexGPT 2 и YandexGPT 3

Яндекс обещает внедрение YandexGPT 3 в свои продукты, но сторонние разработчики уже могут встраивать модель в собственные разработки через API.

Перед интеграцией в свои продукты у бизнеса есть возможность протестировать модель в отдельном чате на ограниченном количестве запросов. Для новых пользователей бесплатно доступно 100 запросов.

В сравнении с предыдущей версией, YandexGPT 3 может обрабатывать существенно больше запросов за единицу времени, при этом стоимость использования нейросети для бизнеса снизилась почти в два раза.

Подписывайтесь на Telegram-канал

@D_CODE

Реклама. ИП Даллакян Г.А. 2VtzqvPHPsd

[Приватность][реклама на kod.ru]

Подписывайтесь на Telegram-канал

@D_CODE

Реклама. ИП Даллакян Г.А. 2VtzqvPHPsd

[Приватность][реклама на kod.ru]

28 марта, 2024

Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа

Что ещё нового?

Картина дня

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

Обзор Honor Magic 6 Pro: сила и мощь, но не всё так идеально

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

Итоги конференции Data Fusion 2024: что делать с большими данными и ИИ?

«ИИ становится похож на Гомера Симпсона»: в чём его главная проблема? Репортаж с Data Fusion 2024

Обзор Honor Magic 6 Pro: сила и мощь, но не всё так идеально

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

ФАС признала ненадлежащей рекламу детской карты Альфа-банка

Мигрантам запретят продажу SIM-карт без прохождения биометрии

Apple обсуждает с OpenAI интеграцию ИИ в iOS 18

2ГИС представил сверхдетальные дороги и маршруты на электричках

Карьера

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Реальные истории реальных людей: что объединяет сотрудников билайна

Пусть сессия боится нас: в билайне знают, как покорять зачеты

С нуля до Big Data: история дата-аналитика в билайне

Как эффективно прожить последние годы в универе: юные билайновцы рекомендуют

Реальные истории реальных людей: что объединяет сотрудников билайна

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Яндекс Практикум ищет автора на курс «Архитектура ПО» (удалёнка, парт-тайм)

Яндекс Практикум ищет автора на курс «Системный администратор» (удалёнка, парт-тайм)

Яндекс Практикум ищет наставника на курс «DevOps» (удалёнка, парт-тайм)

Яндекс Практикум ищет наставника на курс «Системный администратор» (удалёнка, парт-тайм)

Газпромбанк запускает GPB.Level Up: Data Science

Блоги 211

Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа

Что ещё нового?

Картина дня

Свежие материалы

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

Обзор Honor Magic 6 Pro: сила и мощь, но не всё так идеально

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

Итоги конференции Data Fusion 2024: что делать с большими данными и ИИ?

«ИИ становится похож на Гомера Симпсона»: в чём его главная проблема? Репортаж с Data Fusion 2024

Обзор Honor Magic 6 Pro: сила и мощь, но не всё так идеально

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

Обзор Lunnen Ground 15: недорогой ультрабук от Яндекса

Свежие новости

ФАС признала ненадлежащей рекламу детской карты Альфа-банка

Мигрантам запретят продажу SIM-карт без прохождения биометрии

Apple обсуждает с OpenAI интеграцию ИИ в iOS 18

2ГИС представил сверхдетальные дороги и маршруты на электричках

Карьера

Свежие материалы

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Реальные истории реальных людей: что объединяет сотрудников билайна

Пусть сессия боится нас: в билайне знают, как покорять зачеты

С нуля до Big Data: история дата-аналитика в билайне

Как эффективно прожить последние годы в универе: юные билайновцы рекомендуют

Реальные истории реальных людей: что объединяет сотрудников билайна

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Пусть сессия боится нас: в билайне знают, как покорять зачеты

Свежие вакансии

Яндекс Практикум ищет автора на курс «Архитектура ПО» (удалёнка, парт-тайм)

Яндекс Практикум ищет автора на курс «Системный администратор» (удалёнка, парт-тайм)

Яндекс Практикум ищет наставника на курс «DevOps» (удалёнка, парт-тайм)

Яндекс Практикум ищет наставника на курс «Системный администратор» (удалёнка, парт-тайм)

Газпромбанк запускает GPB.Level Up: Data Science

Блоги 211