Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа

12:50, 28 марта 2024

12:50, 28 марта 20243 минуты на чтение

Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа

Читайте в Telegram

Компания сравнила новую модель YandexGPT 3 с предыдущей версией YandexGPT 2 и GPT-3.5-Turbo.

Сегодня компании постоянно сравнивают различные возможности своих нейросетей, но в этот раз Яндекс впервые раскрывает данные о том, насколько меньше ошибок стали допускать его генеративные модели.

Речь о самом сложном наборе запросов, которые только возможно сегодня придумать — по уверениям компании, модели специально дали трудные условия. Если бы использовались лёгкие вопросы, то показатель ошибок был бы ниже.

Как сообщили «Коду Дурова» в Яндексе, число фактических ошибок новой модели сократилось в сравнении с YandexGPT 2 с 16,4% до 13,5%. Речь о ситуациях, когда модель искажает общеизвестные факты.

Количество неподтверждённой информации тоже снизилось — с 6,4% у YandexGPT 2 до 5% у YandexGPT 3. Речь о данных, которые, например, не имеют подтверждений и опровержений.

YandexGPT 3 выдаёт 13,5% ответов с ошибкой, когда GPT-3.5-Turbo — 14,3%. Продукт OpenAI также почти на 1% чаще выдаёт ответы с неподтверждённой информацией — 5% у YandexGPT 3 против 5,9% у GPT-3.5-Turbo.

Опубликованные Яндексом данные говорят о том, что в сравнении с западными нейросетями российские разработки фактически показывают себя лучше.

Это связано с тем, что отечественная нейросеть обучается на российских данных, понимает локальный контекст, внутренние факты и события, а также культурные отсылки и прочее.

Яндекс также раскрыл результаты прохождения специальной локализованной версии одного из известных мировых бенчмарков MMLU. Он предоставляет разнообразный набор тестов для оценки понимания задач и их решения языковыми моделями.

В рамках прохождения MMLU специалисты Яндекса перевели оригинальные задания на русский, перепроверили тексты и исправили возникшие ошибки. Также они локализовали запросы: например, привели под российские стандарты запросы, связанные с единицами измерений.

Именно это позволило лучше учитывать локальный контекст и специфику запросов на русском языке. Результаты оказались следующими:

YandexGPT 3 и YandexGPT 2 дали 63% и 55% верных ответов, когда как ChatGPT 3.5 — 58%.
При этом LlaMA 2 (70 млрд параметров) в рамках этого же тестирования выдаёт 59% верных ответов.

В компании объяснили, что сегодня одной из важных задач разработчиков является модернизация модели до того уровня, когда она способна как можно точнее генерировать правдоподобный текст и «высказываться» на произвольные темы.

Для снижения количества ошибок в ответах Яндекс дообучает свои генеративные модели. Для этого специалисты в том числе используют методику Reward, когда за каждый ответ в процессе обучения нейросеть получает награду — положительную или отрицательную.

В Яндексе подчеркнули, что фактически специалисты хвалят и ругают модель за те или иные ответы. На примере таких ответов им удаётся дообучать нейросеть так, чтобы она с большей вероятностью генерировала правильные и с меньшей ошибочные ответы.

Что ещё нового?

ML-разработчики получили возможность дообучать модель через сервис Yandex DataSphere на своих примерах.

Так она сможет точнее работать со спецификой конкретных задач и лучше соответствовать потребностям конкретного бизнеса, уверяют в компании.

Яндекс обещает внедрение YandexGPT 3 в свои продукты, но сторонние разработчики уже могут встраивать модель в собственные разработки через API.

Перед интеграцией в свои продукты у бизнеса есть возможность протестировать модель в отдельном чате на ограниченном количестве запросов. Для новых пользователей бесплатно доступно 100 запросов.

В сравнении с предыдущей версией, YandexGPT 3 может обрабатывать существенно больше запросов за единицу времени, при этом стоимость использования нейросети для бизнеса снизилась почти в два раза.

Материал обновлен|13:18, 28 марта 2024

Обсудить

Складной iPhone Ultra может повторить историю iPhone X

Покупатели мемкоина TRUMP потеряли $3,81 млрд — монета рухнула на 97%

Midjourney заявила, что голливудские студии сами нарушают чужие авторские права с помощью ИИ

Продажи iPhone в России упали до минимума с 2022 года

Вин Дизель объявил о старте съёмок финального «Форсажа»

Telegram сделал расширенное форматирование сообщений Premium-функцией