Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа
Компания сравнила новую модель YandexGPT 3 с предыдущей версией YandexGPT 2 и GPT-3.5-Turbo.
Сегодня компании постоянно сравнивают различные возможности своих нейросетей, но в этот раз Яндекс впервые раскрывает данные о том, насколько меньше ошибок стали допускать его генеративные модели.
Речь о самом сложном наборе запросов, которые только возможно сегодня придумать — по уверениям компании, модели специально дали трудные условия. Если бы использовались лёгкие вопросы, то показатель ошибок был бы ниже.
- Как сообщили «Коду Дурова» в Яндексе, число фактических ошибок новой модели сократилось в сравнении с YandexGPT 2 с 16,4% до 13,5%. Речь о ситуациях, когда модель искажает общеизвестные факты.
- Количество неподтверждённой информации тоже снизилось — с 6,4% у YandexGPT 2 до 5% у YandexGPT 3. Речь о данных, которые, например, не имеют подтверждений и опровержений.
- YandexGPT 3 выдаёт 13,5% ответов с ошибкой, когда GPT-3.5-Turbo — 14,3%. Продукт OpenAI также почти на 1% чаще выдаёт ответы с неподтверждённой информацией — 5% у YandexGPT 3 против 5,9% у GPT-3.5-Turbo.
- Опубликованные Яндексом данные говорят о том, что в сравнении с западными нейросетями российские разработки фактически показывают себя лучше.
- Это связано с тем, что отечественная нейросеть обучается на российских данных, понимает локальный контекст, внутренние факты и события, а также культурные отсылки и прочее.
Яндекс также раскрыл результаты прохождения специальной локализованной версии одного из известных мировых бенчмарков MMLU. Он предоставляет разнообразный набор тестов для оценки понимания задач и их решения языковыми моделями.
В рамках прохождения MMLU специалисты Яндекса перевели оригинальные задания на русский, перепроверили тексты и исправили возникшие ошибки. Также они локализовали запросы: например, привели под российские стандарты запросы, связанные с единицами измерений.
Именно это позволило лучше учитывать локальный контекст и специфику запросов на русском языке. Результаты оказались следующими:
- YandexGPT 3 и YandexGPT 2 дали 63% и 55% верных ответов, когда как ChatGPT 3.5 — 58%.
- При этом LlaMA 2 (70 млрд параметров) в рамках этого же тестирования выдаёт 59% верных ответов.
В компании объяснили, что сегодня одной из важных задач разработчиков является модернизация модели до того уровня, когда она способна как можно точнее генерировать правдоподобный текст и «высказываться» на произвольные темы.
Для снижения количества ошибок в ответах Яндекс дообучает свои генеративные модели. Для этого специалисты в том числе используют методику Reward, когда за каждый ответ в процессе обучения нейросеть получает награду — положительную или отрицательную.
В Яндексе подчеркнули, что фактически специалисты хвалят и ругают модель за те или иные ответы. На примере таких ответов им удаётся дообучать нейросеть так, чтобы она с большей вероятностью генерировала правильные и с меньшей ошибочные ответы.
Что ещё нового?
- ML-разработчики получили возможность дообучать модель через сервис Yandex DataSphere на своих примерах.
- Так она сможет точнее работать со спецификой конкретных задач и лучше соответствовать потребностям конкретного бизнеса, уверяют в компании.
- Яндекс обещает внедрение YandexGPT 3 в свои продукты, но сторонние разработчики уже могут встраивать модель в собственные разработки через API.
- Перед интеграцией в свои продукты у бизнеса есть возможность протестировать модель в отдельном чате на ограниченном количестве запросов. Для новых пользователей бесплатно доступно 100 запросов.
- В сравнении с предыдущей версией, YandexGPT 3 может обрабатывать существенно больше запросов за единицу времени, при этом стоимость использования нейросети для бизнеса снизилась почти в два раза.
Читать первым в Telegram-канале «Код Дурова»