15 декабря 2024

eur = 110.48 1.92 (1.77 %)

btc = 101 894.00$ 86.56 (0.09 %)

eth = 3 884.52$ -26.71 (-0.68 %)

ton = 6.27$ -0.06 (-0.94 %)

usd = 103.95 0.68 (0.66 %)

eur = 110.48 1.92 (1.77 %)

btc = 101 894.00$ 86.56 (0.09 %)

Форум

Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа

3 минуты на чтение
Представлен YandexGPT 3. В новом поколении модель в пять раз реже уклоняется от ответа

Компания сравнила новую модель YandexGPT 3 с предыдущей версией YandexGPT 2 и GPT-3.5-Turbo.

Сегодня компании постоянно сравнивают различные возможности своих нейросетей, но в этот раз Яндекс впервые раскрывает данные о том, насколько меньше ошибок стали допускать его генеративные модели.

Речь о самом сложном наборе запросов, которые только возможно сегодня придумать — по уверениям компании, модели специально дали трудные условия. Если бы использовались лёгкие вопросы, то показатель ошибок был бы ниже.

  • Как сообщили «Коду Дурова» в Яндексе, число фактических ошибок новой модели сократилось в сравнении с YandexGPT 2 с 16,4% до 13,5%. Речь о ситуациях, когда модель искажает общеизвестные факты.
  • Количество неподтверждённой информации тоже снизилось — с 6,4% у YandexGPT 2 до 5% у YandexGPT 3. Речь о данных, которые, например, не имеют подтверждений и опровержений.
  • YandexGPT 3 выдаёт 13,5% ответов с ошибкой, когда GPT-3.5-Turbo — 14,3%. Продукт OpenAI также почти на 1% чаще выдаёт ответы с неподтверждённой информацией — 5% у YandexGPT 3 против 5,9% у GPT-3.5-Turbo.
  • Опубликованные Яндексом данные говорят о том, что в сравнении с западными нейросетями российские разработки фактически показывают себя лучше.
  • Это связано с тем, что отечественная нейросеть обучается на российских данных, понимает локальный контекст, внутренние факты и события, а также культурные отсылки и прочее.

Яндекс также раскрыл результаты прохождения специальной локализованной версии одного из известных мировых бенчмарков MMLU. Он предоставляет разнообразный набор тестов для оценки понимания задач и их решения языковыми моделями.

В рамках прохождения MMLU специалисты Яндекса перевели оригинальные задания на русский, перепроверили тексты и исправили возникшие ошибки. Также они локализовали запросы: например, привели под российские стандарты запросы, связанные с единицами измерений.

Именно это позволило лучше учитывать локальный контекст и специфику запросов на русском языке. Результаты оказались следующими:

  • YandexGPT 3 и YandexGPT 2 дали 63% и 55% верных ответов, когда как ChatGPT 3.5 — 58%.
  • При этом LlaMA 2 (70 млрд параметров) в рамках этого же тестирования выдаёт 59% верных ответов.

В компании объяснили, что сегодня одной из важных задач разработчиков является модернизация модели до того уровня, когда она способна как можно точнее генерировать правдоподобный текст и «высказываться» на произвольные темы.

Данные согласно замеру side-by-side

Для снижения количества ошибок в ответах Яндекс дообучает свои генеративные модели. Для этого специалисты в том числе используют методику Reward, когда за каждый ответ в процессе обучения нейросеть получает награду — положительную или отрицательную.

В Яндексе подчеркнули, что фактически специалисты хвалят и ругают модель за те или иные ответы. На примере таких ответов им удаётся дообучать нейросеть так, чтобы она с большей вероятностью генерировала правильные и с меньшей ошибочные ответы.

Что ещё нового?

  • ML-разработчики получили возможность дообучать модель через сервис Yandex DataSphere на своих примерах.
  • Так она сможет точнее работать со спецификой конкретных задач и лучше соответствовать потребностям конкретного бизнеса, уверяют в компании.
Пример: как отвечают на запросы YandexGPT 2 и YandexGPT 3
  • Яндекс обещает внедрение YandexGPT 3 в свои продукты, но сторонние разработчики уже могут встраивать модель в собственные разработки через API.
  • Перед интеграцией в свои продукты у бизнеса есть возможность протестировать модель в отдельном чате на ограниченном количестве запросов. Для новых пользователей бесплатно доступно 100 запросов.
  • В сравнении с предыдущей версией, YandexGPT 3 может обрабатывать существенно больше запросов за единицу времени, при этом стоимость использования нейросети для бизнеса снизилась почти в два раза.

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
bfc5e6c3-5e3c-41ec-bbe7-97cb39296225-изображение-0caa5f53d-c148-46f9-be3b-795f7a443ddf-изображение-1

GigaChat Max: коротко о главном

Какие самые популярные слова искали в Яндексе в 2024 году

Полная версия 
973c20aa-79d4-4842-97cf-4fc2ae0ff6bb-изображение-0

GigaChat Max: коротко о главном

Бывший исследователь OpenAI, который обвинил компанию в нарушении авторских прав, был найден мёртвым в своей квартире

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Карьера
Блоги 301
Газпромбанк
МТС
Т-Банк
X5 Tech
Сбер
билайн
Яндекс Практикум
Ozon Tech
Циан
Банк 131