LLM Wildberries вошла в топ-3 русскоязычного бенчмарка MERA

1 минута на чтение

LLM Wildberries вошла в топ-3 русскоязычного бенчмарка MERA

Читайте в Telegram

Большая языковая модель BerryLM-XL, дообученная командой RWB, вошла в топ-3 текстового рейтинга русскоязычного бенчмарка MERA.

По итогам тестирования модель получила интегральную оценку 0,835. Для сравнения, Human Benchmark — эталонная оценка на основе ответов людей на те же задания — составляет 0,852.

На момент публикации BerryLM-XL занимает третье место в общем рейтинге MERA и второе среди ИИ-моделей. Оценка формируется на основе 15 заданий, которые проверяют работу с русскоязычным текстом, знания, логику и прикладные навыки.

В топ-5 рейтинга также вошла ещё одна модель RWB — BerryLM-v2. Она получила оценку 0,810 и заняла пятое место в лидерборде.

Модели семейства BerryLM используются в продуктах Wildberries: в ИИ-ассистенте для покупателей, сравнении и поиске товаров, а также в инструментах для продавцов, которые помогают готовить ответы на отзывы и вопросы покупателей.

Кроме того, модели применяются для автоматизации внутренних процессов RWB. По оценке компании, совокупный эффект от ИИ-инструментов на базе BerryLM превышает 1 млрд рублей дополнительной выручки в год.

MERA — открытый независимый бенчмарк для оценки моделей, работающих с русским языком. Помимо текстового рейтинга, платформа включает направления для проверки моделей на задачах с кодом, отраслевыми сценариями и мультимодальными данными.

Обсудить

LLM Wildberries вошла в топ-3 русскоязычного бенчмарка MERA

Apple удалила все приложения VK из App Store — Минцифры подала жалобу в ФАС

«Алиса, перекрой воду»: Яндекс выпустил систему защиты от протечек

Yandex B2B Tech представила на фестивале Young Con сервис Vibecraft для создания сайтов и веб-приложений по текстовому описанию

Глава Google DeepMind спрогнозировал появление AGI к 2030 году

Спортивный тренер неделю использовал Apple Watch, Whoop, Fitbit Air и кольцо Oura вместе, а затем сравнил их показатели

LLM Wildberries вошла в топ-3 русскоязычного бенчмарка MERA

Apple удалила все приложения VK из App Store — Минцифры подала жалобу в ФАС

«Алиса, перекрой воду»: Яндекс выпустил систему защиты от протечек

Yandex B2B Tech представила на фестивале Young Con сервис Vibecraft для создания сайтов и веб-приложений по текстовому описанию

Глава Google DeepMind спрогнозировал появление AGI к 2030 году

Спортивный тренер неделю использовал Apple Watch, Whoop, Fitbit Air и кольцо Oura вместе, а затем сравнил их показатели

LLM Wildberries вошла в топ-3 русскоязычного бенчмарка MERA