LLM Wildberries вошла в топ-3 русскоязычного бенчмарка MERA

Большая языковая модель BerryLM-XL, дообученная командой RWB, вошла в топ-3 текстового рейтинга русскоязычного бенчмарка MERA.

По итогам тестирования модель получила интегральную оценку 0,835. Для сравнения, Human Benchmark — эталонная оценка на основе ответов людей на те же задания — составляет 0,852.

На момент публикации BerryLM-XL занимает третье место в общем рейтинге MERA и второе среди ИИ-моделей. Оценка формируется на основе 15 заданий, которые проверяют работу с русскоязычным текстом, знания, логику и прикладные навыки.

В топ-5 рейтинга также вошла ещё одна модель RWB — BerryLM-v2. Она получила оценку 0,810 и заняла пятое место в лидерборде.

Модели семейства BerryLM используются в продуктах Wildberries: в ИИ-ассистенте для покупателей, сравнении и поиске товаров, а также в инструментах для продавцов, которые помогают готовить ответы на отзывы и вопросы покупателей.

Кроме того, модели применяются для автоматизации внутренних процессов RWB. По оценке компании, совокупный эффект от ИИ-инструментов на базе BerryLM превышает 1 млрд рублей дополнительной выручки в год.

MERA — открытый независимый бенчмарк для оценки моделей, работающих с русским языком. Помимо текстового рейтинга, платформа включает направления для проверки моделей на задачах с кодом, отраслевыми сценариями и мультимодальными данными.