Нейросети смогут грамотнее писать на русском языке благодаря исследователям МГУ и Яндекса

14:14, 26 ноября 2025

14:14, 26 ноября 20251 минута на чтение

Трёхмерная модель кристалла: зелёные кубы — атомы/молекулы, белые линии — химические связи, образуют упорядоченную структуру.

Кодик кратко объясняет суть статьи

Яндекс и Институт ИИ МГУ представили открытый датасет LORuGEC и метод обучения нейросетей корректировке сложных правил русского языка. Датасет включает около тысячи примеров из ЕГЭ и олимпиад, размеченных экспертами-лингвистами, охватывая 48 правил, включая пунктуацию, правописание и согласование. Новый подход повышает точность исправления ошибок на 5-10%. Метод доступен для разработчиков образовательных сервисов. Результаты исследования получили награду на конференции ACL 2025.

Работает на базе Yandex AI Studio

Читайте в Telegram

Яндекс совместно с Институтом ИИ МГУ создал первый открытый датасет и метод обучения нейросетей сложным правилам русского языка. Об этом Яндекс сообщил на полях Конгресса молодых учёных.

Датасет LORuGEC содержит примеры из ЕГЭ и олимпиад с разметкой от лингвистов, что позволяет обучать нейросети точному исправлению ошибок без переписывания текста. На основе него можно создавать обучающие сервисы, которые не только исправляют текст, но и объясняют правила русского языка.

LORuGEC охватывает 48 правил русского языка, в том числе примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.

Всего в датасет вошла почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.

Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов.

Согласно внутренним тестам Яндекса, благодаря новому методу точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5. В частности, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%.

В Яндексе также сообщили, что статья о датасете и методе дообучения нейросетей получила приз за лучшую работу на воркшопе по инновационному использованию ИИ в образовании, который прошёл в рамках международной конференции по компьютерной лингвистике ACL 2025 (А*).

Теги:

Материал обновлен|14:03, 19 февраля 2026

Обсудить

OpenAI представила GPT-5.6 — но доступ пока получат не все

restore: начал продавать кастомные игровые ПК с видеокартами RTX 50

Врач объяснила, как бороться с аллергенами дома при помощи технологий

Swatch требует от Samsung $170 млн за кражу дизайна циферблатов

МВД поддержало признание использования ИИ отягчающим обстоятельством

С 1 июля сделки с недвижимостью можно будет оформлять по биометрии