Нейросети смогут грамотнее писать на русском языке благодаря исследователям МГУ и Яндекса

ГигаЧат кратко объясняет суть статьи
Яндекс и Институт ИИ МГУ представили открытый датасет LORuGEC и метод обучения нейросетей корректировке сложных правил русского языка. Датасет включает около тысячи примеров из ЕГЭ и олимпиад, размеченных экспертами-лингвистами, охватывая 48 правил, включая пунктуацию, правописание и согласование. Новый подход повышает точность исправления ошибок на 5-10%. Метод доступен для разработчиков образовательных сервисов. Результаты исследования получили награду на конференции ACL 2025.
Яндекс совместно с Институтом ИИ МГУ создал первый открытый датасет и метод обучения нейросетей сложным правилам русского языка. Об этом Яндекс сообщил на полях Конгресса молодых учёных.
Датасет LORuGEC содержит примеры из ЕГЭ и олимпиад с разметкой от лингвистов, что позволяет обучать нейросети точному исправлению ошибок без переписывания текста. На основе него можно создавать обучающие сервисы, которые не только исправляют текст, но и объясняют правила русского языка.
- LORuGEC охватывает 48 правил русского языка, в том числе примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.
- Всего в датасет вошла почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.
- Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов.
Согласно внутренним тестам Яндекса, благодаря новому методу точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5. В частности, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%.
В Яндексе также сообщили, что статья о датасете и методе дообучения нейросетей получила приз за лучшую работу на воркшопе по инновационному использованию ИИ в образовании, который прошёл в рамках международной конференции по компьютерной лингвистике ACL 2025 (А*).
Читать первым в Telegram-канале «Код Дурова»




























































