26 ноября 2025

eur = 90.97 -0.40 (-0.43 %)

btc = 87 448.00$ - 701.73 (-0.80 %)

eth = 2 942.11$ 14.42 (0.49 %)

ton = 1.56$ 0.04 (2.69 %)

usd = 78.96 0.04 (0.05 %)

eur = 90.97 -0.40 (-0.43 %)

btc = 87 448.00$ - 701.73 (-0.80 %)

Нейросети смогут грамотнее писать на русском языке благодаря исследователям МГУ и Яндекса

1 минута на чтение
Нейросети смогут грамотнее писать на русском языке благодаря исследователям МГУ и Яндекса

ГигаЧат кратко объясняет суть статьи

Яндекс и Институт ИИ МГУ представили открытый датасет LORuGEC и метод обучения нейросетей корректировке сложных правил русского языка. Датасет включает около тысячи примеров из ЕГЭ и олимпиад, размеченных экспертами-лингвистами, охватывая 48 правил, включая пунктуацию, правописание и согласование. Новый подход повышает точность исправления ошибок на 5-10%. Метод доступен для разработчиков образовательных сервисов. Результаты исследования получили награду на конференции ACL 2025.

Яндекс совместно с Институтом ИИ МГУ создал первый открытый датасет и метод обучения нейросетей сложным правилам русского языка. Об этом Яндекс сообщил на полях Конгресса молодых учёных.

Датасет LORuGEC содержит примеры из ЕГЭ и олимпиад с разметкой от лингвистов, что позволяет обучать нейросети точному исправлению ошибок без переписывания текста. На основе него можно создавать обучающие сервисы, которые не только исправляют текст, но и объясняют правила русского языка.

  • LORuGEC охватывает 48 правил русского языка, в том числе примеры с неверной пунктуацией в сложноподчинённых предложениях, ошибки в слитном и раздельном написании слов с «не», а также в согласовании сказуемого и подлежащего в сложных предложениях.
  • Всего в датасет вошла почти 1000 предложений, каждое из которых связано с конкретной языковой нормой.
  • Датасет и метод обучения выложены в открытый доступ, поэтому исследователи и разработчики могут использовать их, например, для создания образовательных сервисов для школьников и студентов.
Согласно внутренним тестам Яндекса, благодаря новому методу точность исправлений сложных ошибок выросла на 5–10% по метрике F0,5. В частности, точность YandexGPT 5 Pro достигла 83%, а YandexGPT 5 Lite — 71%.

В Яндексе также сообщили, что статья о датасете и методе дообучения нейросетей получила приз за лучшую работу на воркшопе по инновационному использованию ИИ в образовании, который прошёл в рамках международной конференции по компьютерной лингвистике ACL 2025 (А*).

Теги:

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от ГигаЧат 
1-bg-изображение-0
img-content-1-изображение-0

ГигаЧат: коротко о главном

Как изменился Код Дурова вместе с ГигаЧат?

Узнай о всех возможностях в FAQ-статье 
Нейросети смогут грамотнее писать на русском языке благодаря исследователям МГУ и Яндекса

ГигаЧат: коротко о главном

Нейросети смогут грамотнее писать на русском языке благодаря исследователям МГУ и Яндекса

Полная версия 
Слух: Google заменит ChromeOS на новую систему Aluminium OSСлух: Google заменит ChromeOS на новую систему Aluminium OS

ГигаЧат: коротко о главном

Слух: Google заменит ChromeOS на новую систему Aluminium OS

Полная версия 

Реализовано через ГигаЧат 

Сейчас читают
Цифра в деле
Цифра в деле
Смотреть
Реклама. ПАО Сбербанк. erid: 2Vtzqv3u7MN
Карьера
Блоги 454
Т-Банк
OTP Bank
Газпромбанк
билайн
МТС
X5 Tech
Сбер
Яндекс Практикум
Ozon Tech
Циан

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы