Большая языковая модель YandexGPT подготовила эталонные примеры текстов, на которых обучили нейросеть в Яндекс Переводчике, сообщили в пресс-службе Яндекса.
Это позволило сервису точнее понимать контекст, распознавать фразеологизмы и ориентироваться в профессиональной лексике. Он лучше справляется с длинными и сложными текстами, лучше определяет взаимосвязи внутри предложений и между ними.
Также выросло качество перевода статей узконаправленной тематики:
![](https://i.kod.ru/rs:fill/w:736/q:85/plain/https%3A%2F%2Fkod.ru%2Fcontent%2Fimages%2F2024%2F06%2F2.png)
Например, сервис теперь поймёт по контексту, что речь идёт о языке программирования или фондовом индексе, и оставит их названия без перевода.
Обновлённая технология используется для перевода текстов с английского на русский язык в Яндекс Переводчике, Поиске, а также в переводе видео в Браузере.
- Технологию машинного перевода Яндекс мспользует на основе нейросетей с 2018 года. Нейросеть в Переводчике обучалась только на парах текстов — оригиналах и их переводе на другой язык.
- Так она училась видеть взаимосвязи между ними и подражать им.
- Нейросеть, работающая в сервисе, легковесная: это позволяет ей справляться с большим количеством пользовательских запросов в реальном времени.
Большая языковая модель YandexGPT способна генерировать сложные, лексически и стилистически разнообразные тексты, в том числе со специфической терминологией. Поэтому компания использовала её потенциал для создания эталонных примеров, чтобы расширить датасет и повысить его качество. Так нейросеть в Переводчике не утратила скорость своей работы, но стала умнее.
Яндекс заявил, что для генерации эталонных обучающих примеров компания разработала специализированную модель семейства YandexGPT, адаптировав её под задачи перевода:
![](https://i.kod.ru/rs:fill/w:736/q:85/plain/https%3A%2F%2Fkod.ru%2Fcontent%2Fimages%2F2024%2F06%2F3.png)
Сначала модель во время этапа pretraining проанализировала множество текстов на английском и русском языках и изучила правила лексики, морфологии и синтаксиса. Следующим этапом шла тонкая настройка языковой модели (supervised finetuning) под задачи перевода. Затем на этапе reinforcement learning AI-тренеры оценивали качество перевода YandexGPT и ранжировали её ответы от лучших к худшим.
Компания утверждает, что работу дообученной нейросети в Переводчике оценивали методом Side by Side (SbS). Асессоры, владеющие русским и английским, сравнивали пары длинных и сложных текстов, переведённых при помощи двух версий технологии, и выбирали лучший вариант:
- В 57% случаев новая версия справлялась лучше.
Заглавное изображение: Яндекс