Читать первым в Telegram-канале «Код Дурова»
Amazon разработала мультиязычную систему транслитерации имён с машинным обучением, позволяющую преобразовать имя с одного языка на другой и упрощающую таким образом голосовой поиск данных. В базе содержится почти 400 000 имён на арабском, английском, русском, японском языках и иврите.
Для создания системы компании потребовалось собрать большой массив информации, который включает пары имён на разных языках. Для этого разработчики использовали Викиданные, Википедию и другие ресурсы Викимедиа. С помощью полученной базы специалисты обучали несколько систем искусственного интеллекта, применяя традиционные подходы и нейросети, которые обеспечили высокие результаты машинного перевода. Программный код, наборы данных и скрипты опубликованы на GitHub.
Точность работы системы транслитерации Amazon зависит от конкретной языковой пары. К примеру, преобразование с английского в русский с большей вероятностью обеспечит правильный результат, так как алфавиты этих языков похожи. Сложнее будет превратить в английскую версию имя, произнесённое на иврите.
Источник: tproger.ru
Подписывайтесь на «Код Дурова» в Telegram и во «ВКонтакте», чтобы всегда быть в курсе интересных новостей!