Американский стартап с восточноевропейскими корнями Myna Labs, специализирующийся на создании голосовых и видео дипфейков, обучил нейросеть синтезировать треки с голосом и интонацией российского рэпера Мирона Фёдорова (Oxxxymiron).
Первый трек «Нейромирона» приурочен выходу нового альбома исполнителя, релиз которого состоится 1 декабря. Об этом «Коду Дурова» рассказал один из разработчиков Myna Labs Александр Мамаев.
Александр отметил, что для создания «Нейромирона» пришлось скачать все треки рэпера, «вычистить» из него биты, а затем сопоставить тексты и треки посекундно, чтобы обучить нейросеть читать рэп, опираясь на стиль «Оксимирона».
При этом текст был написан человеком. На вопрос «Кода Дурова» о том, почему его не сгенерировала нейросеть, Александр пояснил, что команда пыталась делать тексты генерацией, однако они получались «малоосмысленными»:
Пока сложно обучить нейросеть делать двойные рифмы так, чтобы их ещё кто-то «выкупал», — добавил разработчик.
Команда Myna Labs создала «Нейромирона» для демонстрации текущих возможностей нейросетей и не планирует выкладывать модель в открытый доступ:
Пока конкретно «Окси» — это закрытая история, так как его голос мы собрали буквально за несколько дней на основе имеющихся технологий. В основном мы работаем с английской разговорной речью, поэтому звук Мирона может звучать местам хрипло и не естественно, — объяснили в компании.
Однако в Myna Labs обещают доработать технологию таким образом, чтобы «в руках любого пользователя получался максимально качественный контент».
Читать первым в Telegram-канале «Код Дурова»