Синтезированные голоса давно звучат из навигационных систем, умных гаджетов и в видеоконтенте. Но с внедрением различных подходов, которые ранее использовались для работы с языковыми моделями, технологии синтеза речи совершили настоящий скачок.
Теперь современные речевые модели не просто механически воспроизводят текст — они учатся передавать эмоции и звучать естественно во время диалогов с пользователями. Руководитель команды RnD синтеза речи Яндекса Владислав Батаев рассказал «Коду Дурова», что стоит за прогрессом в качестве синтезированной речи и что ждёт нас в будущем.
Технологии, которые научили машины слушать и отвечать
Речевые технологии — это системы, которые позволяют компьютеру понимать речь человека и отвечать ему голосом с опорой на его запрос и контекст. Общение с Алисой, навигатором или Google Assistant, использование умных голосовых секретарей для звонков и просмотр YouTube-видео с функцией голосового перевода стали возможными благодаря развитию этого класса технологий.
К ним относятся две важные группы. Первая, Automatic Speech Recognition (ASR), отвечает за распознавание речи человека и превращает её в текст, который затем трансформируется в последовательность цифр, понятных машине. Другой стек, технологии Text-to-Speech (TTS), синтезируют речь, то есть озвучивают ответ машины человеку. Для этого системы обучают на больших объёмах аудиоданных — датасетах.
Однако чтобы машина озвучивала свои ответы естественным образом, ей необходимо не только произнести слова в правильной последовательности, но и учесть то, как она должна их произнести: где поставить ударения, какую выбрать интонацию и не забыть про ряд других аспектов, характерных для человеческой речи. Именно этот процесс за последние пару лет претерпел значительные изменения.
Когда роботы ещё звучали как роботы
Первое поколение систем синтеза речи обучалось на ограниченных наборах данных и применялось в основном для создания голосов умных помощников. Для этого компании-разработчики, в том числе и мы, приглашали профессиональных дикторов. Обычно это были актёры дубляжа, которые записывали в студии несколько десятков часов чистой речи.
Специфика заключалась в том, что дикторов просили говорить нейтрально, без эмоций, чтобы их голоса могли звучать уместно в любом контексте. Из-за этого речь звучала достаточно плоско и монотонно. Обученные на таких датасетах модели создавали голоса, которые звучали приятно, но быстро становились предсказуемыми в интонации. Это в малой степени сказывалось на восприятии коротких ответов умных помощников, но могло быть утомительным для пользователей при длительном прослушивании.
Прорыв: больше данных, живые интонации и более естественная речь
Поворотным моментом в развитии технологий синтеза речи стало изменение подхода к обучению моделей. С внедрением подходов из LLM изменились требования к датасетам: если раньше было достаточно относительного небольшого количества записей нейтральных по звучанию голосов, то новые архитектуры требовали масштаба и разнообразия. Чтобы голоса звучали более естественно, модели начали обучать на огромных объемах естественной речи с различной интонацией, эмоциями, темпом и тембром. Теперь размеры моделей насчитывали не просто сотни миллионов, а миллиарды параметров — это характерно, например, для GPT и других крупных систем.
LLM позволили активнее развиваться мультимодальности — способности моделей работать сразу с несколькими типами данных. Современные нейросети умеют анализировать и генерировать не только текст, но и звук, включая тембр, ритм и эмоциональную окраску, но так было не всегда.
На этом этапе развития задача тех же голосовых ассистентов изменилась: теперь они должны были не просто механически озвучить пользователю свой ответ, а понять контекст запроса, распознать интонационные акценты, а в своём ответе — ещё и расставить паузы и логические ударения. В отличие от ранних «односторонних» систем, которые просто зачитывали свои фразы, новые модели адаптируются под контекст и звучат живо.
Теперь голосовые интерфейсы становятся всё более «живыми» — они умеют делать паузы, расставлять смысловые акценты и говорить с интонацией, похожей на нашу. Некоторые системы, такие как голосовой режим ChatGPT, даже способны реагировать на ситуации, когда пользователь перебивает их речь, что делает общение с системой более естественным. Такие возможности достигаются за счёт сочетания продвинутых языковых моделей, систем распознавания речи и нейросетевого синтеза.
Все эти изменения приблизили машины к действительно естественной речи, для которой характерен не только смысл текста на уровне слов, но и то, как он сказан. Более того, они повлияли не только на прогресс в развитии голосовых помощников, но и ряда других сервисов, работа которых основана на LLM.
Как технологии моментально переводят и озвучивают иностранную речь
Одна из ключевых инноваций, которая стала доступной благодаря прорывам в области технологий синтеза речи последних трёх лет — способность нейросети анализировать все параметры голоса по короткому аудиофрагменту (аудиопромпту) и синтезировать максимально похожие параметры интонации, тембра, ритма и использовать для дальнейшей озвучки текста. Благодаря этому модели теперь не просто озвучивают фразы, а на лету меняют язык, передавая при этом оригинальные интонации голоса.
Благодаря этому нам удалось учесть пожелания пользователей наших сервисов и создать функцию дубляжа зарубежных блогеров, комиков, актёров и других героев видеоконтента в озвучке, приближенной к оригиналу. И теперь то, что ещё недавно казалось фантастикой, доступно в «Яндекс Браузере».
Однако никакой фантастики здесь нет. Чтобы озвучка была похожей на оригинал и повторяла тембр и интонацию, для синтеза речи мы используем каскад моделей — последовательную работу алгоритмов машинного обучения.
Как модели учатся на лету перенимать интонацию и тембр иностранных спикеров
Сначала система обрабатывает исходную аудиодорожку: ASR распознаёт речь, разбивает её на смысловые фрагменты и определяет, кто и что говорит. Затем текст переводится на русский язык с помощью YandexGPT 5. Отдельная модель преобразует его в универсальные фонемы, чтобы машина правильно интерпретировала сказанное: например, в тех случаях, когда речь идет об омонимах: «замок» (здание) и «замок» (механизм).
Параллельно модель анализирует голос спикера, выделяя уникальные характеристики: тембр, интонацию, высоту голоса и эмоциональную окраску. Эти данные кодируются в числовое представление.
На этапе синтеза речи система объединяет обработанный текст с данными о голосе спикера. В финале ключевую роль играет аудиопромпт — фрагмент оригинального аудио, который помогает модели синтеза речи точнее передать оригинальное звучание голоса. Дополнительно модель корректирует акцент, если человек говорил на другом языке. Наконец, перед тем, как аудио услышит пользователь, оно проходит финальную очистку и проверку.
Кое-что модели по-прежнему не умеют
Несмотря на значительный прогресс, мы всё ещё сталкиваемся с трудностями при работе с технологиями синтеза голоса. Чаще всего проблемы связаны с теми аспектами звучания речи, которые редко встречаются в данных для обучения или сложно поддаются объяснению машине.
Например, наша модель пока всё ещё не очень хорошо справляется с пением, где диапазон голоса охватывает несколько октав, или с шёпотом. Также могут возникать сложности с нестандартно высокими или низкими голосами, из-за чего высокий мужской голос может быть воспринят как женский, и наоборот. Мы активно работаем над этим, поэтому есть все шансы, что и эти недостатки исчезнут в ближайшем будущем.
Что дальше: голос, который передаёт драматургию
Технологии синтеза речи уже научились передавать голос так, что его сложно отличить от настоящего. Сейчас система умеет переносить общий тембр и интонацию оригинального голоса — то есть, она «звучит похоже». Следующая цель — научить её передавать нюансы: учитывать, где именно человек делает паузу, на каком слове делает смысловой акцент.
Ещё одно направление — это перевод видео в любой тематике, включая самые сложные случаи. Технология в будущем должна будет уметь справляться не только с техническими или нейтральными текстами, но и с живой, насыщенной речью, где есть эмоции, напряжение, драматургия.
Наконец, мы работаем над тем, чтобы ускорить генерацию речи. Сейчас озвучка двухчасового видео занимает 10–15 минут, но хотелось бы ускорить этот процесс. Цель — сократить время примерно до 1 минуты.
Всё это — шаги к будущему, где синтезированная речь позволит не просто озвучивать текст, а будет по-настоящему звучать — реагировать, чувствовать ритм общения и станет естественной частью живого диалога между человеком и машиной.
Читать первым в Telegram-канале «Код Дурова»