Компания «Яндекс» активно занимается разработкой новой нейросетевой модели SpeechGPT, способной одновременно обрабатывать текст и звук.
Об этом стало известно благодаря информации в разделе вакансий компании, на что указывает издание «Ъ». Вакансия предусматривает привлечение инженера в области машинного обучения, который будет работать над мультимодальной моделью. Эта технология позволяет воспринимать и отвечать как в текстовом, так и в аудиоформате, обеспечивая решение различных задач, связанных с обработкой данных.
На данный момент в «Яндексе» уточнили, что работа над мультимодальностью ведется в рамках существующих сервисов, включая голосового ассистента «Алиса». Вопрос о новой модели SpeechGPT пока остается без ответа.
Применение нейросетевых сервисов «Яндекса», таких как «Алиса», уже демонстрирует возможности взаимодействия как с голосовыми, так и с текстовыми запросами. В последнее время функционал таких сервисов расширяется: например, сервис Yandex SpeechSense, изначально предназначенный для анализа работы колл-центров, теперь может обрабатывать текстовые сообщения.
Особенность мультимодальных моделей, по словам экспертов, заключается в их способности обрабатывать информацию в режиме реального времени без необходимости преобразования данных из одного формата в другой, что значительно ускоряет и упрощает обработку запросов.
Мультимодальные модели также расширяют возможности использования речевых технологий, упрощая доступ к ним и объединяя различные технологические процессы в один интерфейс. Это открывает новые горизонты для развития речевых интерфейсов и делает их использование более удобным и эффективным для широкого круга задач.
Читать первым в Telegram-канале «Код Дурова»