«Ни у кого нет подобного продукта»: интервью с вице-президентом МТС по цифровым продуктам Максимом Лаптевым об ИИ в телефонном звонке
Читать первым в Telegram-канале «Код Дурова»
Весной МТС анонсировала несколько ИИ-сервисов и даже интеграцию ИИ-помощника Марвина непосредственно в телефонный звонок.
По задумке МТС, он будет отвечать на бытовые вопросы вроде прогноза погоды, подсказывать адреса ближайших магазинов или кафе, фиксировать поручения и напоминать о чём-то важном прямо во время обычного диалога по телефону.
Звучит это всё крайне интересно, но и вопросов вызывает немало. Мы решили их задать Максиму Лаптеву, вице-президенту МТС по цифровым продуктам.
— На конференции «МТС Платформа» ваши коллеги рассказали о весьма любопытных планах — внедрить ИИ-помощника Марвина прямо в телефонные звонки. Расскажите, как в МТС пришли к идее этого продукта, что будет уметь Марвин на старте и когда планируется релиз?
— Голосовая связь — это один из главных сервисов экосистемы МТС, в котором ежедневно миллионы наших пользователей взаимодействуют друг с другом. В какой-то момент мы задали себе вопрос: может ли Марвин жить в рамках этого сервиса? Провели ряд исследований, чтобы понять, какие задачи пользователей он сможет решать. Результаты показали, что во время разговора люди чаще всего отвлекаются на бытовые истории: какая сейчас погода, какой фильм посмотреть. И это только небольшая часть вопросов, с которой Марвин уже справляется.
Главная задача ассистента — помогать, поэтому он будет фиксировать поручения, напоминать и многое другое.
В настоящее время идет альфа-тестирование продукта, а коммерческий релиз запланирован на осень. Отмечу, что МТС первая компания, которая предлагает голосовое управление ассистентом во время диалога и внедряет технологию AI прямо в звонок. Надеемся, что наш новый продукт сможет улучшить опыт обслуживания для всех пользователей, и мы стараемся запустить его как можно скорее.
— Казалось бы, если оператор технически может это реализовать на своей стороне, неужели никто этого не сделал даже за пределами России? Ведь голосовые ассистенты в том или ином виде существуют на смартфонах как минимум лет десять.
— Ещё на подготовительном этапе мы исследовали как российский, так и международный опыт. Поняли, что ни у кого нет подобного продукта. В какой-то степени это даже простимулировало команду работать быстрее.
Всё-таки в телекоме уже давно не было прорывных продуктов, а такой продукт как Марвин может очень сильно всё изменить. Для нас это особая ответственность, как для первопроходцев.
— Безусловно, важный вопрос при любой интеграции в телефонный звонок да и в любую коммуникацию между людьми — это безопасность и приватность? Как в МТС планируют решать этот вопрос, учитывая, что ИИ будет в той или иной степени прослушивать вызов?
— Что касается приватности, то мы и так храним все ваши секреты и обеспечиваем тайну связи. Информация не выходит за пределы инфраструктуры, обеспечивающей тайну связи. В России очень серьёзные требования от различных регуляторов, и мы их исполняем. Уверяю, что в этой части после появления Марвина в звонках абсолютно ничего не изменится. На первом этапе Марвин будет слушать диалог в одностороннем порядке, а именно владельца услуги.
— В чём, по вашему мнению, будет главная фишка Марвина по сравнению с другими популярными голосовыми ассистентами?
— Классный вопрос. Давайте объясню, как это работает. Если вы привыкли, что у вас дома стоит колонка, то без Wi-Fi или при плохом интернет-соединении она не работает. Наше же решение работает по другому принципу. Марвин никак не зависит от интернета и качества его работы. Он живет в голосовом канале, который всегда стабилен и имеет широкое покрытие, в то время как интернет-соединение может прерываться в подвальных помещениях, либо отсутствовать в труднодоступных местах.
Получается, что Марвин в отличие от других голосовых ассистентов, будет доступен практически везде, даже при звонке с Nokia 3310 на городской телефон.
— Сколько при такой реализации будет «думать» ИИ-помощник перед тем, как дать ответ? У текущих голосовых ассистентов с этим бывают некоторые проблемы.
— Несмотря на то, что сейчас есть незначительная задержка в реакции ассистента, она связана со скоростью работы компонентов ИИ, и мы знаем, как сделать так, чтобы её полностью устранить, чтобы максимально приблизить общение с ассистентом к реальному времени.
— Марвин будет жить только в голосовом канале МТС?
— Не только. Мы хотим, чтобы Марвин стал помощником для наших пользователей и других сервисов экосистемы. Уже летом мы запустим открытый пилотный проект. Совсем скоро мы расскажем об этом подробно.
— Какие ещё полезные функции планируются у Марвина?
— Например, в будущем планируем внедрить в Марвина функцию переводчика в реальном времени. Давайте на секунду представим, что вы занимаетесь бизнесом и вам надо звонить в разные страны. Вы плохо знаете иностранный язык или не знаете его вовсе, и здесь вам поможет Марвин. Он будет мгновенно переводить речь собеседника. Также выделять ключевые моменты разговора и выводить их на экран и многое другое.
— Будет ли Марвин по умолчанию включен у всех пользователей? Или его необходимо будет подключить, возможно, за дополнительную плату?
— Решение о включении этой услуги будет принимать сам абонент. На первом этапе функция будет доступна бесплатно.
— Планируете ли в будущем предоставлять доступ к Марвину абонентам других операторов?
— На текущий момент не планируем, но, конечно же, рассматриваем такую возможность в будущем.
— Во время конференции также был продемонстрирован кейс применения МТС Защитника против мошенничества — «защитник» включился в диалог прямо во время общения. Как и в случае с Марвином, у нас возник вопрос о приватности. Каким образом «защитник» понимает контекст диалога? Он его тоже «прослушивает»?
— Давайте начнём по порядку. За день до нашей конференции «МТС Платформа» была конференция компании Google, где они представили своё решение. В момент звонка оно анализирует разговор и в случае подозрения на мошенничество тут же предупреждает об этом пользователя. В открытом доступе оно появится позже в обновленной версии Android и на английском языке. У нас уже есть такое решение. Оно называется «Безопасный звонок». Как и Марвин, оно будет доступно для всех абонентов. Но не только тех, кто использует смартфоны, но даже кнопочные телефоны.
Что касается приватности в «Безопасном звонке» скажу так: чтобы понять, кто с вами говорит, мы анализируем разговор пользователя, от которого исходит звонок, а также несколько десятков различных параметров в режиме онлайн, и по совокупности полученных данных формируем «скор» этого события и далее уже предупреждаем нашего пользователя о потенциальной опасности, если необходимый для модели «скор» был преодолен. Саму модель обучали с помощью языковых моделей, использовали как in-house, так и open source решения. На текущий момент у нас проходит закрытый тест внутри компании, и мы видим высокие результаты как по качеству моделей, так и по отзывам от коллег. В ближайшее время планируем завершить тесты и предоставить возможность подключиться всем нашим клиентам.
Сервис будет работать с разрешения пользователя, мы как оператор в данном случае выступаем в качестве представителя абонента и по его поручению обрабатываем на предмет поиска мошенников технические параметры звонка с помощью технологий искусственного интеллекта без участия человека. Анализ производится в контуре МТС без доступа третьих лиц.
— Ещё один кейс применения ИИ во время звонка — это общение через сообщения: когда пользователю кто-то звонит, но ему неудобно говорить, абонент общается посредством конвертации речи звонящего в текст на смартфоне и обратно. Во время презентации нам показали демонстрацию с несуществующим интерфейсом iOS. Подскажите, как в действительности это будет работать?
— Спасибо за внимательность. Это действительно был прототип интерфейса. Мы планируем дать возможности использовать удобное кроссплатформенное решение на iOS и Android, которое выберет сам пользователь. Функциональность будет доступна как в приложении «Мой МТС», так и в популярных мессенджерах.
— Во время такого диалога очень важна скорость ответа. Какая скорость обработки голоса, отправки абоненту и затем создания на основе сообщения абонента голоса и его воспроизведения? Скорее всего такая структура задействует большие ресурсы. Как вы планируете оптимизировать расходы на такие уникальные для рынка фишки?
— Безусловно, во время диалога важна скорость взаимодействия. Наша цель — максимально приблизить опыт общения через этот сервис к опыту реального разговора двух людей. К моменту релиза продукта мы оптимизируем все задержки, которые могут возникать при передаче данных. Например, слова, произнесённые пользователем, будут появляться на экране в реальном времени, ещё до того, как говорящий закончил предложение целиком.
Если говорить с точки зрения затрат ресурсов, то мы не фокусируемся на оптимизации оборудования, для нас это не проблема, так как мы являемся крупнейшим провайдером облачной инфраструктуры. Нам важно сделать качественный продукт, чтобы в дальнейшем успешно его масштабировать.
— Заключительный вопрос: будет ли выбор, каким голосом будет говорить Марвин? Если да, то сколько голосов будет доступно?
— Сейчас у нас уже есть три голоса, но, конечно же, мы хотим расширять этот список. Мы тестируем гипотезы в поисках ответа на вопрос: а что же хочет пользователь? Скажу точно, что будет возможность кастомизировать голоса, ну а в перспективе появится возможность создавать голос, похожий на ваш. Впрочем, совсем скоро вы и сами сможете во всём убедиться.