«Помощников много не бывает»: лучшие голосовые ассистенты для русскоязычных пользователей
Читать первым в Telegram-канале «Код Дурова»
Содержание
Голосовые виртуальные ассистенты на сегодняшний день, кажется, уже стали обыденностью для каждого из нас. Но они только начинают свой путь, и уж точно нет предела совершенству в развитии для каждого из присутствующих на рынке.
Их становится всё больше — куда ни глянь, голосового помощника можно встретить в банковских приложениях, сервисах, браузерах, устройствах умного дома и не только. Сегодня разберём лучших ассистентов для русскоязычной аудитории. Список последовательно отсортирован от менее подходящих до самых достойных и перспективных помощников.
Ассистент от Google — хорошо, но не для нас
Преимущества: большое количество совместимых устройств, точные ответы, встроенный переводчик, отправка сообщений в мессенджеры, хорошего качества поиск заведений и тесная работа с картами
Недостатки: слабая адаптация под русскоязычную аудиторию, заключающаяся в отсутствии фишек, которые доступны только в США
Google Ассистент — один из старожилов на современном рынке голосовых виртуальных помощников. Он был представлен 18 мая 2016 года в качестве преемника персонализированного сервиса Google Now.
История и возможности. Задолго до релиза Google Ассистента компания успела интегрировать голосовой поиск в браузер. В это время, в 2012 году Samsung выпускает S Voice, а через пару лет на рынке появляются Cortana от Microsoft и Alexa от Amazon. S Voice всё же прекратил свою работу летом 2020 года, а последние два голосовых помощника под российский рынок так и не адаптировались.
Не сказать, что Google Ассистент максимально подходит для российских пользователей, хотя поддержку того же русского языка он получил спустя пару лет после запуска. Он помогает открывать любой сайт, включать музыку и видео, вызывать контакты, переводить фразы, узнавать прогноз погоды, отправлять сообщения в мессенджеры.
А ещё можно планировать события, находить заведения и выстраивать до них маршрут. Не обходится и без работы с различными устройствами умного дома. Это могут быть лампочки, кондиционеры, пылесосы, кухонные устройства, телевизоры, стиральные машины, холодильники, духовки и даже авто.
Перспективы. Google Ассистент больше подходит американскому рынку — там с его помощью можно заказывать еду на дом, покупать билеты или бронировать столик. К сожалению, его примитивность кроется в мелочах, порой может даже сложиться ощущение, помощник от Google «совсем как не живой».
Разумеется, Google стремится к «человечности», чтобы, когда ассистент в телефонном разговоре записывал человека на стрижку, администратор даже не понимал, что общается с роботом. В любом случае, со своей главной обязанностью — помогать — Google Ассистент справляется на ура. Это неплохой вариант для Android-пользователей, но в России можно найти и более продвинутого помощника.
Siri от Apple — придётся переходить на «яблочную» сторону
Преимущества: приятный дизайн, интеграция с сервисом Shazam, работа с картами, запоминание места парковки, можно звонить людям, читать и отправлять сообщения, планирование дня по советам
Недостатки: доступность только для техники компании Apple
Сегодня Siri живёт во всех операционных системах Apple. Многие забывают, что изначально это была разработка Siri Inc., планировавшей выпускать ассистента на телефоны BlackBerry и Android-смартфоны. Правда, 28 апреля 2010 года после покупки Siri купертиновцами планы отменились.
История. Siri являлась проектом Международного центра искусственного интеллекта SRI. Разработка стартовала в декабре 2007 года, позднее появились инвесторы, вложившие в проект 8,5 млн долларов в октябре 2008 года и ещё 15,5 млн в ноябре 2009 года.
Развитие Siri было постепенным и сложным: всё начиналось с реализации диалога и понимания естественного языка, внедрения машинного обучения, попыток выстраивания очевидного и вероятного рассуждения. В целом, в наследство Apple отчасти взяла, только вдумайтесь, результат 40-летних исследований отдела SRI International.
Голос первой версии Siri для американцев записала актриса по озвучиванию Сьюзан Беннет. Интеграция в iOS была продолжительной: только к запуску iOS 7 и выходу iPhone 5S она стала вполне функциональной, и даже обрела возможность выбора между мужским и женским голосом.
Перспективы и возможности. До анонса iOS 14 абсолютно точно можно было называть Siri довольно примитивной из-за небольшого количества команд и медленной работой. В России Siri полноценно заговорила на русском в iOS 8.3. С лета 2016 года сторонние разработчики получили возможность добавлять к Siri функциональность. Но и это не придавало ей потенциал.
Произошло чудо: в 2020 году она стала знать в 20 раз больше фактов, чем за три года до этого, а задержка ответов на быстрые вопросы значительно сократилась. А ещё Siri научилась читать и отправлять сообщения в мессенджеры без необходимости их запуска. В целом, функциональность стала обширной — Siri может позвонить кому-то, прочитать сообщение, настроить будильники, таймеры и напоминания, узнать маршруты, найти музыку, ответить на вопросы, открыть фото, презентации и даже спланировать день.
Есть ощущение, что Apple явно намерена догнать упущенное и преуспеть. Кстати, в отдельном материале мы собрали 13 полезных команд этому голосовому ассистенту.
Салют от Сбера — одно сердце, но несколько личностей
Преимущества: разнообразие ассистентов в рамках одного проекта, наличие собственного магазина приложений, распознавание одежды героев фильмов, гибкое управление финансовыми вопросами
Недостатки: пока ещё ограниченное число сторонних продуктов, поддерживающих Салют
Сбер ворвался на этот рынок лишь 24 сентября 2020 года, представив Салют — целое семейство голосовых ассистентов с разными голосами и индивидуальными чертами характера. Они носят такие имена: Сбер, Афина и Джой.
История и возможности. Cбер, Афина и Джой способны на многое, так как работают при помощи самого мощного в России суперкомпьютера Сбера «Кристофари». Ассистенты умеют переводить деньги, оплачивать мобильную связь, заказывать еду, записывать в салон красоты или к врачу.
Кроме того, они способны инициировать видеозвонок, включать фильм или музыку, узнавать какую-то информацию и выдавать персонализированные ответы. А ещё семейство Салют умеет распознавать одежду героев фильмов и даже может предлагать купить оригинал или аналог во время просмотра.
Важно то, что голосовые помощники любят интересоваться вкусами, предпочтениями и фактами из жизни человека. Это позволяет им побольше узнавать человека, чтобы использовать знания при последующем общении. Помимо речи с уникальными эмоциями ассистенты распознают жесты.
Перспективы. Первыми продуктами стороннего бренда, который работает с Салютом, стали телевизоры Honor. К концу апреля 2021 года голосовые помощники Салют научились проводить анализ расходов клиента банка, рассказывать о том, сколько всего средств, отслеживать установленный бюджет, предлагать инструменты инвестирования и даже консультировать по паевым инвестиционным фондам.
Система нейросетевого синтеза речи является собственной разработкой Сбера, основанной на рекуррентно-свёрточной архитектуре Tacotron/Tacotron-2. Ассистенты способны определять интонации и эмоциональный окрас речи. При подготовке ответа на запрос используется генеративная нейросетевая модель, позволяющая складывать новые предложения. Всё это без сомнений говорит о высокотехнологичном курсе Салюта.
Маруся от Mail.Ru — твой близкий друг в твоём кругу
Преимущества: возможность запоминать нужные пользователю фразы по типу кода от подъезда, умение рассказывать интересные факты, сказки и стихи, в том числе с дополненной реальностью,
Недостатки: пока ещё недостаточное количество разнообразных продуктов, работающих с Марусей
17 июня 2019 года Mail.Ru Group запустил Марусю с голосом актрисы дубляжа Елены Соловьёвы, которая озвучивала роботов в фильме «Бегущий по лезвию», мультфильме «Роботы», а также сериалы «Любовь, смерть и роботы». На разработку потратили 2 млн долларов.
История и возможности. Маруся умеет отвечать на вопросы, выполнять поручения, узнавать новости и делиться забавными фактами. Её можно попросить включить музыку или радиостанцию, узнать цену билета или прогноз погоды. А ещё она может ответить на различные вопросы и рассказать, что сейчас идёт в кино.
Кроме того, Марусю научили управлять видеосервисом Wink и облачной платформой «Умный дом», которая объединяет в себе умные розетки, лампочки и бытовую технику, а также видеонаблюдение, комплекты для безопасности в виде датчиков движения, протечки, задымления, открытия дверей и окон.
Маруся умеет играть в викторину, рассказывать стихи и сказки, в том числе с дополненной реальностью, а также ставить музыку из соответствующих детских плейлистов.
Перспективы. Мы уже рассказывали о том, как живёт Маруся в «Капсуле». Ознакомиться можно в нашем отдельном обзоре. Марусю помогала озвучивать актриса Елена Соловьёва, известная по голосу Керри-Энн Мосс и Джулианны Мур в российском дубляже. Ассистент, правда, всё равно звучит как-то слишком роботизированно.
С 2021 года появилась возможность собственноручного обучения Маруси новым возможностям при помощи конструктора Aimylogic от Just AI. А ещё она всё глубже интегрируется в различные сервисы. Например, скоро Марусю добавят в приложение ВКонтакте. Это говорит о том, что её будущее выглядит многообещающе.
Олег от Тинькофф — кто бы не хотел себе финансового помощника?
Преимущества: гибкое управление финансовыми вопросами, консультации, финансовые советы и лайфхаки, идентификация голоса клиента, доступность в мобильном операторе и клиентском колл-центре
Недостатки: часто не понимает, чего хочет пользователь, пока ещё ограниченное число сторонних продуктов, поддерживающих Олега
Олег появился 13 июня 2019 года — он стал первым в мире голосовым ассистента в сфере финансов и лайфстайл-услуг. Его презентовали в качестве отличного помощника в приложении Тинькофф, решающего задачи, касающиеся экосистемы банка и не только.
История и возможности. Ассистент говорит голосом российского актёра кино и дубляжа Никиты Прозоровского, который озвучивал несколько сотен культовых фильмов, сериалов и компьютерных игр. В обучении голосового помощника принимает участие мощный суперкомпьютер Тинькофф — Кластер «Колмогоров».
Суперкомпьютер позволяет быстрее обучать нейросетевые модели для распознавания речи, синтеза речи, обработки естественного языка и общения на свободные темы. Олег может распознавать и интерпретировать запросы, задавать уточняющие вопросы, решать задачи, беседовать на разные темы и помогать с финансовыми и прочими услугами.
Ещё с первой версии он был способен бронировать столики, записывать в салоны, покупать билеты в кино, а также давать советы и лайфхаки из издания Тинькофф Журнал. И что важно, Олега научили идентифицировать голос клиента, чтобы выполнять команды, требующие авторизации.
Перспективы. И не банковским приложением единым. Олег выглядит достаточно убедительно на фоне своих «коллег», так как медленно расширяет своё присутствие в разных сервисах экосистемы Тинькофф, попутно предлагая смелые решения.
Например, он живёт и в мобильном операторе Тинькофф Мобайл, позволяя принимать входящие звонки вместо человека, а также записывать разговор по телефону и расшифровывать его. Уже в этом году Тинькофф завершил интеграцию умного телефонного робота Олега в клиентский колл-центр. Он умеет сообщать баланс карты, отправлять SMS с номером договора, менять тариф, а также выступать в качестве консультанта и собеседника.
Алиса от Яндекса — забавная девчонка, да ещё и умная
Преимущества: большое количество разнообразных навыков, «человечность» и действительно живой диалог, поиск потерянного телефона, распознавание объектов по фото, работа с картами
Недостатки: иногда излишне кокетничает и не всегда понимает, что ответить на вопрос при простом общении
Алису начали разрабатывать ещё в 2016 году. Яндекс к тому времени уже позволял управять голосом в Поиске, Навигаторе и других своих приложениях. К концу сентября 2017-го с Алисой успел познакомиться Владимир Путин, а первый её релиз состоялся 10 октября 2017 года.
История и возможности. Алиса — молодая ироничная девушка, она говорит голосом актрисы дубляжа Татьяна Шитова, которая озвучивала большинство героинь Скарлетт Йоханссон. Сегодня Алиса есть в разных приложениях экосистемы Яндекса и в приличном списке устройств умного дома.
Распознавание голосового запроса происходит при помощи нескольких этапов:
- первый — отделение голоса от шумов с технологией SpeechKit;
- второй — разбор акцентов, диалектов, сленгов и англицизмов с базой Яндекса из миллиарда произнесённых в разных условиях фраз
- третий — наделение запроса смыслом и подбор правильного ответа с технологией Turing.
- четвёртый — озвучивание ответа, реализуемое при помощи технологии Text-to-speech, основой которого служат сотни тысяч записанных в студии слов и фраз, порезанных на фонемы.
С 2018 года функциональность Алисы расширилась благодаря системе навыков в виде чат-ботов и других сервисов, которые активируются по ключевой фразе. Это может быть, например, заказ еды.
Перспективы. Алиса умеет отвечать на заданные вопросы, искать нужную информацию, шутить, взаимодействовать с другими сервисами Яндекса, включать музыку и видео, читать текст, составлять список покупок, записывать напоминания, заказывать товары, строить маршруты или даже бесплатно находить потерянный телефон. Как и Маруся, она знает разные сказки и игры.
А ещё Алиса понимает, что изображено на фото: она может распознавать породу кошки или собаки, незнакомое здание или памятник, марку автомобиля, знаменитость или произведение искусства. На сегодняшний день Алиса кажется самым прогрессивным и наиболее «человечным» голосовым помощником. Это неоспоримый факт, ведь ловкая импровизация и поддержка разговора — действительно её важный и зачастую полезный плюс. Сложно даже представить, как далеко этот голосовой ассистент может зайти. Быть может, пора захватывать весь мировой рынок?
Выводы
Да, за голосовыми виртуальными ассистентами стоит будущее. Правда, в тех же мобильных устройствах они выглядят не так уж и перспективно, так как большинство задач легко решаются вручную. Но даже с таким раскладом это априори полезное дополнение. Голосовые помощники всё же лучше вписываются в рамки умных устройств. И это очевидно.
Сегодня их можно встретить даже в некоторых автомобилях, но в будущем придётся сталкиваться с ними чаще: например, в общественных местах и офисах массово появятся интерактивные умные дисплеи, всё в жанре фантастики минувших лет. Каждый упомянутый сегодня голосовой ассистент двигается в правильном направлении.
Нам же остаётся только одно — надеяться на прогрессивное развитие ИИ без последствий для человечества. Ну и хотелось бы верить в полноценную защиту конфиденциальности, с чем у виртуальных ассистентов порой возникают проблемы. Но это можно простить, ведь все они ещё такие молодые...