Разработчики из Университета Цинхуа разработали голосовой помощник для смартфонов, который распознаёт команды по движениям губ пользователя. Эта технология может применяться в общественных местах без риска помешать другим.

Юаньчунь Ши (Yuanchun Shi) с коллегами представили на конференции UIST 2018 статью, в которой описали технологию распознавания движений губ и перевода их в текст. Такой голосовой помощник использует фронтальную камеру и свёрточную нейросеть. Алгоритм отслеживает 20 контрольных точек, которые достаточно точно описывают форму губ, а также определяет насколько открыт рот пользователя. Это позволяет распознать начало и конец команды. Второй алгоритм расшифровывает данные. При этом пока все вычисления происходят отдельно на мощном ПК.

Для распознавания используется ограниченный набор команд — всего 44, которые относятся как к отдельным приложениям, так и к конкретным функциям, вроде включения и выключения Wi-Fi. Также поддерживаются и общесистемные задачи, вроде ответа на сообщение или выделения текста.

Разработчики утверждают, что средняя точность распознавания составила 95,5 % по результатам обучения на речи 21 человека. Тесты проводились в метро Пекина. В результате оказалось, что такой метод считается пользователями более комфортным.

Пока что разработчики не уточняют, когда новое приложение появится в релизе. Однако если для распознавания пока нужен мощный компьютер, это произойдёт нескоро. Либо же система будет требовать постоянного подключения к Сети.

Источник: tproger.ru

Подписывайтесь на «Код Дурова» в Telegram и во «ВКонтакте», чтобы всегда быть в курсе интересных новостей!