«Виртуальный диктор». Как устроен реалистичный аватар, созданный искусственным интеллектом
«Виртуальный диктор». Как устроен реалистичный аватар, созданный искусственным интеллектом

«Виртуальный диктор». Как устроен реалистичный аватар, созданный искусственным интеллектом

20 февраля, 20246 минут на чтение

Искусственный интеллект (ИИ) занимает центральное место в современных цифровых технологиях.

Сейчас он активно используется в большинстве сфер экономики и преобразует различные отрасли. Видеоконтент не стал исключением. Теперь вместо того, чтобы целыми днями или даже неделями записывать образовательный курс или информационную программу, переснимать неудачные дубли, тратиться на аренду помещений и дорогую сёмочную технику, можно использовать цифрового аватара.

Такую возможность дает «Виртуальный диктор» — новый продукт от ведущего оператора сетей доставки контента компании CDNvideo. О том, как создаются цифровые аватары, где они уже используются и почему становятся все популярнее, специально для билайн now рассказывает Эмир Вахитов, владелец ИИ продуктов (AI Product Owner) в CDNvideo.

билайн приобрёл компанию CDNvideo в прошлом году. Мы видим большие перспективы на рынке доставки контента в РФ. Сделка стала очередным шагом в создании ценности для наших клиентов за пределами классических телеком-услуг.

Что такое «Виртуальный диктор»?

Это цифровой аватар, который озвучивает набранный текст. Клиент получает доступ к нашей платформе, где всего в пять шагов может создать своего «Виртуального диктора». У нас довольно интуитивный сервис, но на каждом из этапов можно обратиться в нашу поддержку и получить подробную консультацию.

  1. Выбор аватара. Можно сделать собственного аватара или выбрать его из нашей библиотеки. В распоряжении пользователей находятся целый банк аватаров и гибкие возможности кастомизации под конкретные задачи.
  2. Выбор фона. Можно выбрать хромакей или уже готовый вариант.
  3. Кадрирование. Определить расположение ведущего (аватара) в кадре.
  4. Выбор эмоции и голоса. В нашей библиотеке есть широкий набор различных голосов дикторов. Ваш цифровой аватор может говорить на разных языках. Например, на английском, китайском, русском и других. Также можно определить эмоциональную тональность голоса — будет ли диктор говорить спокойно, сдержанно или радостно.
  5. Ввод текста. В конце необходимо ввести текст, который озвучит «Виртуальный диктор».

В чем преимущества «Виртуального диктора»?

  • Широта использования. Сфера эффективного применения «Виртуального диктора» очень большая: продажи и коммуникации, HR-процессы, обучение. Сейчас уже сложно переоценить важность взаимодействия с аудиторией через видеоконтент, поэтому «Виртуальный диктор» может найти свое применения в абсолютно разных сферах.
  • Отсутствие человеческого фактора. «Виртуальный диктор» не болеет, не запинается, не опаздывает. Он не «ляпнет» что-то в эфире, а будет следовать четко по подготовленному вами тексту.
  • Экономическая составляющая. «Виртуальный диктор» заменяет собой работу целого коллектива (съемочной группы, дикторов), не требует обустраивать студию и держать дорогостоящий парк техники. Не нужно тратить время на макияж, настройку света и другой аппаратуры, снова и снова переснимать неудачные дубли и так далее. Здесь нет тех издержек, с которыми можно столкнуться при реальной съемке. Таким образом, «Виртуальный диктор» позволяет экономить деньги, причем кратно: по нашим оценкам приблизительно в 10 раз, а времени — в 20 раз.
  • Развитие своего бизнеса. Это простой способ сделать свой контент более разнообразным, привлечь к себе внимание и, как результат, повысить интерес аудитории к продукту.

Где уже применяется «Виртуальный диктор»?

В январе проект перешел в стадию пилотного тестирования. На телеканале «ГТРК Чувашия» появился новый сотрудник — НейроЕлена. Ее создали с помощью нашей модели нейросети на основе видеоматериалов телеканала. Прототипом для цифрового сотрудника стала ведущая Елена Михайлова.

НейроЕлену можно увидеть в утренних блоках телеканала. Она рассказывает о погоде в регионе. По первым неделям использования уже можно сказать, что НейроЕлена привлекла внимание пользователей, люди активно обсуждают нового ведущего канала и с интересом смотрят прогноз погоды. Это первый шаг к инновациям в медиа, который позволяет оценить потенциал искусственного интеллекта в сфере телевещания.

Несмотря на то, что пилот был раскатан только в прошлом месяце, мы уже видим интерес к «Виртуальному диктору» среди различных клиентов. Это представители образовательного и культурного сектора, новостные издания, информационные и технологичные компании. В настоящий момент, помимо «ГТРК Чувашия», мы подписали еще один крупный контракт с другим телеканалом, а также с телеком-компанией для анимации персонажей — это еще одна возможность в рамках «Виртуального диктора».

Как создается «Виртуальный диктор»?

Это собственная разработка CDNvideo, позволяющая быстро создавать профессиональный видеоконтент с помощью ИИ. Мы используем генеративно-состязательную модель (GAN). Она в свою очередь состоит из двух моделей нейросети.

  1. Первая — генеративная. Так как мы хотим получить качественное видео, то в качестве источника информации, к которому применяем технологию, также используем видео. Нейросеть смотрит записанный видеоматериал с реальным человеком (как он двигается, как говорит, как меняется его поза, мимика, одежда) и пытается это повторить. Несмотря на то, что это генеративная модель, здесь она ничего сама не придумывает, а опирается только на то, что видит.
  2. Вторая модель — дискриминационная. Она оценивает реальное видео, соотносит его с тем, что получается у генеративной модели, и пытается найти отличия. Она выступает условным критиком для генеративной модели и сообщает ей о неточностях, которые находит между двумя видео.

Процесс обучения и совершенствования происходит одновременно. И заканчивается, когда дискриминационная модель больше не видит разницы между реальным изображением и сгенерированным.

Как сделать собственного аватара?

Так как обучение нейросети и создание цифрового аватара происходит в результате оценки видеоматериала, то ответ здесь прост — записать видео. Нужно снять около 2-4 часов видеозаписи с реальным человеком в кадре (согласитесь, это в разы меньше по времени, чем сделать, например, видеокурс лекций с живым спикером). Если заказчик хочет иметь аватара в нескольких вариациях одежды, то во время этих съемок модель (ведущий/ведущая) должна сняться в разных образах.

Подготовить видеоматериал необходимо по нашим требованиям. Мы высылаем клиенту соответствующую инструкцию, следуя которой, в результате, можно рассчитывать на качественного и полноценного цифрового аватара. Сразу скажу, что ничего специфичного или технически сложного там нет: рекомендации про то, как выставить свет, какие позы надо принять, какую одежду и аксессуары лучше не использовать. Например, как правило, собственного аватара клиенты снимают на зеленом хромакее, поэтому мы напоминаем, что стоит избегать в своей одежде отражающих элементов, так как они могут «исчезнуть» вместе с зеленым фоном.

Отснять видеоматериал клиент может как самостоятельно, так и обратиться за помощью к нам — наши профессиональные партнеры организуют и выполнят съемку за него. Права на использование цифрового аватара клиент может оставить у себя или передать их нам. Может быть так, что клиенту не принципиальна уникальность использования собственного аватара, или, например, клиент очень хочет собственного аватара, но у него недостаточно средств, чтобы это осуществить. В этом случаем мы также можем договориться — мы сделаем клиенту аватар с возможностью использования его в нашей общей библиотеке.

Почему подобные технологии вроде цифровых аватаров набирают популярность?

Интерес к «Виртуальному диктору» действительно есть и растет. Если раньше цифровые аватары и проявление подобных технологий вызывали у людей негативные чувства, то сейчас мы наблюдаем другую тенденцию. В основе нашего решения лежит технология text-to-video, которая уже стала популярна во всем мире. В своем общем значении она направлена на генерацию видео по предоставленному текстовому описанию. По данным аналитиков Global Market Insights за 2022 год, рынок text-to-video оценивают в 122,5 млн долларов. Почти одна пятая часть (19%) приходится на сферу образования. Другие популярные направления — мода и красота, медиа и развлечения. Ожидается, что объем рынка к 2032 году вырастет до 2 млрд долларов.

Я вижу несколько причин спроса на подобные технологии.

  1. Во-первых, вырос уровень технологий. Есть такой термин — эффект «зловещей долины». Он появился на старте новых технологий, связанных с нейросетями и искусственным интеллектом в Кремниевой долине, когда первые цифровые персонажи были хоть и похожи на людей, но выглядели неестественно. Человеческий глаз улавливал это, и возникал диссонанс, что вроде бы персонаж выглядит как человек, но при этом, очевидно, неживой. Сейчас же уровень таких технологий вырос, и мы стремимся делать наших аватаров максимально естественными; начали использовать 3D-анимацию, когда человека для цифрового аватара снимают не только анфас, а в движении и разных ракурсах. Мы добились того, что цифровые аватары могут выглядеть натурально, и в результате быть нейтральными или даже приятными для восприятия пользователя.
  2. Второй момент. Искусственный интеллект стал активнее и проще входить в жизнь людей. За последний год стали очень популярны генеративные модели. Люди активно их используют для различных задач: как для рабочих, так и бытовых. Отношение к искусственному интеллекту меняется, и мы видим, что он действительно может нам экономить время, помогает эффективнее работать, и развивать свой бизнес. «Виртуальный диктор» также создан в помощь людям, чтобы не только разнообразить контент и усовершенствовать подачу той или иной информации, но и освободить время и ресурсы своих клиентов в пользу более важных задач.
  3. В-третьих, растет популярность визуального контента. Видео стало основным форматом передачи информации в эпоху соцсетей и распространения интернета. Через короткий ролик, например, можно быстрее и проще донести сообщение до аудитории, чем с помощью длинного поста. Мы вовлеченнее реагируем на видео, чем на текст.
    Развивайтесь вместе с технологиями. Знакомьтесь с новыми решениями, чтобы сделать свои жизнь и работу эффективнее, интереснее и проще. И приходите в CDNvideo за своим цифровым аватаром.

erid: LatgBXyGr
Реклама ПАО «ВымпелКом», подробsнее на сайте: www.beeline.ru

Данная страница содержит «вставки» с других сайтов, скрипты которых могут собирать ваши личные данные для аналитики и своих внутренних потребностей. Редакция рекомендует использовать браузеры с блокировкой трекеров для просмотра таких страниц. Подробнее →
20 февраля, 2024

Сейчас читают

Редакция рекомендует

Картина дня

Свежие материалы

Свежие материалы