13 декабря 2024

eur = 106.20 1.10 (1.05 %)

btc = 99 698.00$ -1 652.21 (-1.63 %)

eth = 3 876.55$ 53.75 (1.41 %)

ton = 6.31$ 0.01 (0.21 %)

usd = 100.03 0.66 (0.66 %)

eur = 106.20 1.10 (1.05 %)

btc = 99 698.00$ -1 652.21 (-1.63 %)

Форум

Нейросеть оживила портрет Достоевского

2 минуты на чтение
Нейросеть оживила портрет Достоевского

Российские разработчики представили алгоритм на основе сверточной нейросети, который умеет превращать статичные портреты в анимированное изображение. Их система снимает маску с лица человека на отдельных кадрах из видео, после чего переносит их на отдельные изображения лиц, причем алгоритм может работать даже с одиночным изображением, в том числе с портретами. Описание работы алгоритма доступно в препринте, опубликованном на arXiv.org.

Egor Zakharov et al. / arXiv, 2019

Перенос информации между двумя изображениями или видео — задача не из простых. Например, при наложении стороннего аудиоряда на видео с говорящим человеком необходимо точно проследить за тем, чтобы мимика говорящего соответствовала тому, что он произносит. Здесь разработчики уже добились значительных успехов, во многом благодаря большому количеству собранных и размеченных для обучения данных и построенных на них моделях. Проблема состоит в том, что очень частно за основу берутся несколько тысяч целевых изображений (например, кадров из видео) какого-то конкретного предмета или человека, что позволяет «настроить» изображение-источник только на основе его. В идеале подобные системы не должны быть ориентированы на какой-то конкретный объект и должны быть способны использовать в качестве цели (то есть тех изображений, информацию с которых необходимо перенести) минимальное количество кадров.

Упростить задачу переноса информации с видео на статичное изображение решили разработчики из Samsung и «Сколково» под руководством Егора Захарова. В основе их подхода — алгоритм, который обучен на большом количестве кадров, содержащих лица людей. На каждое лицо на таком кадре наложена специальная маска, которая обозначает границы и базовую мимику. То, как такая маска соотносится с исходным кадром, хранится в виде вектора, данные из которого используются для того, чтобы наложить отдельную маску на изображение человека, после чего готовое изображение сравнивается с ground truth.


Такая модель в итоге позволила разработчикам переносить информацию между двумя объектами с помощью всего одного или нескольких кадров: для конечного продукта берется изображение-источник и изображение-цель, из которого формируется маска, которая затем накладывается на источник, причем необходимо для этого всего несколько кадров. Интересно, что таким образом можно не только изменить мимику человека на портрете, но и превратить его в анимированное изображение.

В результате у разработчиков получился алгоритм, который может достоверно переносить информацию между изображениями, создавая в итоге «говорящие головы»: при этом для этого не нужно использовать большое количество примеров изображения-источника и изображения-цели.

Что-то похожее на новый алгоритм в декабре представили американские разработчики: их модель может оживлять статичные изображения человека целиком, заставляя его выбегать за пределы кадра.

Елизавета Ивтушок Источник

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
1c590b60-84bf-4be6-b17f-318e45ddb7f5-изображение-0

GigaChat Max: коротко о главном

В России не собираются запрещать Steam

Полная версия 
51e2c050-017e-414f-9f1e-65386bddad87-изображение-06c29907c-530a-4ff7-9d8e-7496bf2b671b-изображение-1

GigaChat Max: коротко о главном

iPhone 17 Slim действительно получит дизайн, похожий на Google Pixel 9

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Карьера
Блоги 301
Газпромбанк
МТС
Т-Банк
X5 Tech
Сбер
билайн
Яндекс Практикум
Ozon Tech
Циан
Банк 131