20 ноября 2024

eur = 105.73 0.27 (0.26 %)

btc = 93 360.00$ 1 641.32 (1.79 %)

eth = 3 104.51$ -17.95 (-0.57 %)

ton = 5.42$ -0.17 (-3.07 %)

usd = 100.03 0.09 (0.09 %)

eur = 105.73 0.27 (0.26 %)

btc = 93 360.00$ 1 641.32 (1.79 %)

Форум

Google разработала технологию, раскрашивающую чёрно-белые видео по одной фотографии

1 минута на чтение
Google разработала технологию, раскрашивающую чёрно-белые видео по одной фотографии

Читать первым в Telegram-канале «Код Дурова»

Поисковый гигант разработал ИИ, с которым понадобится лишь одна фотография для конвертации чёрно-белых видеозаписей в цветные.

image7

За основу разработчики взяли коллекцию роликов Kinetics. Работает технология следующим образом: первые кадры конвертировали в чёрно-белый цвет, далее нейросеть восстанавливает первоначальный. ИИ разбивает кадры на области, которые нужно окрасить в разные цвета, и отслеживает их перемещение.

Наша гипотеза заключается в том, что временная когерентность цвета обеспечивает отличные широкомасштабные данные для машинного обучения, чтобы отслеживать области в видео. Ясно, что есть исключения, когда цвет не является временно когерентным (например, внезапно включается свет), но в целом стабилен с течением времени. Кроме того, большинство видеороликов содержат цвет, который обеспечивает масштабируемый самоконтролируемый обучающий сигнал. Мы обесцвечиваем видео, а затем добавляем шаг раскраски, потому что могут быть несколько объектов с одним цветом, но таким путём мы можем научить машины отслеживать определённые объекты или области.

В технологии присутстует модель отслеживания человеческих поз, заданных ключевыми точками в исходном кадре. В конечном итоге мы можем наблюдать человеческий скелет из публично доступного академического набора данных JHMDB. Задача обучения нейросетей отслеживанию объектов на видео требует огромного количества входных данных. Вручную это достаточно сложно, именно потому поручают разметку ИИ.

image17

Одной из важных проблем машинного обучения является отсутствие большого количества данных для тренировки моделей. Однако специалисты считают, что дальнейшее улучшение модели раскраски видео может способствовать успеху в самоконтролируемом отслеживании объектов. Также исследователи отметили, что две нейросети, работающие в паре, улучшают результаты работы друг друга.

Подписывайтесь на «Код Дурова» в Telegram и во «ВКонтакте», чтобы всегда быть в курсе интересных новостей!

Сейчас читают
Карьера
Блоги 293
Т-Банк
X5 Tech
МТС
Газпромбанк
Сбер
билайн
Яндекс Практикум
Ozon Tech
Циан
Банк 131