Сбер представил Kandinsky 4.1 Video с улучшенной генерацией видео по тексту

В ближайшее время все пользователи получат доступ к новой версии для генерации видео Kandinsky 4.1 Video, сообщил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев на мероприятии GigaConf 2025.

Обновлённая модель Kandinsky генерирует по любому текстовому описанию или произвольному стартовому кадру видеоряд продолжительностью до 10 секунд в разрешении SD или HD — 720×576 или 1280×720 соответственно.

Основные особенности Kandinsky 4.1 Video:

В основе новой модели — продвинутая архитектура диффузионного трансформера.

Дообучение (Supervised Fine-Tuning, SFT) стало одним из ключевых факторов, который позволил значительно улучшить качество модели.

Модель дообучали на тщательно отобранных данных, подготовленных более, чем 100 экспертами.

Среди экспертов, которые помогали дообучать Kandinsky 4.1 Video, были дизайнеры, фотографы и художники с профильным образованием.

Применены методы дистилляции и ускорения, что сократило время генерации видео более чем в три раза по сравнению с исходным вариантом.

Примеры генерации видео через Kandinsky 4.1 Video:

В Сбере подчеркнули, что в ряде сценариев качество генерации сохранилось или даже улучшилось. Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев рассказал, что Kandinsky 4.1 Video обеспечивает «качественно новый уровень генеративного видео»:

«Модель стала в разы лучше по всем параметрам: по соответствию промпту, визуальному качеству, качеству генерации движений, а также способности моделировать физику мира. Такие разработки открывают беспрецедентные возможности как для дизайнеров, маркетологов, так и для представителей любых других креативных индустрий, работающих над созданием высококачественного видеоконтента».