Сбер представил Kandinsky 4.1 Video с улучшенной генерацией видео по тексту
В ближайшее время все пользователи получат доступ к новой версии для генерации видео Kandinsky 4.1 Video, сообщил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев на мероприятии GigaConf 2025.
Обновлённая модель Kandinsky генерирует по любому текстовому описанию или произвольному стартовому кадру видеоряд продолжительностью до 10 секунд в разрешении SD или HD — 720×576 или 1280×720 соответственно.
Основные особенности Kandinsky 4.1 Video:
- В основе новой модели — продвинутая архитектура диффузионного трансформера.
- Дообучение (Supervised Fine-Tuning, SFT) стало одним из ключевых факторов, который позволил значительно улучшить качество модели.
- Модель дообучали на тщательно отобранных данных, подготовленных более, чем 100 экспертами.
- Среди экспертов, которые помогали дообучать Kandinsky 4.1 Video, были дизайнеры, фотографы и художники с профильным образованием.
- Применены методы дистилляции и ускорения, что сократило время генерации видео более чем в три раза по сравнению с исходным вариантом.
Примеры генерации видео через Kandinsky 4.1 Video:
В Сбере подчеркнули, что в ряде сценариев качество генерации сохранилось или даже улучшилось. Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев рассказал, что Kandinsky 4.1 Video обеспечивает «качественно новый уровень генеративного видео»:
«Модель стала в разы лучше по всем параметрам: по соответствию промпту, визуальному качеству, качеству генерации движений, а также способности моделировать физику мира. Такие разработки открывают беспрецедентные возможности как для дизайнеров, маркетологов, так и для представителей любых других креативных индустрий, работающих над созданием высококачественного видеоконтента».