Сбер представил Kandinsky 4.1 Video с улучшенной генерацией видео по тексту

В ближайшее время все пользователи получат доступ к новой версии для генерации видео Kandinsky 4.1 Video, сообщил старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев на мероприятии GigaConf 2025.

Обновлённая модель Kandinsky генерирует по любому текстовому описанию или произвольному стартовому кадру видеоряд продолжительностью до 10 секунд в разрешении SD или HD — 720×576 или 1280×720 соответственно.

Основные особенности Kandinsky 4.1 Video:

  • В основе новой модели — продвинутая архитектура диффузионного трансформера.
  • Дообучение (Supervised Fine-Tuning, SFT) стало одним из ключевых факторов, который позволил значительно улучшить качество модели.
  • Модель дообучали на тщательно отобранных данных, подготовленных более, чем 100 экспертами.
  • Среди экспертов, которые помогали дообучать Kandinsky 4.1 Video, были дизайнеры, фотографы и художники с профильным образованием.
  • Применены методы дистилляции и ускорения, что сократило время генерации видео более чем в три раза по сравнению с исходным вариантом.

Примеры генерации видео через Kandinsky 4.1 Video:

В Сбере подчеркнули, что в ряде сценариев качество генерации сохранилось или даже улучшилось. Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев рассказал, что Kandinsky 4.1 Video обеспечивает «качественно новый уровень генеративного видео»:

«Модель стала в разы лучше по всем параметрам: по соответствию промпту, визуальному качеству, качеству генерации движений, а также способности моделировать физику мира. Такие разработки открывают беспрецедентные возможности как для дизайнеров, маркетологов, так и для представителей любых других креативных индустрий, работающих над созданием высококачественного видеоконтента».