Сбер представил обновлённую версию генеративной модели Kandinsky 3.1

1 минута на чтение

Сбер представил обновлённую версию генеративной модели Kandinsky 3.1

Новая версия отличается от предыдущих моделей скоростью генерации, качеством изображений и новой функцией бьютификации запроса.

Первыми доступ к Kandinsky 3.1 получили художники, дизайнеры и блогеры, а в ближайшее время она будет доступна всем пользователям без ограничений.

Нейросеть дообучили на увеличенном датасете изображений, чтобы повысить качество генераций. Обучение происходило на эстетическом датасете размером 100 тысяч пар изображений-текст, который является подсетом датасета для претрейна Kandinsky 3.0, рассказали разработчики в статье на Хабре.

В результате этого подхода получилось ускорить Kandinsky 3.0 почти в 20 раз, сделав возможным генерировать изображение за всего 4 прохода через U-Net.

Теперь изображения можно получить в разрешении 4К:

Kandinsky 2.2, Kandinsky 3.0 и Kandinsky 3.1.

Также была добавлена функция бьютификации запроса — это способ улучшения и добавления деталей к запросу пользователя с помощью большой языковой модели (LLM).

В случае выбора этой опции на вход языковой модели подаётся инструкция с просьбой улучшить запрос, и ответ модели подается на вход Kandinsky для генерации.

Так выглядят генерации до и после бьютификации:

Кроме того, Сбер анонсировал скорое обновление модели Kandinsky Video для генерации видео по текстовым описаниям до версии 1.1. Отмечается, что, помимо улучшения качества генераций внесённые изменения позволили повысить разрешение видео в два раза по сравнению с предыдущей моделью.

Kandinsky 3.1 была разработана и обучена командой Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённых датасетах Sber AI и компании SberDevices.

Читать первым в Telegram-канале «Код Дурова»