Вышла новая версия генеративной нейросети от Сбера, создающей изображения по текстовым описаниям — Kandinsky 2.2.
Архитектуру изменили незначительно: увеличили визуальный энкодер для обучения модели Image Prior на CLIP ViT-G, это повысило качество синтеза изображений. Это потребовало переучить модель модель (1 млн итераций) и заново настроить диффузионную часть U-Net (200 тыс. итераций). Модель учили на изображениях с длинами сторон от 512 до 1536 пикселей и различным соотношением.
Основные улучшения проявляются в возможностях новой версии:
- Теперь можно генерировать картинки со сторонами по 1024 пикселя (в предыдущей версии — 768 пикселей).
- Соотношение сторон теперь может быть любым (раньше были только квадратные).
- В настройках можно включить эффект фотореализма.
- Теперь благодаря функциональности ControlNet можно изменять отдельные свойства изображения без изменения всей композиции.
Остановимся подробнее на последней функции. Дело в том, что синтез изображений в любых генеративных сетях никак не управляется человеком. Даже если вы тщательно продумали текстовое описание (промт), то наверняка конечный результат будет отличаться от ожидаемой вами картинки. Чтобы тоньше управлять работой нейросети, в Kandinsky 2.2 добавлена функциональность ControlNet. Благодаря ей вы теперь можете менять положение какого-нибудь элемента картинки, корректировать его форму, позу, размеры и границы, при этом не меняя всё остальное изображение.
Например:

Эволюция детализации на изображениях, созданных в трёх последних версиях Kandinsky:

Также новая версия распознаёт в промтах смайлы и учитывает их при генерировании.
Как можно поэкспериментировать с Kandinsky 2.2:
- в Telegram-боте (доступны шесть режимов генерации):
- Генерация изображения по промту.
- Смешивание изображений.
- Генарация изображений, похожих на референсное.
- Изменение изображений по промту.
- Генерация стикеров.
- Изменение изображения с помощью функции ControlNet.
Вы можете выбрать один из трёх стилей для генерирования картинки:
- Устреднённая стилистика изображений с агрегатора artstation.com.
- Высокое разрешение (до 4К).
- В стиле аниме.
- с помощью фреймворка diffusers;
- на сайте fusionbrain.ai (по промту и в режимах inpainting и outpainting);
- на платформе MLSpace в хабе предобученных моделей и датасетов DataHub;
- в навыке Салют «Включи художника»;
- в боте в VK.
Веса модели, по которым можно оценить качество генерирования, доступны здесь:
Дополнительные технические подробности вы можете почерпнуть из статьи на Хабре.
Дальнейшее развитие
В работе уже находится следующая версия Kandinsky, но пока мы не будем раскрывать, что в ней будет изменено. Главное, что качество изображений станет ещё выше. Также мы поддерживаем развитие российского и международного сообщества Kandinsky. Благодаря им выходят интересные проекты, например, Web-GUI for Kandinsky 2.X.
Разработчики
Kandinsky 2.2 была разработана и обучена исследователями команды Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
Авторы: Арсений Шахматов (главный контрибьютор), Антон Разжигаев, Владимир Архипкин, Игорь Павлов, Ангелина Куц, Андрей Кузнецов, Денис Димитров.
Читать первым в Telegram-канале «Код Дурова»