Сбер представил новую версию генеративной модели  Kandinsky 2.2
Сбер представил новую версию генеративной модели  Kandinsky 2.2

Сбер представил новую версию генеративной модели Kandinsky 2.2

12 июля, 20232 минуты на чтение

Вышла новая версия генеративной нейросети от Сбера, создающей изображения по текстовым описаниям — Kandinsky 2.2.

Архитектуру изменили незначительно: увеличили визуальный энкодер для обучения модели Image Prior на CLIP ViT-G, это повысило качество синтеза изображений. Это потребовало переучить модель модель (1 млн итераций) и заново настроить диффузионную часть U-Net (200 тыс. итераций). Модель учили на изображениях с длинами сторон от 512 до 1536 пикселей и различным соотношением.

Основные улучшения проявляются в возможностях новой версии:

  • Теперь можно генерировать картинки со сторонами по 1024 пикселя (в предыдущей версии — 768 пикселей).
  • Соотношение сторон теперь может быть любым (раньше были только квадратные).
  • В настройках можно включить эффект фотореализма.
  • Теперь благодаря функциональности ControlNet можно изменять отдельные свойства изображения без изменения всей композиции.

Остановимся подробнее на последней функции. Дело в том, что синтез изображений в любых генеративных сетях никак не управляется человеком. Даже если вы тщательно продумали текстовое описание (промт), то наверняка конечный результат будет отличаться от ожидаемой вами картинки. Чтобы тоньше управлять работой нейросети, в Kandinsky 2.2 добавлена функциональность ControlNet. Благодаря ей вы теперь можете менять положение какого-нибудь элемента картинки, корректировать его форму, позу, размеры и границы, при этом не меняя всё остальное изображение.

Например:

Эволюция детализации на изображениях, созданных в трёх последних версиях Kandinsky:

Также новая версия распознаёт в промтах смайлы и учитывает их при генерировании.

Как можно поэкспериментировать с Kandinsky 2.2:

  1. Генерация изображения по промту.
  2. Смешивание изображений.
  3. Генарация изображений, похожих на референсное.
  4. Изменение изображений по промту.
  5. Генерация стикеров.
  6. Изменение изображения с помощью функции ControlNet.

Вы можете выбрать один из трёх стилей для генерирования картинки:

  1. Устреднённая стилистика изображений с агрегатора artstation.com.
  2. Высокое разрешение (до 4К).
  3. В стиле аниме.
  • с помощью фреймворка diffusers;
  • на сайте fusionbrain.ai (по промту и в режимах inpainting и outpainting);
  • на платформе MLSpace в хабе предобученных моделей и датасетов DataHub;
  • в навыке Салют «Включи художника»;
  • в боте в VK.

Веса модели, по которым можно оценить качество генерирования, доступны здесь:

Дополнительные технические подробности вы можете почерпнуть из статьи на Хабре.

Дальнейшее развитие

В работе уже находится следующая версия Kandinsky, но пока мы не будем раскрывать, что в ней будет изменено. Главное, что качество изображений станет ещё выше. Также мы поддерживаем развитие российского и международного сообщества Kandinsky. Благодаря им выходят интересные проекты, например, Web-GUI for Kandinsky 2.X.

Разработчики

Kandinsky 2.2 была разработана и обучена исследователями команды Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.

Авторы: Арсений Шахматов (главный контрибьютор), Антон Разжигаев, Владимир Архипкин, Игорь Павлов, Ангелина Куц, Андрей Кузнецов, Денис Димитров.

12 июля, 2023

Сейчас читают

Редакция рекомендует

Картина дня

Свежие материалы

Свежие материалы