30 августа 2025

eur = 93.49 0.15 (0.16 %)

btc = 108 238.00$ -4 146.36 (-3.69 %)

eth = 4 339.74$ - 155.73 (-3.46 %)

ton = 3.07$ -0.11 (-3.52 %)

usd = 80.29 -0.15 (-0.19 %)

eur = 93.49 0.15 (0.16 %)

btc = 108 238.00$ -4 146.36 (-3.69 %)

Сбер представил новую версию генеративной модели Kandinsky 2.2

2 минуты на чтение
Сбер представил новую версию генеративной модели  Kandinsky 2.2

Вышла новая версия генеративной нейросети от Сбера, создающей изображения по текстовым описаниям — Kandinsky 2.2.

Архитектуру изменили незначительно: увеличили визуальный энкодер для обучения модели Image Prior на CLIP ViT-G, это повысило качество синтеза изображений. Это потребовало переучить модель модель (1 млн итераций) и заново настроить диффузионную часть U-Net (200 тыс. итераций). Модель учили на изображениях с длинами сторон от 512 до 1536 пикселей и различным соотношением.

Основные улучшения проявляются в возможностях новой версии:

  • Теперь можно генерировать картинки со сторонами по 1024 пикселя (в предыдущей версии — 768 пикселей).
  • Соотношение сторон теперь может быть любым (раньше были только квадратные).
  • В настройках можно включить эффект фотореализма.
  • Теперь благодаря функциональности ControlNet можно изменять отдельные свойства изображения без изменения всей композиции.

Остановимся подробнее на последней функции. Дело в том, что синтез изображений в любых генеративных сетях никак не управляется человеком. Даже если вы тщательно продумали текстовое описание (промт), то наверняка конечный результат будет отличаться от ожидаемой вами картинки. Чтобы тоньше управлять работой нейросети, в Kandinsky 2.2 добавлена функциональность ControlNet. Благодаря ей вы теперь можете менять положение какого-нибудь элемента картинки, корректировать его форму, позу, размеры и границы, при этом не меняя всё остальное изображение.

Например:

Сбер представил новую версию генеративной модели  Kandinsky 2.2

Эволюция детализации на изображениях, созданных в трёх последних версиях Kandinsky:

Сбер представил новую версию генеративной модели  Kandinsky 2.2

Также новая версия распознаёт в промтах смайлы и учитывает их при генерировании.

Как можно поэкспериментировать с Kandinsky 2.2:

  1. Генерация изображения по промту.
  2. Смешивание изображений.
  3. Генарация изображений, похожих на референсное.
  4. Изменение изображений по промту.
  5. Генерация стикеров.
  6. Изменение изображения с помощью функции ControlNet.

Вы можете выбрать один из трёх стилей для генерирования картинки:

  1. Устреднённая стилистика изображений с агрегатора artstation.com.
  2. Высокое разрешение (до 4К).
  3. В стиле аниме.
  • с помощью фреймворка diffusers;
  • на сайте fusionbrain.ai (по промту и в режимах inpainting и outpainting);
  • на платформе MLSpace в хабе предобученных моделей и датасетов DataHub;
  • в навыке Салют «Включи художника»;
  • в боте в VK.

Веса модели, по которым можно оценить качество генерирования, доступны здесь:

Дополнительные технические подробности вы можете почерпнуть из статьи на Хабре.

Дальнейшее развитие

В работе уже находится следующая версия Kandinsky, но пока мы не будем раскрывать, что в ней будет изменено. Главное, что качество изображений станет ещё выше. Также мы поддерживаем развитие российского и международного сообщества Kandinsky. Благодаря им выходят интересные проекты, например, Web-GUI for Kandinsky 2.X.

Разработчики

Kandinsky 2.2 была разработана и обучена исследователями команды Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.

Авторы: Арсений Шахматов (главный контрибьютор), Антон Разжигаев, Владимир Архипкин, Игорь Павлов, Ангелина Куц, Андрей Кузнецов, Денис Димитров.

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
Стало известно, когда заработает посадка в поезд по биометрии

GigaChat Max: коротко о главном

Стало известно, когда заработает посадка в поезд по биометрии

Полная версия 
Yandex B2B Tech: кибератаки чаще всего начинаются со взлома учётных записейYandex B2B Tech: кибератаки чаще всего начинаются со взлома учётных записей

GigaChat Max: коротко о главном

Yandex B2B Tech: кибератаки чаще всего начинаются со взлома учётных записей

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Редакция рекомендует
Карьера
Блоги 407
Газпромбанк
OTP Bank
X5 Tech
билайн
МТС
Сбер
Т-Банк
Яндекс Практикум
Ozon Tech
Циан

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы