Читать первым в Telegram-канале «Код Дурова»
Новая версия отличается от предыдущих моделей скоростью генерации, качеством изображений и новой функцией бьютификации запроса.
Первыми доступ к Kandinsky 3.1 получили художники, дизайнеры и блогеры, а в ближайшее время она будет доступна всем пользователям без ограничений.
Нейросеть дообучили на увеличенном датасете изображений, чтобы повысить качество генераций. Обучение происходило на эстетическом датасете размером 100 тысяч пар изображений-текст, который является подсетом датасета для претрейна Kandinsky 3.0, рассказали разработчики в статье на Хабре.
В результате этого подхода получилось ускорить Kandinsky 3.0 почти в 20 раз, сделав возможным генерировать изображение за всего 4 прохода через U-Net.
Теперь изображения можно получить в разрешении 4К:
Kandinsky 2.2, Kandinsky 3.0 и Kandinsky 3.1.
Также была добавлена функция бьютификации запроса — это способ улучшения и добавления деталей к запросу пользователя с помощью большой языковой модели (LLM).
В случае выбора этой опции на вход языковой модели подаётся инструкция с просьбой улучшить запрос, и ответ модели подается на вход Kandinsky для генерации.
Так выглядят генерации до и после бьютификации:
Кроме того, Сбер анонсировал скорое обновление модели Kandinsky Video для генерации видео по текстовым описаниям до версии 1.1. Отмечается, что, помимо улучшения качества генераций внесённые изменения позволили повысить разрешение видео в два раза по сравнению с предыдущей моделью.
Kandinsky 3.1 была разработана и обучена командой Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённых датасетах Sber AI и компании SberDevices.