Как генерация изображений уже изменила мир и что нам ещё предстоит увидеть?
Читать первым в Telegram-канале «Код Дурова»
На главной технологической конференции Яндекса YaTalks 2022 Сергей Овчаренко, руководитель группы нейросетевых технологий компьютерного зрения Яндекса, Валентин Хрульков, старший исследователь Яндекса, Андрей Кузнецов, исполнительный директор по исследованию данных Сбера и Тема Саркисов, разработчик Николая Иронова от Студии Артемия Лебедева, обсудили, как работают и меняют мир создания контента нейросети для генерации изображений.
Диффузионные модели — последнее слово в создании изображений нейросетями
Генерация изображений — горячая тема, к которой за всю историю существования нейросетей уже было немало подходов. Сначала машины Больцмана, потом автокодировщики, затем прорывом в области стали генеративные нейронные сети (GAN).
Все самые фантастические демонстрации последнего времени, когда по текстовому описанию программа создаёт фотореалистичное изображение — результат работы диффузионных моделей. На них основаны Stable Diffusion, MidJourney, DALL-E 2 и не только.
Суть модели в том, что она действует как человек, который в детстве сначала читает энциклопедии и книги, смотрит иллюстрации, а потом на основе образов создает рисунки в собственной интерпретации.
Авторские права в ML — спорный вопрос
Машинное обучение работает по принципу «garbage in/garbage out», и генеративные модели — не исключение. Критически важно иметь большое количество качественных данных: сейчас эту задачу решают с помощью сбора изображений по текстовому описанию из сети, есть несколько публичных датасетов вроде LAION и проприетарные датасеты.
Из-за этого возникает вопрос авторских прав: кому принадлежит право на картинку, которую сгенерировала нейросеть — людям, которые предоставляют данные, разработчикам или человеку, который сгенерировал картинку?
Со временем нужно будет настроить прозрачную систему атрибуции прав всем участникам этого процесса.
Ограничивать нейросети на этапе обучения — не лучшая идея
Во второй версии Stable Diffusion исследователи пофильтровали обучающий датасет и убрали оттуда нежелательный контент — откровенные фотографии и жестокость. Это привело к ухудшению общего качества работы нейросети. Если пытаться уберечь нейросеть от части контента, это гарантированно сказывается на её развитии.
На этапе обучения ограничивать нейросеть в её возможностях невыгодно, ведь чем больше она увидит, тем больше у неё возникнет композиций «в голове». Человечеству еще предстоит решить, хочет ли оно пойти по пути сильного искусственного интеллекта. Если да, то, как и человеку, ИИ нужно показать всё.
К тому же, ограничения могут не повлиять на то, что модель сгенерирует нежелательный контент. Так, например, нейросети Stable Diffusion включили NSFW-фильтр и в сценарии «дорисовки» выяснилось, что если «замазать» одежду, то модель всё равно будет способна воссоздать, дофантазировать все, что нужно. Машина и так представляет, как у человека всё устроено.
Промт-инжиниринг — профессия будущего
Если вы решили попробовать ChatGPT или MidJourney, но результат оказался далёк от того, что расходится в Твиттере — вы не одиноки, дело в особом языке общения с нейросетью. Описания, по которым нейросети генерируют изображения, называют «промт», а процесс — «промт-инжинирингом».
У современных нейросетей самые широкие возможности, но с ними нужно правильно «общаться» и приложить существенные усилия, чтобы с точностью описать то, что хочешь увидеть. Людей, которые научились получать задуманный и качественный результат, уже называют «промт-инженерами».
Они знают, как именно нужно составить запрос, где и какие слова добавить, как сформулировать фразу, чтобы она была понятна нейросети, какие «магические» слова добавить (например, aesthetic, pleasing, high details, 35mm). В ближайшее время спрос на таких специалистов будет только расти — вероятно, появятся курсы на крупных платформах, на которые можно будет попасть без технического образования.
Возможно, со временем нейросети начнут обучаться на более «чистых» данных, и язык общения с ними тоже станет проще. Но пока что разработчикам искусственного интеллекта приходится выпускать отдельные гайды по промт-инжинирингу, а людям - учиться общаться с нейросетью методом проб и ошибок.
Будущее генераторов картинок в разных сферах жизни
После появления текстовой модели GPT-3 были созданы целые бизнесы, которые автоматизируют свои текстовые задачи на основе нейросети. Вероятнее всего, такое же будущее ждет и генераторы изображений.
К примеру, если пользователь захочет разработать дизайн одежды или предметов интерьера, ему будет достаточно задать нейросети запрос на уникальный дизайн. Впоследствии технологию можно связать с производством и отправлять такие запросы на фабрики.
Область применения генераторов изображений практически безгранична. От иллюстраций для презентаций до логотипов, набросков для кино и даже обложек для глянцевых журналов.
Предположительно, одним из самых востребованных сценариев для бизнеса станет персонализация любого контента под пользователя. Способность нейросетей генерировать бесконечное количество различных изображений по одному описанию идеально для этого подходит.
Задачи, которые выполняет функция инпейтинга, востребованы в науке. Например, в археологии, когда нужно воссоздать здание, от которого остались только руины. Нейросеть может сгенерировать изображение на основе данных о схожих строениях и стилях в архитектуре.
Аппетиты нейросетей растут — не всякое оборудование может хранить такой массив данных
Раньше заниматься изучением нейросетей можно было из дома даже с бюджетной видеокартой и не самым последним процессором. Сейчас для этого нужны сотни часов работы кластера из сотен видеокарт, заточенных именно под нейросетевые задачи, а в чипах появились специальные ML-сопроцессоры и нейродвижки для ускорения работы машинного обучения.
Кроме того, современным нейросетям нужно всё больше данных для обучения. Это могут быть датасеты объемом в несколько петабайт — и их нужно хранить на физических дисках. Сейчас таким оборудованием могут похвастаться далеко не все компании: для работы нужны большие лаборатории крупных корпораций.
В то же время технология демократизируется, появляются «foundation models» — модели, обучением которых занимаются крупные игроки на огромных вычислительных ресурсах и данных. Затем их выкладывают в открытый доступ, чтобы любители и сторонние компании могли дообучать модели для своих задач.
Генерация видео, 3D и картинки по звуку — будущее нейросетей
Нейросети проходят тот же путь, что и люди, постепенно и довольно быстро осваивая всё новые области. Они уже умеют генерировать статичные кадры, а следующим шагом для них может стать видео — в ближайшем будущем по текстовому описанию они смогут создавать фильмы.
Но говорить о голливудском уровне пока рано: здесь опять возникает вопрос данных и правомерности их использования. Фильмы и сериалы защищены авторским правом, поэтому сначала нейросети будут обучаться на пользовательском контенте — на видео в TikTok или YouTube.
Эта задача сложна не только юридически, но и технически. В случае с видео нейросети необходимо формировать зависимость между кадрами, сохранять последовательность и логические связи, а это может стать преградой для качественной генерации видео.
В целом, диффузионные модели способны решить эту проблему. Работа с такими моделями уже отлажена, но для генерации видео потребуются вычислительные мощности. Этим уже заняты крупнейшие IT-компании и можно предположить, что 2023-й год станет годом нейросетевых видео.
Еще одним трендом скорее всего станет генерация трехмерных персонажей и объектов. В том числе в связке со звуковой композицией. К примеру, уже существующие нейросети вроде StyleGAN содержат базовые знания 3D и их можно дообучить для рендеринга 3D-объектов. Генерация 3D-объектов открывает необъятные возможности и для 3D печати, а вследствие и производства объектов по моделям нейросетей.
Открытым вопросом пока остается генерация картинок по звуку. В данным момент в открытом доступе нет пар «картинка-звук», но вполне вероятно, что в будущем такие данные появятся.