Читать первым в Telegram-канале «Код Дурова»
Google создала нейросеть Imagen, которая способна генерировать изображения на основе текстового описания. Для распознавания текстового запроса нейросеть использует большие языковые модели, на которых основаны алгоритмы обработки естественной речи.
Далее алгоритмы улучшают схематичную картинку размером 64×64 до тех пор, пока искусственный интеллект не поймёт, что уже не может сделать её лучше по заданным параметрам. После этого размер изображения увеличивается 256 х 256 пикселей.
В результате изображение уже в высоком качестве доходит до размера 1024×1024. Это происходит не путём масштабирования — каждый из трёх этапов нейросеть улучшает детали на картинке.
Например, в первой версии изображения деталь может иметь ширину лишь 3 пикселя, а во второй — 12 пикселей, и так далее. В компании уверены, что её нейросеть генерирует изображения с «беспрецедентным фотореализмом».
Разработчики сравнили Imagen с аналогичной нейросетью DALL-E 2 от OpenAI. По данным Google, тестировщики при сравнении изображений от Imagen и DALL-E 2 чаще выбирали Imagen за более точную и достоверную работу.
Правда, в компании признали, что с запросом «лошадь верхом на астронавте» Imagen и DALL-E 2 не смогли справиться — нейросети постоянно ставят астронавта на лошадь, а не наоборот.
Imagen работает в режиме закрытой бета-версии и недоступна для всех желающих. Разработчики опасаются, что пользователи будут использовать нейросеть для генерации неприемлемых изображений, тем самым усугубляя принятые обществом предрассудки и стереотипы.