Google представила Imagen 4 — модель для генерации изображений с улучшенным качеством текста

Google анонсировала новую модель для генерации изображений Imagen 4, а также её продвинутую версию Imagen 4 Ultra. По заявлению компании, она стала заметно лучшее в качество отрисовки текста, чего в подобных моделях до сих пор достигали с трудом.

Модель обучена на обширных датасетах и позволяет не только создавать детализированные картинки по текстовому описанию, но и более точно воспроизводить надписи, как отдельные фразы, так и текст, встроенный в объекты.

Например, если в промпте указано, что на космическом корабле должно быть написано «Звездная пыль», модель действительно рендерит читаемую надпись на корпусе, а не искажённый набор символов, как это часто случалось раньше.

Google выпустила сразу две версии:

Imagen 4 — универсальная модель для широкой аудитории и типовых запросов;
Imagen 4 Ultra — более точная и мощная версия, предназначенная для генерации изображений, максимально соответствующих тексту. Она требует чуть больше ресурсов и стоит дороже.

Модель доступна:

Бесплатно в Google AI Studio (но не открывается с российских IP);
Через Gemini API — по цене $0.04 за обычное изображение и $0.06 за изображение, созданное Ultra-версией.
В чат-боте Gemini модель пока недоступна, но Google обещает добавить её позднее. Подписка на генерацию через AI Studio появится в ближайшие недели.

Предыдущая версия Imagen 3 вышла в мае 2024 года и уже тогда делала заметные шаги в сторону качества и текстовой точности. Imagen 4 продолжает это направление, ставя акцент на реалистичность, детализацию и внятный текст на изображениях.