OpenAI запустила бесплатную модель для создания составных изображений на базе GPT-4o

GigaChat Max кратко объясняет суть статьи
OpenAI представила функцию генерации изображений 4o Image Generation на основе GPT-4o, доступную пользователям ChatGPT. Новая модель превосходит DALL·E 3 в понимании контекста, точности выполнения сложных инструкций и четкости работы с текстом на изображениях. Генерация происходит построчно слева направо и сверху вниз, обеспечивая высокую точность деталей, особенно при работе с текстом и множеством объектов. Улучшена обработка прозрачного фона и добавлена функция редактирования загруженных изображений. OpenAI внедрила строгие меры безопасности: изображения снабжаются метаданными происхождения, запрещено создание дипфейков и материалов с насилием. Инструмент доступен бесплатно с ограничением трех изображений в день.
OpenAI официально представила новую функцию генерации изображений в ChatGPT на базе модели GPT-4o.
В отличие от прежнего DALL·E 3, эта система гораздо лучше понимает контекст, чётко обрабатывает сложные инструкции, правильно связывает атрибуты с объектами и умеет генерировать читаемый текст прямо на изображениях без искажений. Инструмент получил название 4o Image Generation и уже сегодня станет доступен всем пользователям, включая тех, кто пользуется ChatGPT бесплатно — с лимитом до трёх изображений в день, как и в случае с DALL·E.

Главное отличие новой системы в том, что она генерирует изображение постепенно — слева направо и сверху вниз, что позволяет более точно контролировать детали, особенно при работе с надписями и множественными объектами.

Например, если задать сцену с десятком различных фигур и цветов, GPT-4o справится без ошибок, тогда как другие модели начинают путаться уже на пятом-шестом элементе. Также улучшилась работа с прозрачным фоном, что делает модель особенно полезной для генерации логотипов, стикеров и элементов интерфейса.

Ещё одна новинка — возможность редактировать уже загруженные изображения. Пользователь может, к примеру, попросить добавить объект на фото или убрать ненужный элемент, и система корректно выполнит задачу по текстовому описанию.

OpenAI отдельно подчеркнула меры безопасности. Все изображения маркируются метаданными C2PA, указывающими на их происхождение, а система отказывает в генерации дипфейков, сцен с насилием и других чувствительных тем. По словам разработчиков, особое внимание было уделено предотвращению злоупотреблений, на фоне недавних скандалов с дипфейками и фальсификациями.
Таким образом, 4o Image Generation — это шаг вперёд не только в плане качества генерации, но и в плане ответственности. Новый инструмент делает ChatGPT более универсальным и приближает нейросеть к статусу полноценного мультимодального ассистента.
Читать первым в Telegram-канале «Код Дурова»