Алиса AI научилась лучше генерировать изображения с текстом на русском: как этим грамотно пользоваться

Яндекс обновил собственную модель Alice AI ART, которая используется для генерации изображений в чате с Алисой AI, сообщили «Коду Дурова» в компании.
После обновления нейросеть стала точнее создавать картинки с надписями на русском языке — например, постеры, афиши, открытки и рекламные материалы.
Почему кириллица сложна для нейросетей
Генерация текста внутри изображений остаётся одной из сложных задач для нейросетей. Такие модели воспринимают картинку как единое полотно пикселей и не всегда «понимают» буквы как отдельные символы со стабильной формой.
Особенно заметна проблема с кириллицей: в открытых датасетах русскоязычных надписей меньше, чем латиницы, поэтому моделям сложнее учиться различать буквы и устойчиво воспроизводить их форму.
Но проблема не только в количестве данных. Даже если собрать много изображений с русским текстом, их качество может быть недостаточным. В таком случае модель действительно научится чаще рисовать кириллицу, но при этом может потерять в общем качестве визуализации — например, хуже передавать детали, композицию или эстетику изображения.
Поэтому одна из главных сложностей заключается в балансе: нужно собрать достаточно разнообразный датасет с кириллицей, но при этом не ухудшить общее качество генерации.
Что изменили в Alice AI ART
Чтобы улучшить результат, команда Яндекса собрала собственный датасет пар «изображение — кириллический текст» с детальной разметкой символов.
- В претрейн модели добавили 30 млн семплов с текстами, а на этапе тонкой настройки — ещё около 100 тысяч изображений, отобранных не только по качеству текста, но и по визуальной эстетике.
Промт: акварель открытка с ромашками и надписью с днем семьи любви и верности
- Кроме датасета, разработчики изменили архитектуру модели: вместо классической UNet-сети используется DiT (Diffusion Transformer). Такой подход помогает модели лучше учитывать пространственные связи между частями изображения — это особенно важно для длинных надписей, где нужно сохранить порядок и форму букв.
- Также модель начали обучать на русскоязычных промптах, чтобы она понимала запрос напрямую, без промежуточного перевода с английского.
- Дополнительно в систему добавили рефрайзер, который уточняет расплывчатые локальные образы. Например, запрос вроде «наша столица» может быть преобразован в более конкретное описание с Москвой, Кремлём и Красной площадью.
Что получилось в итоге
По данным Яндекса, после обновления Alice AI ART:
- стала в 3 раза чаще генерировать изображения с корректным текстом на русском языке при использовании рекомендованных приёмов для промптов;
- на треть выросло и общее качество генераций: модель реже выдаёт визуальные искажения и лучше справляется с локальными культурными образами.
- лучше справляется с локальными культурными образами.
Промт: детские поделки с достопримечательностями величайшей страны, демонстрирующие творчество и национальную гордость.
Как писать промпты для русского текста
Чтобы получить максимальное качество, в Яндексе рекомендуют использовать три простых приёма:
- Кавычки. Любой текст, который должен оказаться на картинке, нужно заключать в кавычки: «текст для рендера».
Промт: нарисуй иллюстрацию к сказке, маленькая девочка Маша в красном плаще идёт через сказочный лес, вокруг светлячки и грибы с глазами, мягкая акварель, стиль современной детской книги, надпись «Маша и волшебный лес» детским шрифтом
- Заглавные буквы для сложных слов. Слова, где модель может ошибаться, лучше писать заглавными буквами внутри кавычек: «СЛОЖНОЕ СЛОВО простой текст». Это даёт модели дополнительный сигнал: на эти буквы нужно обратить особое внимание.
- Разбивка длинных надписей. Не стоит пытаться уместить всё в одну строку. Лучше разделить длинную фразу на несколько частей и явно указать расположение: «первые несколько слов» вверху, а чуть ниже — «эти слова». Так модель не будет пытаться сжать всё в одну строку.
Промт: нарисуй картинку для поста в соцсети, про раздачу котят, пять милых котят в аниме стиле, заголовок "ОТДАМ КОТЯТ"
Первый с подписью "Барсик" обычный серый
Второй с подписью "Рыжик" рыжий
Третий с подписью "Пушок" белый
Четвертый с подписью "Черепахич" трехцветный
Пятый с подписью "Ночка" черный
В Яндексе отмечают, что эти приёмы дают кратный рост качества. Особенно это важно для длинных надписей: например, фразы из 7–9 слов теперь генерируются корректно в большинстве случаев, тогда как для многих моделей длинные фразы остаются сложной задачей.
Обновлённая модель доступна пользователям Алисы AI и через Yandex AI Studio для бизнеса. В последнем случае её можно использовать в составе агентских сценариев — например, для автоматического создания изображений для карточек товаров, лендингов, презентаций или рекламных материалов.