Алиса AI научилась лучше генерировать изображения с текстом на русском: как этим грамотно пользоваться

Яндекс обновил собственную модель Alice AI ART, которая используется для генерации изображений в чате с Алисой AI, сообщили «Коду Дурова» в компании.

После обновления нейросеть стала точнее создавать картинки с надписями на русском языке — например, постеры, афиши, открытки и рекламные материалы.

Почему кириллица сложна для нейросетей

Генерация текста внутри изображений остаётся одной из сложных задач для нейросетей. Такие модели воспринимают картинку как единое полотно пикселей и не всегда «понимают» буквы как отдельные символы со стабильной формой.

Особенно заметна проблема с кириллицей: в открытых датасетах русскоязычных надписей меньше, чем латиницы, поэтому моделям сложнее учиться различать буквы и устойчиво воспроизводить их форму.

Но проблема не только в количестве данных. Даже если собрать много изображений с русским текстом, их качество может быть недостаточным. В таком случае модель действительно научится чаще рисовать кириллицу, но при этом может потерять в общем качестве визуализации — например, хуже передавать детали, композицию или эстетику изображения.

Поэтому одна из главных сложностей заключается в балансе: нужно собрать достаточно разнообразный датасет с кириллицей, но при этом не ухудшить общее качество генерации.

Что изменили в Alice AI ART

Чтобы улучшить результат, команда Яндекса собрала собственный датасет пар «изображение — кириллический текст» с детальной разметкой символов.

  • В претрейн модели добавили 30 млн семплов с текстами, а на этапе тонкой настройки — ещё около 100 тысяч изображений, отобранных не только по качеству текста, но и по визуальной эстетике.
Промт: акварель открытка с ромашками и надписью с днем семьи любви и верности
  • Кроме датасета, разработчики изменили архитектуру модели: вместо классической UNet-сети используется DiT (Diffusion Transformer). Такой подход помогает модели лучше учитывать пространственные связи между частями изображения — это особенно важно для длинных надписей, где нужно сохранить порядок и форму букв.
  • Также модель начали обучать на русскоязычных промптах, чтобы она понимала запрос напрямую, без промежуточного перевода с английского.
  • Дополнительно в систему добавили рефрайзер, который уточняет расплывчатые локальные образы. Например, запрос вроде «наша столица» может быть преобразован в более конкретное описание с Москвой, Кремлём и Красной площадью.

Что получилось в итоге

По данным Яндекса, после обновления Alice AI ART:

  • стала в 3 раза чаще генерировать изображения с корректным текстом на русском языке при использовании рекомендованных приёмов для промптов;
  • на треть выросло и общее качество генераций: модель реже выдаёт визуальные искажения и лучше справляется с локальными культурными образами.
  • лучше справляется с локальными культурными образами.
Промт: детские поделки с достопримечательностями величайшей страны, демонстрирующие творчество и национальную гордость.

Как писать промпты для русского текста

Чтобы получить максимальное качество, в Яндексе рекомендуют использовать три простых приёма:

  • Кавычки. Любой текст, который должен оказаться на картинке, нужно заключать в кавычки: «текст для рендера».
Промт: нарисуй иллюстрацию к сказке, маленькая девочка Маша в красном плаще идёт через сказочный лес, вокруг светлячки и грибы с глазами, мягкая акварель, стиль современной детской книги, надпись «Маша и волшебный лес» детским шрифтом
  • Заглавные буквы для сложных слов. Слова, где модель может ошибаться, лучше писать заглавными буквами внутри кавычек: «СЛОЖНОЕ СЛОВО простой текст». Это даёт модели дополнительный сигнал: на эти буквы нужно обратить особое внимание.
  • Разбивка длинных надписей. Не стоит пытаться уместить всё в одну строку. Лучше разделить длинную фразу на несколько частей и явно указать расположение: «первые несколько слов» вверху, а чуть ниже — «эти слова». Так модель не будет пытаться сжать всё в одну строку.
Промт: нарисуй картинку для поста в соцсети, про раздачу котят, пять милых котят в аниме стиле, заголовок "ОТДАМ КОТЯТ"
Первый с подписью "Барсик" обычный серый
Второй с подписью "Рыжик" рыжий
Третий с подписью "Пушок" белый
Четвертый с подписью "Черепахич" трехцветный
Пятый с подписью "Ночка" черный

В Яндексе отмечают, что эти приёмы дают кратный рост качества. Особенно это важно для длинных надписей: например, фразы из 7–9 слов теперь генерируются корректно в большинстве случаев, тогда как для многих моделей длинные фразы остаются сложной задачей.


Обновлённая модель доступна пользователям Алисы AI и через Yandex AI Studio для бизнеса. В последнем случае её можно использовать в составе агентских сценариев — например, для автоматического создания изображений для карточек товаров, лендингов, презентаций или рекламных материалов.