От пикселей к физике: куда движется генеративный ИИ

Четыре года — достаточный срок, чтобы технология прошла путь от лабораторного эксперимента до инфраструктуры, которой пользуются миллионы.
Именно столько исполняется нейросети Kandinsky — одному из первых в мире генераторов изображений и видео. За это время сфера генеративного ИИ изменилась настолько радикально, что сравнивать начало и сегодняшний день почти невозможно — это как сопоставлять первые цифровые камеры с современной съёмкой на смартфон.
К своему юбилею команда Kandinsky решила оглянуться на путь, который прошли технологии генерации изображений и видео за последние годы, и подготовила специальную колонку для «Кода Дурова».
Где сегодня проходит технологическая граница, каких результатов уже удалось достичь и что может ждать генеративный ИИ по ту сторону этого рубежа в ближайшие несколько лет, читайте далее.
Первые подходы к генеративным моделям
Команда Сбера запустила свою первую версию модели для генерации изображений по текстовому описанию, ruDALL-E Malevich, ещё в конце 2021 года — тогда это была одна из самых первых в мире открытых нейросетей для создания картинок. Генерировала она изображения с разрешением 256×256 пикселей, содержащие лишь размытые пятна, отдалённо напоминающие что-то узнаваемое из указанного в текстовом запросе. С тех пор генерация изображений из нишевого эксперимента превратилась в повседневный инструмент, который используют разные люди: от школьников до профессиональных дизайнеров. А модели Сбера за это время сгенерировали больше миллиарда изображений и видео.
Денис Димитров, СТО Kandinsky, вспоминает тот момент так:
«Само понятие "напиши промпт — получи картинку" звучало как научная фантастика. Не было никакого ориентира — никто не знал, как это должно работать, как это должно выглядеть, какого качества ждать и будет ли вообще спрос. Мы были одними из первых, кто не просто сделал такую модель, но и сразу открыл к ней доступ — выложили веса и код модели, опубликовали подробную статьюи запустили бота в мессенджере для всех пользователей, пока другие команды держали разработки закрытыми».
Как измеряют качество
Прогресс в генерации изображений — штука неочевидная. Чтобы понять, насколько новая модель опережает по качеству предыдущую разработчики используют целый комплекс решений. Есть автоматические метрики: каскад моделей анализирует что сгенерировала нейросеть и проверяет, совпадает ли цвет волос с промптом, нет ли ошибок и артефактов, правильно ли выстроена композиция. Но они могут быть неточными. Надёжнее — человеческая оценка: по каждому сгенерированному изображению асессоры отвечают на 50–100 конкретных вопросов — завален ли горизонт, нет ли артефактов, совпадает ли результат с запросом. Из ответов считается средняя оценка.
Есть и другой формат — открытые арены вроде Arena AI, где любой пользователь пишет промт и выбирает из двух созданных картинок или видео, не видя какие модели их создали. После сотен тысяч таких голосований, за достоверностью которых следят специальные алгоритмы, отсеивающие голоса ботов, можно более-менее объективно оценивать «силу» каждой модели. Принцип оценивания очень похож на то, как рассчитывают силу игрока в шахматах, и называется моделью Брэдли-Терри, а «сила» модели представляется коэффициентом Эло, названного в честь венгерского физика Апреда Эло. В рамках этой модели дополнительно можно посчитать даже доверительные интервалы, которые дают честный срез того, как реальные люди воспринимают качество генерации. Именно на Arena AI Kandinsky 5.0 Video в декабре 2025 года заняла первое место среди всех открытых моделей в задаче генерации видео по тексту, и до сих пор удерживает эту лидирующую позицию.
Кроме того, качество можно оценить и анализируя статистику использования и удовлетворенность пользования модели в различных общедоступных сервисах. Это очень полезный сигнал, который подсказывает, в каком направлении стоит развивать будущие версии моделей и продуктов.
Куда движется прогресс
Главный технический сдвиг последних лет — новые техники обучения, которые вместе с всё увеличивающимися объёмами обучающих данных и совершенствованием методов их очистки и фильтрации дают колоссальный прирост качества финальной модели. Одна из ключевых техник — обучение с подкреплением (reinforcement learning): модель генерирует множество вариантов, получает оценку за каждый и учится на ошибках. Чем больше попыток и итераций — тем выше итоговое качество. Именно эта механика резко подняла планку языковых моделей, и теперь то же самое применяется к картинкам.
Есть области, где генерация до сих пор слабая: физически корректные сцены, сложная каллиграфия, слайды и чертежи.
«Три года назад модели вообще не умели рисовать текст и сложные схемы, — говорит Димитров. — Сейчас это уже решается, но впереди ещё много работы».
Команда Kandinsky постоянно исследует новые принципы и техники обучения, а затем переносит эти наработки в продукт. Флагманская модель Kandinsky 6.0 Image построена на архитектуре Mixture of Experts: вместо того чтобы задействовать всю модель на каждый запрос, система активирует только нужные специализированные блоки — это значимо удешевляет обучение, даёт возможность масштабирования модели, а также ускоряет её работу и повышает точность на сложных инструкциях. Из заметных новых возможностей — генерация по нескольким референсным фото (до трёх) и точечное редактирование с ручным выделением объекта. С помощью этих фичей можно, например, отреставрировать повреждённый снимок или сделать полноценную нейрофотосессию.
Видео: от минут ожидания к генерации в реальном времени
Видеогенерация — следующий рубеж после синтеза изображений, и технически это на несколько порядков сложнее. Если для картинки модель работает с одним кадром, то для видео нужно удерживать связность сотен кадров одновременно — и делать это быстро.
Сейчас генерация одного ролика занимает несколько минут: модель буквально «проявляет» видео из случайного шума шаг за шагом, как фотограф или видеограф в тёмной комнате. Чем меньше таких шагов удаётся сделать без потери качества — тем быстрее работает система. Исследователям уже удалось сократить этот процесс в десять раз.
Следующий шаг — генерация кадр за кадром по аналогии с тем, как языковая модель выдаёт текст слово за словом: первые секунды видео появляются сразу, остальное генерируется на их основе. Nvidia уже показала модель, работающую в реальном времени. Современные модели учатся создавать видео с синхронным звуком, с голосом или музыкой, что также открывает новые возможности для применения в креативных индустриях.
Что дальше
За последние годы модели научились создавать убедительные картинки и видео — но следующий шаг принципиально другой. Модели мира не просто рисуют, а понимают: как устроено пространство, где находятся объекты, что произойдёт, если один из них сдвинуть. Это ближе к симулятору реальности, чем к генератору картинок.
Google DeepMind Veo позволяет управлять тем, что происходит внутри сцены — куда смотрит персонаж, как он движется. Genie или Cosmos идут дальше: можно описать любую среду и получить виртуальный мир, по которому можно ходить и менять его голосом или действиями прямо в процессе. По сути в реальном времени создаётся генеративный игровой движок. Для архитекторов и дизайнеров это означает, что клиент больше не смотрит на плоский рендер — он заходит внутрь проекта до того, как забит первый гвоздь.
Следующий рубеж — робототехника. Чтобы робот действовал в реальном мире, он должен понимать физику: как упадёт предмет, что будет, если схватить объект вот так, а не иначе. Именно через модели мира можно перенести навыки пространственного понимания мира из виртуальной среды на реальные механизмы.
«Развитие современных методов и архитектур генерации видео в ближайшем будущем позволит создать модели, которые смогут устойчиво управлять различными видами роботов и устойчиво решать сложные задачи в реальных средах, , — говорит Димитров. — В горизонте 5–10 лет роботы-помощники перестанут быть экзотикой».