От пикселей к физике: куда движется генеративный ИИ

09:30, 14 июня 2026

5,7к

09:30, 14 июня 20266 минут на чтение

Абстрактная иллюстрация с сеткой из светящихся кубов, переходящих в светящиеся потоки и сферы на темном фоне.

Кодик кратко объясняет суть статьи

Четыре года назад стартовала разработка нейросети Kandinsky — одной из первых в мире моделей генерации изображений и видео. За это время генеративный ИИ прошёл путь от экспериментальных моделей с низким качеством до массового инструмента, используемого миллионами. Первая версия ruDALL-E Malevich (2021) создавала размытые изображения 256×256 пикселей, но уже тогда команда Сбера открыла доступ к коду и запустила бота, став пионером в открытости разработок. Сегодня модели Kandinsky сгенерировали более миллиарда изображений и видео. Оценка качества включает автоматические метрики, человеческие асессменты и открытые платформы вроде Arena AI, где пользователи сравнивают результаты анонимных моделей. По системе Эло, аналогичной шахматной, Kandinsky 5.0 Video заняла первое место в 2025 году среди открытых моделей генерации видео по тексту. Прогресс обеспечивается новыми методами обучения, особенно обучением с подкреплением, и ростом объёмов данных. Kandinsky 6.0 Image использует архитектуру Mixture of Experts, что повышает эффективность, масштабируемость и точность. Новые функции — генерация по нескольким референсам и точечное редактирование — позволяют, например, восстанавливать повреждённые фото или проводить нейрофотосессии. Генерация видео остаётся сложной задачей из-за необходимости сохранять связность сотен кадров. Сейчас процесс занимает минуты, но оптимизация сократила число шагов в десять раз. Следующий этап — генерация в реальном времени, как у моделей Nvidia, и создание видео со звуком. Будущее — за моделями мира, которые не просто генерируют изображения, а понимают физику и пространство. Решения вроде Google DeepMind Veo, Genie и Cosmos позволяют управлять сценами и создавать интерактивные виртуальные миры, полезные для архитектуры и дизайна. В перспективе эти технологии станут основой для робототехники, перенося навыки из виртуального мира в реальный. По прогнозам, в ближайшие 5–10 лет роботы-помощники станут повседневной реальностью.

Работает на базе Yandex AI Studio

Содержание

Читайте в Telegram

Четыре года — достаточный срок, чтобы технология прошла путь от лабораторного эксперимента до инфраструктуры, которой пользуются миллионы.

Именно столько исполняется нейросети Kandinsky — одному из первых в мире генераторов изображений и видео. За это время сфера генеративного ИИ изменилась настолько радикально, что сравнивать начало и сегодняшний день почти невозможно — это как сопоставлять первые цифровые камеры с современной съёмкой на смартфон.

К своему юбилею команда Kandinsky решила оглянуться на путь, который прошли технологии генерации изображений и видео за последние годы, и подготовила специальную колонку для «Кода Дурова».

Где сегодня проходит технологическая граница, каких результатов уже удалось достичь и что может ждать генеративный ИИ по ту сторону этого рубежа в ближайшие несколько лет, читайте далее.

Первые подходы к генеративным моделям

Команда Сбера запустила свою первую версию модели для генерации изображений по текстовому описанию, ruDALL-E Malevich, ещё в конце 2021 года — тогда это была одна из самых первых в мире открытых нейросетей для создания картинок. Генерировала она изображения с разрешением 256×256 пикселей, содержащие лишь размытые пятна, отдалённо напоминающие что-то узнаваемое из указанного в текстовом запросе. С тех пор генерация изображений из нишевого эксперимента превратилась в повседневный инструмент, который используют разные люди: от школьников до профессиональных дизайнеров. А модели Сбера за это время сгенерировали больше миллиарда изображений и видео.

От пикселей к физике: куда движется генеративный ИИ — Примеры генерации первой версии нейросети — тогда она называлась Malevich

Денис Димитров, СТО Kandinsky, вспоминает тот момент так:

«Само понятие "напиши промпт — получи картинку" звучало как научная фантастика. Не было никакого ориентира — никто не знал, как это должно работать, как это должно выглядеть, какого качества ждать и будет ли вообще спрос. Мы были одними из первых, кто не просто сделал такую модель, но и сразу открыл к ней доступ — выложили веса и код модели, опубликовали подробную статьюи запустили бота в мессенджере для всех пользователей, пока другие команды держали разработки закрытыми».

Как измеряют качество

Прогресс в генерации изображений — штука неочевидная. Чтобы понять, насколько новая модель опережает по качеству предыдущую разработчики используют целый комплекс решений. Есть автоматические метрики: каскад моделей анализирует что сгенерировала нейросеть и проверяет, совпадает ли цвет волос с промптом, нет ли ошибок и артефактов, правильно ли выстроена композиция. Но они могут быть неточными. Надёжнее — человеческая оценка: по каждому сгенерированному изображению асессоры отвечают на 50–100 конкретных вопросов — завален ли горизонт, нет ли артефактов, совпадает ли результат с запросом. Из ответов считается средняя оценка.

Есть и другой формат — открытые арены вроде Arena AI, где любой пользователь пишет промт и выбирает из двух созданных картинок или видео, не видя какие модели их создали. После сотен тысяч таких голосований, за достоверностью которых следят специальные алгоритмы, отсеивающие голоса ботов, можно более-менее объективно оценивать «силу» каждой модели. Принцип оценивания очень похож на то, как рассчитывают силу игрока в шахматах, и называется моделью Брэдли-Терри, а «сила» модели представляется коэффициентом Эло, названного в честь венгерского физика Апреда Эло. В рамках этой модели дополнительно можно посчитать даже доверительные интервалы, которые дают честный срез того, как реальные люди воспринимают качество генерации. Именно на Arena AI Kandinsky 5.0 Video в декабре 2025 года заняла первое место среди всех открытых моделей в задаче генерации видео по тексту, и до сих пор удерживает эту лидирующую позицию.

Кроме того, качество можно оценить и анализируя статистику использования и удовлетворенность пользования модели в различных общедоступных сервисах. Это очень полезный сигнал, который подсказывает, в каком направлении стоит развивать будущие версии моделей и продуктов.

Куда движется прогресс

Главный технический сдвиг последних лет — новые техники обучения, которые вместе с всё увеличивающимися объёмами обучающих данных и совершенствованием методов их очистки и фильтрации дают колоссальный прирост качества финальной модели. Одна из ключевых техник — обучение с подкреплением (reinforcement learning): модель генерирует множество вариантов, получает оценку за каждый и учится на ошибках. Чем больше попыток и итераций — тем выше итоговое качество. Именно эта механика резко подняла планку языковых моделей, и теперь то же самое применяется к картинкам.

Есть области, где генерация до сих пор слабая: физически корректные сцены, сложная каллиграфия, слайды и чертежи.

«Три года назад модели вообще не умели рисовать текст и сложные схемы, — говорит Димитров. — Сейчас это уже решается, но впереди ещё много работы».

Команда Kandinsky постоянно исследует новые принципы и техники обучения, а затем переносит эти наработки в продукт. Флагманская модель Kandinsky 6.0 Image построена на архитектуре Mixture of Experts: вместо того чтобы задействовать всю модель на каждый запрос, система активирует только нужные специализированные блоки — это значимо удешевляет обучение, даёт возможность масштабирования модели, а также ускоряет её работу и повышает точность на сложных инструкциях. Из заметных новых возможностей — генерация по нескольким референсным фото (до трёх) и точечное редактирование с ручным выделением объекта. С помощью этих фичей можно, например, отреставрировать повреждённый снимок или сделать полноценную нейрофотосессию.

Видео: от минут ожидания к генерации в реальном времени

Видеогенерация — следующий рубеж после синтеза изображений, и технически это на несколько порядков сложнее. Если для картинки модель работает с одним кадром, то для видео нужно удерживать связность сотен кадров одновременно — и делать это быстро.

Сейчас генерация одного ролика занимает несколько минут: модель буквально «проявляет» видео из случайного шума шаг за шагом, как фотограф или видеограф в тёмной комнате. Чем меньше таких шагов удаётся сделать без потери качества — тем быстрее работает система. Исследователям уже удалось сократить этот процесс в десять раз.

Следующий шаг — генерация кадр за кадром по аналогии с тем, как языковая модель выдаёт текст слово за словом: первые секунды видео появляются сразу, остальное генерируется на их основе. Nvidia уже показала модель, работающую в реальном времени. Современные модели учатся создавать видео с синхронным звуком, с голосом или музыкой, что также открывает новые возможности для применения в креативных индустриях.

Что дальше

За последние годы модели научились создавать убедительные картинки и видео — но следующий шаг принципиально другой. Модели мира не просто рисуют, а понимают: как устроено пространство, где находятся объекты, что произойдёт, если один из них сдвинуть. Это ближе к симулятору реальности, чем к генератору картинок.

Google DeepMind Veo позволяет управлять тем, что происходит внутри сцены — куда смотрит персонаж, как он движется. Genie или Cosmos идут дальше: можно описать любую среду и получить виртуальный мир, по которому можно ходить и менять его голосом или действиями прямо в процессе. По сути в реальном времени создаётся генеративный игровой движок. Для архитекторов и дизайнеров это означает, что клиент больше не смотрит на плоский рендер — он заходит внутрь проекта до того, как забит первый гвоздь.

Следующий рубеж — робототехника. Чтобы робот действовал в реальном мире, он должен понимать физику: как упадёт предмет, что будет, если схватить объект вот так, а не иначе. Именно через модели мира можно перенести навыки пространственного понимания мира из виртуальной среды на реальные механизмы.

«Развитие современных методов и архитектур генерации видео в ближайшем будущем позволит создать модели, которые смогут устойчиво управлять различными видами роботов и устойчиво решать сложные задачи в реальных средах, , — говорит Димитров. — В горизонте 5–10 лет роботы-помощники перестанут быть экзотикой».

Материал обновлен|10:47, 15 июня 2026

Обсудить

Gemini для Mac научилась умному голосовому управлению контентом. Как это работает

Huawei улучшит свой ноутбук из будущего. Каким будет MateBook Fold 2026?

Складные смартфоны теряют в цене быстрее остальных

UGREEN выпустил зарядку с поддержкой Wi-Fi

Французский адвокат объяснил, почему будет трудно экстрадировать Дурова из Франции

В США разработали умное кольцо, способное измерять уровень сахара и алкоголя по поту