14 июня 2026

eur = 82.97 -0.11 (-0.13 %)

btc = 64 530.00$ 934.38 (1.47 %)

eth = 1 681.43$ 14.15 (0.85 %)

ton = 1.72$ 0.03 (2.03 %)

usd = 71.91 0.12 (0.17 %)

eur = 82.97 -0.11 (-0.13 %)

btc = 64 530.00$ 934.38 (1.47 %)

От пикселей к физике: куда движется генеративный ИИ

6 минут на чтение
От пикселей к физике: куда движется генеративный ИИ

Содержание

Читайте в Telegram

|

Четыре года — достаточный срок, чтобы технология прошла путь от лабораторного эксперимента до инфраструктуры, которой пользуются миллионы.

Именно столько исполняется нейросети Kandinsky — одному из первых в мире генераторов изображений и видео. За это время сфера генеративного ИИ изменилась настолько радикально, что сравнивать начало и сегодняшний день почти невозможно — это как сопоставлять первые цифровые камеры с современной съёмкой на смартфон.

К своему юбилею команда Kandinsky решила оглянуться на путь, который прошли технологии генерации изображений и видео за последние годы, и подготовила специальную колонку для «Кода Дурова».

Где сегодня проходит технологическая граница, каких результатов уже удалось достичь и что может ждать генеративный ИИ по ту сторону этого рубежа в ближайшие несколько лет, читайте далее.

Первые подходы к генеративным моделям

Команда Сбера запустила первую версию модели для генерации изображений по текстовому описанию в конце 2021 года  — одну из первых в мире открытых нейросетей для картинок в мире. Тогда это были картинки 256×256 пикселей, размытые пятна, отдалённо напоминающие что-то узнаваемое. С тех пор генерация изображений из нишевого эксперимента превратилась в повседневный инструмент, который используют от профессиональных дизайнеров до школьников. А модели Сбера за это время сгенерировали больше миллиарда изображений и видео.

Денис Димитров, СТО Kandinsky, вспоминает тот момент так:

«Само понятие "напиши промпт — получи картинку" звучало как научная фантастика. Не было никакого ориентира — никто не знал, как это должно работать, как это должно выглядеть, какого качества ждать и будет ли вообще спрос. Мы были одними из первых, кто не просто сделал такую модель, но и сразу открыл к ней доступ — выложили веса вместе со статьёй и запустили бота в мессенджере для всех пользователей, пока другие команды держали разработки закрытыми».

Как измеряют качество

Прогресс в генерации изображений — штука неочевидная. Чтобы понять, насколько новая модель опережает по качеству предыдущую разработчики используют целый комплекс решений. Есть автоматические метрики: каскад моделей анализирует что сгенерировала нейросеть и проверяет, совпадает ли цвет волос с промптом, нет ли ошибок и артефактов, правильно ли выстроена композиция. Но они могут быть неточными. Надёжнее — человеческая оценка: по каждому сгенерированному изображению асессоры отвечают на 50–100 конкретных вопросов — завален ли горизонт, нет ли артефактов, совпадает ли результат с запросом. Из ответов считается средняя оценка.

Есть и другой формат — открытые арены вроде Arena AI, где любой пользователь пишет промт и выбирает из двух созданных картинок или видео, не видя какие модели их создали. После сотен тысяч таких голосований, за достоверностью которых следят специальные алгоритмы, отсеивающие голоса ботов, можно более-менее объективно оценивать «силу» каждой модели. Принцип оценивания очень похож на то, как рассчитывают силу игрока в шахматах, и называется моделью Брэдли-Терри, а «сила» модели представляется коэффициентом Эло, названного в честь венгерского физика Апреда Эло. В рамках этой модели дополнительно можно посчитать даже доверительные интервалы, которые дают честный срез того, как реальные люди воспринимают качество генерации. Именно на Arena AI Kandinsky 5.0 Video в декабре 2025 года заняла первое место среди всех открытых моделей в задаче генерации видео по тексту, и до сих пор удерживает эту лидирующую позицию.

Кроме того, качество можно оценить и анализируя статистику использования и удовлетворенность пользования модели в различных общедоступных сервисах. Это очень полезный сигнал, который подсказывает, в каком направлении стоит развивать будущие версии моделей и продуктов.

Куда движется прогресс

Главный технический сдвиг последних лет — новые техники обучения, которые вместе с всё увеличивающимися объёмами обучающих данных и совершенствованием методов их очистки и фильтрации дают колоссальный прирост качества финальной модели. Одна из ключевых техник — обучение с подкреплением (reinforcement learning): модель генерирует множество вариантов, получает оценку за каждый и учится на ошибках. Чем больше попыток и итераций — тем выше итоговое качество. Именно эта механика резко подняла планку языковых моделей, и теперь то же самое применяется к картинкам.

От пикселей к физике: куда движется генеративный ИИ
Пример генерации в Kandinsky 3

Есть области, где генерация до сих пор слабая: физически корректные сцены, сложная каллиграфия, слайды и чертежи.

«Три года назад модели вообще не умели рисовать текст и сложные схемы, — говорит Димитров. — Сейчас это уже решается, но впереди ещё много работы».

Команда Kandinsky постоянно исследует  новые принципы и техники обучения, а затем переносит эти наработки в продукт. Флагманская модель Kandinsky 6.0 Image построена на архитектуре Mixture of Experts: вместо того чтобы задействовать всю модель на каждый запрос, система активирует только нужные специализированные блоки — это значимо удешевляет обучение, даёт возможность масштабирования моделей, а также ускоряет её работу и повышает точность на сложных инструкциях. Из заметных новых возможностей — генерация по нескольким референс-фото, точечное редактирование с ручным выделением объекта, реставрация повреждённых снимков и нейрофотосессии.

Видео: от минут ожидания к реальному времени

Видеогенерация — следующий рубеж после изображений, и технически это на несколько порядков сложнее. Если для картинки модель работает с одним кадром, то для видео нужно удерживать связность сотен кадров одновременно — и делать это быстро.

Сейчас генерация одного ролика занимает несколько минут: модель буквально «проявляет» видео из случайного шума шаг за шагом, как фотограф или видеограф в тёмной комнате. Чем меньше таких шагов удаётся сделать без потери качества — тем быстрее работает система. Исследователям уже удалось сократить этот процесс в десять раз.

Следующий шаг — генерация кадр за кадром, как языковая модель выдаёт текст слово за словом: первые секунды видео появляются сразу, остальное догоняет. Nvidia уже показала модель, работающую в реальном времени. Современные модели учатся создавать видео с синхронным звуком, с голосом или музыкой, что также открывает новые возможности для применения в креативных индустриях.

Что дальше

За последние годы модели научились создавать убедительные картинки и видео — но следующий шаг принципиально другой. Модели мира не просто рисуют, а понимают: как устроено пространство, где находятся объекты, что произойдёт, если один из них сдвинуть. Это ближе к симулятору реальности, чем к генератору картинок.

Google DeepMind Veo позволяет управлять тем, что происходит внутри сцены — куда смотрит персонаж, как он движется. Genie или Cosmos идёт дальше: можно описать любую среду и получить виртуальный мир, по которому можно ходить и менять его голосом прямо в процессе. Для архитекторов и дизайнеров это означает, что клиент больше не смотрит на плоский рендер — он заходит внутрь проекта до того, как забит первый гвоздь.

Следующий рубеж — робототехника. Чтобы робот действовал в реальном мире, он должен понимать физику: как упадёт предмет, что будет, если схватить объект вот так, а не иначе. Именно этому учат модели мира — сначала в виртуальной среде, потом те же навыки переносятся на реальные механизмы.

«Те же архитектуры, что сегодня управляют сценами в виртуальных средах, завтра будут управлять реальными объектами, — говорит Димитров. — В горизонте 5–10 лет роботы-помощники перестанут быть экзотикой».
Материал обновлен|
Обсудить
Блоги 615
ЦНИС
OTP Bank
Слетать.ру
Softline
ВКонтакте
ВТБ
билайн
Т-Банк
Газпромбанк
МТС

Привет, это Кодик! Я создан, чтобы помогать вам с  разными задачами. Задайте мне вопрос…