Содержание
Читайте в Telegram
|
Четыре года — достаточный срок, чтобы технология прошла путь от лабораторного эксперимента до инфраструктуры, которой пользуются миллионы.
Именно столько исполняется нейросети Kandinsky — одному из первых в мире генераторов изображений и видео. За это время сфера генеративного ИИ изменилась настолько радикально, что сравнивать начало и сегодняшний день почти невозможно — это как сопоставлять первые цифровые камеры с современной съёмкой на смартфон.
К своему юбилею команда Kandinsky решила оглянуться на путь, который прошли технологии генерации изображений и видео за последние годы, и подготовила специальную колонку для «Кода Дурова».
Где сегодня проходит технологическая граница, каких результатов уже удалось достичь и что может ждать генеративный ИИ по ту сторону этого рубежа в ближайшие несколько лет, читайте далее.
Первые подходы к генеративным моделям
Команда Сбера запустила первую версию модели для генерации изображений по текстовому описанию в конце 2021 года — одну из первых в мире открытых нейросетей для картинок в мире. Тогда это были картинки 256×256 пикселей, размытые пятна, отдалённо напоминающие что-то узнаваемое. С тех пор генерация изображений из нишевого эксперимента превратилась в повседневный инструмент, который используют от профессиональных дизайнеров до школьников. А модели Сбера за это время сгенерировали больше миллиарда изображений и видео.




Денис Димитров, СТО Kandinsky, вспоминает тот момент так:
«Само понятие "напиши промпт — получи картинку" звучало как научная фантастика. Не было никакого ориентира — никто не знал, как это должно работать, как это должно выглядеть, какого качества ждать и будет ли вообще спрос. Мы были одними из первых, кто не просто сделал такую модель, но и сразу открыл к ней доступ — выложили веса вместе со статьёй и запустили бота в мессенджере для всех пользователей, пока другие команды держали разработки закрытыми».
Как измеряют качество
Прогресс в генерации изображений — штука неочевидная. Чтобы понять, насколько новая модель опережает по качеству предыдущую разработчики используют целый комплекс решений. Есть автоматические метрики: каскад моделей анализирует что сгенерировала нейросеть и проверяет, совпадает ли цвет волос с промптом, нет ли ошибок и артефактов, правильно ли выстроена композиция. Но они могут быть неточными. Надёжнее — человеческая оценка: по каждому сгенерированному изображению асессоры отвечают на 50–100 конкретных вопросов — завален ли горизонт, нет ли артефактов, совпадает ли результат с запросом. Из ответов считается средняя оценка.



Есть и другой формат — открытые арены вроде Arena AI, где любой пользователь пишет промт и выбирает из двух созданных картинок или видео, не видя какие модели их создали. После сотен тысяч таких голосований, за достоверностью которых следят специальные алгоритмы, отсеивающие голоса ботов, можно более-менее объективно оценивать «силу» каждой модели. Принцип оценивания очень похож на то, как рассчитывают силу игрока в шахматах, и называется моделью Брэдли-Терри, а «сила» модели представляется коэффициентом Эло, названного в честь венгерского физика Апреда Эло. В рамках этой модели дополнительно можно посчитать даже доверительные интервалы, которые дают честный срез того, как реальные люди воспринимают качество генерации. Именно на Arena AI Kandinsky 5.0 Video в декабре 2025 года заняла первое место среди всех открытых моделей в задаче генерации видео по тексту, и до сих пор удерживает эту лидирующую позицию.
Кроме того, качество можно оценить и анализируя статистику использования и удовлетворенность пользования модели в различных общедоступных сервисах. Это очень полезный сигнал, который подсказывает, в каком направлении стоит развивать будущие версии моделей и продуктов.
Куда движется прогресс
Главный технический сдвиг последних лет — новые техники обучения, которые вместе с всё увеличивающимися объёмами обучающих данных и совершенствованием методов их очистки и фильтрации дают колоссальный прирост качества финальной модели. Одна из ключевых техник — обучение с подкреплением (reinforcement learning): модель генерирует множество вариантов, получает оценку за каждый и учится на ошибках. Чем больше попыток и итераций — тем выше итоговое качество. Именно эта механика резко подняла планку языковых моделей, и теперь то же самое применяется к картинкам.

Есть области, где генерация до сих пор слабая: физически корректные сцены, сложная каллиграфия, слайды и чертежи.
«Три года назад модели вообще не умели рисовать текст и сложные схемы, — говорит Димитров. — Сейчас это уже решается, но впереди ещё много работы».




Команда Kandinsky постоянно исследует новые принципы и техники обучения, а затем переносит эти наработки в продукт. Флагманская модель Kandinsky 6.0 Image построена на архитектуре Mixture of Experts: вместо того чтобы задействовать всю модель на каждый запрос, система активирует только нужные специализированные блоки — это значимо удешевляет обучение, даёт возможность масштабирования моделей, а также ускоряет её работу и повышает точность на сложных инструкциях. Из заметных новых возможностей — генерация по нескольким референс-фото, точечное редактирование с ручным выделением объекта, реставрация повреждённых снимков и нейрофотосессии.
Видео: от минут ожидания к реальному времени
Видеогенерация — следующий рубеж после изображений, и технически это на несколько порядков сложнее. Если для картинки модель работает с одним кадром, то для видео нужно удерживать связность сотен кадров одновременно — и делать это быстро.
Сейчас генерация одного ролика занимает несколько минут: модель буквально «проявляет» видео из случайного шума шаг за шагом, как фотограф или видеограф в тёмной комнате. Чем меньше таких шагов удаётся сделать без потери качества — тем быстрее работает система. Исследователям уже удалось сократить этот процесс в десять раз.




Следующий шаг — генерация кадр за кадром, как языковая модель выдаёт текст слово за словом: первые секунды видео появляются сразу, остальное догоняет. Nvidia уже показала модель, работающую в реальном времени. Современные модели учатся создавать видео с синхронным звуком, с голосом или музыкой, что также открывает новые возможности для применения в креативных индустриях.
Что дальше
За последние годы модели научились создавать убедительные картинки и видео — но следующий шаг принципиально другой. Модели мира не просто рисуют, а понимают: как устроено пространство, где находятся объекты, что произойдёт, если один из них сдвинуть. Это ближе к симулятору реальности, чем к генератору картинок.
Google DeepMind Veo позволяет управлять тем, что происходит внутри сцены — куда смотрит персонаж, как он движется. Genie или Cosmos идёт дальше: можно описать любую среду и получить виртуальный мир, по которому можно ходить и менять его голосом прямо в процессе. Для архитекторов и дизайнеров это означает, что клиент больше не смотрит на плоский рендер — он заходит внутрь проекта до того, как забит первый гвоздь.




Следующий рубеж — робототехника. Чтобы робот действовал в реальном мире, он должен понимать физику: как упадёт предмет, что будет, если схватить объект вот так, а не иначе. Именно этому учат модели мира — сначала в виртуальной среде, потом те же навыки переносятся на реальные механизмы.
«Те же архитектуры, что сегодня управляют сценами в виртуальных средах, завтра будут управлять реальными объектами, — говорит Димитров. — В горизонте 5–10 лет роботы-помощники перестанут быть экзотикой».








