Глубокое погружение: о чём говорили на самом хардкорном треке AI Journey — Deep Dive

Чем отметился трек AIJ Deep Dive, ставший главным мыслительным центром конференции Сбера, и кого он собрал под одной крышей — в нашем репортаже с места событий.

Когда конференция AI Journey впервые стартовала в России, то массовому слушателю ещё нужно было что-то разъяснять об искусственном интеллекте: почему это не просто очередная технологическая игрушка, а будущая точка роста для всей экономики, почему он перевернёт жизнь каждого и так далее. Это был форсайт, прогноз, разговор о том, что «когда-нибудь» ИИ станет чем-то важным.

Сегодня, спустя десять лет после первой AIJ, ситуация перевернулась. В 2025 году ИИ больше не перспектива, а основа инфраструктуры, такая же базовая, как электричество или интернет. Его значение понимают все: от крупных компаний до студентов, от государственных институтов до школьников, которые пишут свои первые модели в кружках.

И если сердце AIJ все ещё про будущее, то главный мыслительный центр конференции сместился в трек AIJ Deep Dive, который проходил параллельно с основной конференцией. Здесь представители крупнейших российских компаний — Сбер, Т-Банк, Полюс, Билайн и другие — рассказывали про технологии, которые работают уже сейчас, про эксперименты, которые запускают в прототипы, и прототипы, которые через месяц уходят в прод. То есть про то, что формирует рынок ИИ сегодня.

От будущего к сегодняшнему дню

Программная сессия была у Фёдора Минькина, технического директора GigaChat. Он подробно рассказал, почему новое поколение нейросети GigaChat 3.0 важно для всего рынка.

«Мы можем создавать ИИ-системы, которые действуют, а не просто чатятся с тобой» — Фёдор Минькин на AI Journey 2025
Как развивается GigaChat с технической точки зрения, на что нейросети будут способны в будущем, почему так важен open source, и как младшим разработчикам и дата-сайентистам оставаться в тренде?

В него входят две ключевые модели: Lightning и Ultra-Preview. Обе — превосходят аналоги по качеству работы с русским языком. Lightning — быстрая и лёгкая, а ещё доступная, дешевле предыдущих решений.

Ultra-Preview — противоположный полюс: 702 млрд параметров, крупнейшая модель, обученная в России. Одной из её ключевых особенностей является использование технологии Mixture of Experts (MoE), которая позволяет эффективно масштабировать модель, сохраняя при этом низкие затраты на инференс. Благодаря этой технологии, несмотря на свои гигантские размеры, модель остается экономически выгодной в эксплуатации. И главное — Lightning и Ultra-Preview вышли в open source.

Команда также развивает мультимодальность: интеграцию с поиском, интерпретатор, систему памяти и акустическую модель GigaAM, которая позволяет GigaChat работать с аудио и видео.

Голос, картинки и эмоции

Про голосовой синтез в этом году говорили особенно много. Евгений Лагутин из SberDevices рассказал о том, как модель GigaTTS решает проблемы, которые долгое время считались фундаментальными для синтеза речи: от естественной интонации и передачи эмоций до работы в режиме реального времени. Акцент сделан на возможности тонкого контроля стиля речи и широком спектре специализированных голосов: от дикторского до «фристайл-голоса» с живой спонтанной интонацией.

Примеры эмоционально окрашенной синтезированной речи, которые демонстрировал Евгений, звучали как варианты хорошего дубляжа или реплики из видеоигры: легко спутать с хорошей актёрской игрой.

Следующий шаг — создание единой мультимодальной голосовой модели, которая сможет не просто воспроизводить текст с выбранной интонацией, а понимать контекст и эмоциональное состояние пользователя. По сути, речь идёт о появлении нового поколения голосовых ассистентов, которые не читают текст, а ведут диалог: понимают настроение, реагируют гибко и естественно, меняют темп, ритм и эмоциональную окраску.

Здесь же подробно представили новую диффузионную модель для генерации изображений и видео Kandinsky 5.0 (времени на всё, естественно, не хватило, спикера практически вынудили уступить сцену следующему).

Модель построена на собственном диффузионном трансформере и новом VAE, обучена на сотнях миллионов изображений и видео, рассказал ​​Денис Димитров руководитель команды разработки нейросетей Kandinsky  в Сбере.

Главный технологический прорыв — метод NABLA, который почти втрое ускоряет обучение и позволяет генерировать HD-видео без потери качества. Модель научилась решать четыре ключевые задачи — от text-to-video до image editing — и уже используется в реальных сервисах: от дизайна помещений в Домклике до AR-примерки товаров в Самокате.

Кейсы из реального сектора

Было на AIJ Deep Dive и про менее очевидные отрасли, например, трансформацию тяжёлой промышленности, о которой рассказывал Данил Ивашечкин, руководитель направления искусственного интеллекта «Норникеля». Его доклад был, по сути, демонстрацией того, как далеко промышленность ушла от пилотов и экспериментов: у них ИИ уже управляет 90% производственных процессов компании, оптимизирует металлургические цепочки и снижает себестоимость операций. Но главное — «Норникель» не столько внедряет готовые решения, сколько создаёт собственную исследовательскую повестку.

Например, спикер рассказал о проекте, у которого в мире пока нет аналогов: первой большой металлургической языковой модели, доменной LLM для всей отрасли. Она будет обучена на массиве отраслевых знаний — от технологических регламентов до экспертных комментариев — объёмом около 10 гигабайт и полумиллиона Q&A-пар. То есть речь идёт не о «простом» ассистенте, а о системе, способной понимать металлургию как отраслевую логику: от сырья до готового металла, от химии процесса до инженерных решений.

Кто слушает хардкор

В финальный день конференции случилась самая хардкорная сессия. Валерий Терновский, тимлид RnD NLP Сбербанка, поднял тему, которая волнует всех AI-гиков: как заставить трансформеры работать с длинными контекстами без чудовищных требований к памяти: чем больше контекст, тем быстрее растут затраты, и именно это сегодня ограничивает развитие моделей.

Самое важное в выступлении — результаты экспериментов, которые команда провела вместе с партнёром — Институтом AIRI. Оказалось, что модели можно заметно «облегчить» без потери качества: в 36-слойной архитектуре (типичной для современных LLM) достаточно оставить всего четыре обычных слоя внимания, а остальные заменить линейными. Модель работает быстрее, требует меньше памяти, а качество почти не меняется. Терновский отметил, что такие гибридные схемы ещё нужно аккуратно настраивать, но их потенциал огромен — именно они могут стать основой трансформеров, которые спокойно работают с длинными текстами и стоят дешевле в эксплуатации.

Найти правильную аудиторию, которая внимательно будет слушать рассуждения на таком уровне — задача непростая. Но в этом смысле у трека Deep Dive совершенно другая аудитория по сравнению с основной программой, другой уровень вовлечённости и восприятия темы. В залах сидели ведущие инженеры, исследователи, фаундеры, инвесторы, студенты технических вузов и даже школьники — победители олимпиад.

Это и есть та самая будущая волна, которая будет накрывать мир и двигать ИИ-революцию сегодня, завтра и далее.