«Мы можем создавать ИИ-системы, которые действуют, а не просто чатятся с тобой» — Фёдор Минькин на AI Journey 2025

«Код Дурова» посетил юбилейную конференцию искусственного интеллекта AI Journey 2025 и пообщался с техническим директором GigaChat Фёдором Минькиным.
Поговорили о развитии GigaChat с технической точки зрения, о её возможностях, а также о том, какую пользу в будущем должен будет приносить человеку GigaChat.
Также порассуждали о том, на что нейросети будут способны в будущем, о признании российских ИИ на мировом рынке, о том, почему важно выкладывать модели в open source и как младшим разработчикам и дата-сайентистам оставаться в тренде?
Видеоверсия интервью:
— Федор, привет! Мы с тобой виделись последний раз где-то полгода назад на конференции GigaConf. И с тех пор произошло много изменений, в том числе и в GigaChat. Расскажи, пожалуйста, об этих изменениях, над чем работала твоя команда, и может быть, приоткроешь анонсы, что будет дальше.
— Да, 4 месяца назад мы виделись, тогда мы работали над рассуждающими моделями и вторым поколением GigaChat. В последнее время мы работали над тем, чтобы запустить третье поколение GigaChat. В общем у нас задача простая — сделать ещё более умную модель, сдвигать границы того, что мы можем в России, учиться открывать новое, и предоставлять сервис, который умнеет каждый месяц.
Поэтому мы выпустили GigaChat 3. Он сейчас работает в режиме превью. Это самая большая модель, обученная вообще, наверное, в Европе и у нас. Он размером примерно как DeepSeek. Все же про DeepSeek слышали. Мы целились на модели такого же ранга, качества, и получилось неплохо, несмотря на то, что она ещё в статусе Preview.
Получилось достичь на русском классных метрик, обойти всё, что у нас есть сейчас, GigaChat 2 и все остальные наши модели. По русскому удалось занять первые места по многим метрикам, и DeepSeek обошли, Qwen и так далее. Там есть ещё над чем работать, мы хотим, чтобы наша модель сравнялась с лидерами по всем языкам. В английском мы ещё отстаём, потому что это Preview, но будем надеяться, что в финальной версии мы будем в паритете. Но по русскому мы уже сильно лучше — по крайней мере мы ТОП-1 сейчас среди моделей DeepSeek, Qwen и даже ChatGPT некоторые. Такой бенчмарк, набор тестов, который фокусируется только на русский язык. Поэтому мы его считаем одним из важных, потому что мы русскую Сеть делаем. Но понятно, наша амбиция в том, чтобы на всех языках быть в лидерах, выйти на паритет с мировыми моделями.
Для этого мы и работали над, наверное, самой большой и умной моделью GigaChat. В следующем году мы будем над тем же работать, потому что все сейчас в гонке: сделать самую умную модель, сделать самую классную, выполняющую за тебя как можно больше вещей.
— Вот если убрать в сторону маркетинг и все эти пиар-истории, расскажи, пожалуйста, ключевые отличия, может быть, преимущества или недостатки нынешней модели GigaChat в сравнении с ближайшими конкурентами, которые сейчас есть на рынке.
— Стоит отметить, что все сети сейчас соревнуются в английском, потому что мировая арена, мировое сообщество IT-гигантов — оно на английском. И поэтому даже китайские модели DeepSeek, они когда публикуют свой результат — он на английском, потому что английский для всех важен. На русском мы много где обходим конкурентов, да, и у нас нативный русский язык, это один из наших главных. Мы тоже английскому уделяем внимание, но сейчас есть достаточно много метрик, по которым в английском мы отстаём. Вот моя цель, в том числе по английскому достигнуть уровня DeepSeek и английских корпоративных сетей, которые закрыты, ChatGPT, Grok, Gemini.
— Сейчас вообще тренд этой мультимодальности, где изображение, текст, звук, всё это вместе в одной нейросети уживается. Какая, по-твоему, следующая модальность будет таким прорывным этапом в истории развития нейросетей?
— Мне кажется, здесь стоит думать не о модальности мира. В целом мы все хотим сделать сеть, чтобы она понимала как человек. Человек видит, слышит, разговаривает, но у него есть ещё обоняние, но обоняние в сетях — это довольно сложная штука, потому что она сложно диджитализируется. Очень сложно превратить обоняние в сигнал. Поэтому над этим работают, кстати, но, наверное, ограниченно, наиболее ограниченно из того, что человек ощущает.
Но мне больше нравится думать о модальностях, как о чём-то, что помимо текста сеть может делать и осознавать. И вот мне кажется, что весь мир сейчас идёт в то, чтобы сеть использовала инструменты и как можно более сложные. Сейчас поясню, что это значит. Вот, например, один из самых, мне кажется, важных инструментов последних лет — это код. То есть когда мы начали писать код, формальный язык с формальными правилами, люди очень быстро всей цивилизацией спрогрессировали. У нас появились IT-системы, приложения, сети и так далее. То есть код во главе этого всего стоял. И в целом, наверное, большая часть людей не знает код и никогда на нём не писала и никогда, наверное, не будет писать. И то, что вот эти сети могут привнести людям, это знание кода. Ты можешь и не знать кода, но модель его знает, может написать его за тебя, и вот сейчас в GigaChat конкретно она может его выполнить. То есть ты можешь задачу поставить: вот у меня здесь физика, надо что-то понять по теплопроводности — построй мне график, так далее, какую-то математическую вещь. Она напишет код, сложнейший математический, описывающий формулу какую-то, выведет график и сделает необходимое тебе вычисление. И ты поймёшь, ага, вот так вот. То есть люди, кто умеет писать код, в целом вот всякие такие задачи на уровне научных, они всегда решаются кодом. Очень сейчас мало математиков и физиков, кто не пишет код, это нереально. То есть там код — это очень важный инструмент для всех. И сети будут давать возможность писать и запускать код даже тем, кто его не знает. Это, наверное, такая модальность для большого количества людей, которая будет открыта и доступна. Мне кажется, это очень прикольно — с сетями делать то, что ты не умел.
— Ну то есть по большому счёту нейросети такие помощники в том, что ты не знаешь, в чём ты не разбираешься, и ты можешь, собственно, поручить им какие-то вещи, в которых ты, например, не сечёшь. Вот как раз о концепции ИИ-помощника с GigaChat в центре я бы хотел с тобой сейчас поговорить. Расскажи, пожалуйста, вообще об этой концепции, что она собой подразумевает и как она будет развиваться. Вот непосредственно ИИ-помощник с GigaChat.
— Хороший вопрос. В чём вообще концепция ИИ-помощника? Вот все нейросети возьмём, даже ChatGPT, Qwen и все. Это модели, которые на вход принимают текст и пишут текст, но им не хватает связи с реальным миром. До реального человека им не хватает действий. Вот концепция очень простая: давайте этим сетям дадим такой инструментарий, чтобы они выполняли действия. Ну, допустим, могли бы выполнить моё какое-нибудь: допустим, хочу книгу новую, «Дюну», например, посмотрел, хочу её прочитать. И сейчас в целом нет ни одного помощника в России, который купит тебе по такому запросу книгу. GigaChat, точнее... помощник на основе GigaChat станет первым таким, кто сможет действия выполнять до конца.
— То есть он будет ходить в интернет-магазин и с привязанной картой заказывать на адрес что-то, да?
— Да, он сможет делать действия в реальном мире, ну, понятно, с вашего разрешения, не будет такого, что он пошел, купил кучу товаров.
— Купи мне «Дюну», а он купил бархан такой огромный песочный.
— Да, гигантского червя, плюшевого. Соответственно, мы целимся, чтобы эти сети могли делать интеллектуальные действия завершённые. И вот мы будем выводить туда много агентов, которые будут делать какие-то финальные действия. И хочется, чтобы GigaChat стал не только сетью, с помощью которой работаешь, учишься, развлекаешься, а чтобы он стал помощником, чтобы вы ему могли поручить долгие и сложные задачи — а он их выполняет.
— Слушай, а это не та же концепция, которая была в ассистентах Сбера, Джо и Афина, ещё несколько лет назад, когда их Сбер запускал, когда можно было через колонку заказать себе что-то, и он тебе там условно самокат купит? Или где-то в маркете можно было что-то заказать. Это не то же самое?
— Отличие таких систем от старых в том, что в старых системах мы просто автоматизировали процесс. Мы знали, что есть процесс покупки товаров в «Самокате», давайте по шагам его распишем, автоматизируем всё, и сделаем голосом запрос, и вот в эту автоматизацию загрузим. Для того, чтобы вывести в прод, надо было полностью покрыть сценарий — от и до автоматизации. То есть там не было интеллекта, оно классифицировало, что ты хочешь купить, но дальше всё шло по рельсам очень жёстким. Поэтому на самом деле старый мир ассистентов иногда людей бесит. Сколько мемов породила Siri, когда она не понимает, у неё очень примитивный сценарий — шаг влево, шаг вправо и не работает.
Такие сети в целом более гибкие. Их гораздо проще вывести в прод, чтобы не надо было автоматизировать весь процесс. Ты дал ему API — вот так покупать, и всё, он умеет полностью делать это действие. Вот мы идём туда, чтобы были как можно более гибкие, более быстрые процессы вывода новых фичей. Конечно, и сейчас можно в любого ассистента захардкодить какую-нибудь одну фичу. Но массово тысячи так нельзя вывести. А вот в новом подходе с большими языковыми моделями в целом можно.
— И когда это вообще появится? Когда мы сможем пользоваться и помощником, давать ему задания какие-то, покупать «Дюну», например, уже в проде?
— Да я думаю будет всё плавно: у нас уже появилась кнопка на главной GigaChat, где можно выбрать агентов. Мы хотим выкатываться плавно, потому что мы сделаем сейчас тысячу агентов, тысячу разных историй, включим их, и люди даже не поймут, это слишком новая история, поэтому мы сейчас выделили в кнопку «Агенты». Те, кто понимает, о чём это, и хочет это попробовать — включают это. После некоторого теста мы соберём фидбэк, улучшим, и будем как можно больше агентов туда выводить.
— Расскажи, пожалуйста, я так считаю... что уже ажиотаж прошёл в отношении генеративного искусственного интеллекта. Ажиотаж в каком плане? Что люди уже поднаигрались в эти истории, и сейчас уже более прагматичный подход к генеративному искусственному интеллекту, то есть используют его в своих бизнес-задачах, какие-то рутинные вопросы позволяют решать при помощи нейросетей. Но вместе с тем, какой тренд ты отмечаешь, какие запросы от бизнеса чаще всего приходят по использованию генеративных искусственных интеллектов?
— Самое сложное в бизнесе — это то, что очень мало людей на стыке ИИ и бизнеса. То есть нам вообще в целом в сфере не хватает людей на стыке, которые могут понять: «Вот это какие процессы, вот сюда мы можем такой ИИ внедрить». Потому что те, кто занимается бизнесом, они в целом редко понимают в ИИ, а те, кто занимается ИИ, они не понимают в бизнесе. И в целом, допустим, внедрение и в медицине очень долгое время тормозило этот процесс, что людей нет на стыке, и всё, и они не понимают друг друга. Соответственно, наверное, это больше всего мешает, потому что внутри Сбера у нас тысячи разных абсолютно применений. Мы, соответственно, довольно активно всё это внедряем. И какие-то из этих кейсов мы показываем нашим основным клиентам.
Документооборот, например: очевидно, что такие нейросети очень быстро читают. Мы недавно подсчитали, что примерно в 2000 раз быстрее человека. И это круто, потому что ты загружаешь очень много информации в модель — человек мог бы только читать это целый день, а она через 30 секунд уже всё поняла, и с этим можно что-то сделать. Поэтому полезно применение в документообороте, обработке больших массивов данных и так далее. Конечно, всем интересны именно ИИ-агенты, чтобы они выполняли действия до конца и предлагали реальную помощь в работе и не только. И главное, чтобы это был не чат-бот, потому что у многих людей в головах, особенно в бизнесе, мысль: «Ну и зачем нам нужен чат-бот?». Но мы показываем наши ИИ-помощники на основе GigaChat, демонстрируя, что мы можем делать системы, которые действуют, а не просто чатятся с тобой.
— Как я понимаю, сейчас бизнес только входит в этот тренд на использование генеративного ИИ. И, по большому счёту, только начинает развиваться это направление.
— Да, я считаю, что такие ИИ-агенты и модели в некотором смысле тоже являются революцией. Потому что мы видим, что за последние три года нейросети в мире сильно продвинулись. Сейчас высокий темп развития, и очень сложно? за этим следить. Складывается даже ощущение, что это происходит не просто быстро, а невероятно быстро. Так никогда не было. Когда, допустим, появлялись машины, происходили какие-то промышленные революции — всё это тянулось десятилетия и медленно внедрялось. А то, что сейчас происходит в ИИ, в сравнении это развитие происходит очень быстро. И даже на текущем этапе внедрение этих технологий бизнесом очень быстрое. Люди уже привыкают и начинают использовать их в бизнес-процессах. Это невиданные ранее скорости внедрения.
— Сегодня многие эксперты говорят о том, что при разработке моделей и при создании каких-то генеративных нейросетей, да и вообще при работе с ИИ важно не закрывать то, что делаешь, а раздавать это всё на open source. Об этом и на AI Journey говорилось неоднократно. И что важно показывать, рассказывать, предлагать бесплатно этим всем пользоваться, и так далее. Какое у тебя мнение на этот счёт? Считаешь ли ты, что действительно важно всем показывать и рассказывать, что ты делаешь? Или же нужно, наоборот, немного подержать свои ноу-хау и разработки внутри команды?
— Я считаю, что на том этапе, на котором Россия и российский ИИ находятся, держать все эти технологии внутри команды просто контрпродуктивно. Дело в том, что в реальности у нас очень маленькая сфера. В Китае ещё год назад было сто моделей фундаментальных, но сейчас двадцать. Но это всё равно двадцать, тогда как у нас — всего одна. У нас был Яндекс, который делал свои модели, но сейчас они скорее берут open source и доделывают его. Мы пытаемся делать, но это очень маленькая для страны сфера: всего две компании, даже одна. Закрыть — это значит остаться в темноте. Зачем надо закрывать, не очень понятно. Поэтому мы решили открыть все наши наработки миру. Чтобы показать, что они реально всё это умеют, о чём мы заявляем.
Знаешь, сколько отзывов разных я слышу, что, например: «На самом деле GigaChat — это просто ChatGPT, который мы по API вызываем». Поэтому таким образом мы хотим показать, что мы действительно всё это сами делаем, всё это умеем и что это всё реально. Open source — очень хороший способ это продемонстрировать. На самом деле Сбер уже много лет подряд что-то выкладывает в open source. Вот мы сегодня представили акустическую модель GigaAM, но это уже третья версия, которая находится в open source. То есть мы каждый год что-то выкладываем, и я считаю, что во многом это правильно. Я не думаю, что будем всегда всё выкладывать, но сейчас такой момент, что стоит опубликовать. И сообществу в целом это даст больше пользы.
— А вы как-то отслеживаете использование того, что выкладываете в open source? То есть можно ли понять, насколько востребовано то, чем делитесь с обществом?
— Да, конечно, в каком-то роде отслеживаем, но в целом у нас довольно простая лицензия. Она говорит: «Бери и делай, что хочешь». Поэтому мы не обязываем никого отчитываться, что они что-то используют. Конечно, это будет хороший тон, если вы применили в своих проектах технологию, то сказать: «Да, это GigaChat». На самом деле люди так и делают. То есть мы много где слышим про наши модели. Кто-то выпускает пресс-релиз и говорит, что основано на таких-то технологиях. Это хороший тон и, конечно, нам приятно. Мы отслеживаем популярность тех или иных моделей на общих площадках.
— Без конкретики можешь ли ты назвать какое-то решение, которое было создано на основе open source вашей модели буквально за последние полгода? Что-нибудь интересное попадалось тебе?
— Я состою во всяких профильных чатах и вижу, что много ребят используют нашу модель, например, локально. Потому что в целом, когда ты маленький разработчик, прикольно просто использовать модель локально. Никаких облачных сервисов не нужно, абсолютная приватность и так далее. Видел, например, разных ассистентов, которые делаются локально, на мобильном устройстве, и которые полностью только с тобой общаются или отвечают текстом.
До текущего момента мы выкладывали, пожалуй, такие маленькие модели, которые более компактные и с гигантскими несравнимые, однако в своей нише очень хороши. Конечно, интересно, где будет использован GigaChat. Вчера, например, читал Reddit, а там про нас писали. Говорят: «Русские выложили огромную MoE-модель [Mixture-of-Experts. — Прим. ред.], ничего себе, умеют!». И в комментариях наконец признали наше название, говорят: «Название огонь». Ну и картинка GigaChat. Поэтому зарубежные ребята понимают мемы.
— Это признание. Особенно когда мемы появляются, это значит, что уже пошло в массы, в народ. И это здорово, мои поздравления. Тут можно только порадоваться за наших ребят. В общем, я не устаю задавать следующий вопрос каждые полгода, учитывая, как всё быстро меняется. Ты об этом сегодня говорил уже. Что нужно учитывать при подготовке молодому дата-сайентисту, ML-разработчику, инженеру, чтобы быть в тренде? Чтобы можно было развиваться согласно тому, как сейчас развивается рынок и технологии? Чтобы не быть, скажем так, аутсайдером. На что нужно делать акцент при подготовке?
— Зачем мы в целом делаем проект типа GigaChat? Можно взять китайское, кайфовать за 0 рублей, всё доступно в open source. Достаточно большие модели хорошо работают на русском. Зачем мы делаем своё? Потому что люди растут только из-за челленджа. Если в России вообще проектов не будет, то у нас сфера моментально перестанет быть хоть как-то актуальной. Почему у нас считают, что русское IT в целом гораздо более живое, чем, допустим, в Европе? Потому что у нас много проектов, множество компаний, которые что-то делают. Можно чему-то поучиться и хоть как-то прогрессировать. Если у нас будет история, когда проектов будет очень мало, то шансов прокачаться будет очень мало.
Поэтому младшим разработчикам и дата-сайентистам я советую найти проект, который реально является челленджем. Не тот, который абсолютно понятный и тысячу раз сделанный. Понятно, что в России мало компаний, где можно найти челлендж, но его можно найти или создать. Но если ты младший разработчик, обычно надо сначала найти, прежде чем что-то создавать. Поэтому важно, конечно, образование. Важно работать с ИИ, потому что если вы не работаете с ним, вы точно будете отставать. Практика важна. Но я лично считаю, что самое важное — найти челлендж, потому что это вызовет мотивацию в людях, которые готовы мотивироваться, и вызовет рост. Нельзя просто сидеть, читать книжки и считать себя экспертом, потому что ты придёшь в проект, поймёшь, как это работает, и там окажется совсем другое, нежели чем ты представлял себе в голове, особенно на младшем уровне. Поэтому ищем челлендж, работаем очень много над этим челленджем, и вы обязательно вырастете.
— Вижу заголовок нашего интервью: «Нельзя только читая книжки считать себя экспертом». И крайний вопрос, он такой футуристичный, чтобы пофантазировать. С экспертами, которые до тебя приходили к нам в студию, мы уже обсуждали это. Ты человек, который непосредственно работает руками и, собственно, разрабатывает все эти модели. В горизонте ближайших 5-10 лет, какой, на твой взгляд, будет технологический прорыв? Что может появиться такое, о чём можно будет сказать: «Да, это прям топ»?
— Ой, я не очень люблю предсказывать на такие сроки. Думаю, что все задачи, которые можно проверить, это написание кода, математика, науки и так далее, будут решены. И будут решены на уровне гораздо более высоком, чем человек. Если даже сейчас возьмём нейросети, то они выбивают золотые медали по программированию на международных олимпиадах. Я никогда такое не напишу. Это нереально. Это надо специально учиться, потратить полжизни на это, и обладать огромным талантом. Эти нейросети уже лучшие из лучших. Это значит, что через 5 лет все задачи, которые так или иначе проверяемые, а код — это очень проверяемая задача, они будут решены на гораздо лучшем уровне. Поэтому дальше все люди и вся сфера у нас перейдёт в неконтролируемые задачи.
Чем хорош человек? Он в целом может решить задачу, даже не зная финальный результат, и не зная, она вообще решается или нет. И поэтому всё перейдет в сферу такого большого хаоса, больших открытых вопросов. И вот там, наверное, нас ждёт самый большой прорыв. Потому что самые сложные вопросы — это реальное рассуждение, реальные планирования и более сложные истории. Но из-за того, что мы не решили более простое, мир пока туда не идёт. Потому что все знают: там сложно, там реально непонятно, что делать. А пока есть такие вещи как программирование, математика, то всё очень понятно.
Когда выходит GPT-5, допустим, они, если вы смотрели презентацию, показывают код, математику, науки. Почему? Почему не показывают более абстрактные вещи? Ну, потому что это проверяемое, это очень понятное, и мы там не на пределе. Поэтому все идут туда. Как только придут туда, то пойдут уже более сложные вещи. И я думаю, что появятся в какой-то момент ИИ-агенты, которым можно поручить большую часть рабочих и рутинных задач. Поэтому я говорю даже младшим разработчикам, что если не будет челленджа, который будет драйвить вас всё быстрее и быстрее изучать, то будет просто очень скучно.
Через 5 лет, мне кажется, будет некая кнопка, которая кодит, делает даже ML-технологии. Но саму идею нужно будет откуда-то черпать. Нужно найти эту идею.
— Я думал, что ты сейчас скажешь, что в 2030 году будет GigaChat 10.0, которым будут пользоваться по всему миру, в том числе все разработчики и технари. Почему бы и нет? Всё это возможно. Спасибо большое за эту беседу. Было очень интересно! Я желаю тебе и твоей команде большой удачи и успехов в реализации поставленных вами целей.
— Спасибо!
Читать первым в Telegram-канале «Код Дурова»



























































