«Основной прорыв робототехники связан сейчас именно с тем, что генеративный ИИ получил физическое воплощение» — Андрей Белевцев на AI Journey 2025

«Код Дурова» посетил юбилейную конференцию искусственного интеллекта AI Journey 2025 и пообщался со старшим вице-президентом, руководителем блока «Технологическое развитие» Сбера, Андреем Белевцевым.
Мы обсудили, насколько быстро ИИ-модели прогрессируют по уровню знаний, насколько умнее и полезнее для человека они будут становиться в будущем. Андрей Белевцев также рассказал о новейших функциях GigaChat — возможности создавать подкасты из чего угодно, а также общаться в голосовом режиме, как с человеком и голосом, неотличимым от человеческого.
Также порассуждали о возможностях роботов для людей и бизнеса на фоне презентованного Сбером антропоморфного робота Грина, и пофантазировали о том, что же будет обсуждаться на конференции AI Journey через 10 лет.
Видеоверсия интервью:
— Сегодня конференция AI Journey посвящена генеративному искусственному интеллекту, и по большому счёту сейчас он является двигателем прогресса. То есть он везде, все им пользуются: и бизнес, и даже B2C-сегмент тоже активно использует его. Но по большому счёту, сегодня это такой помощник, то есть технология, которая позволяет решать какие-то рутинные вопросы, давать подсказки. Как вы видите дальнейшее развитие генеративного ИИ? Будут ли ИИ-агенты, которые способны решать суперсложные задачи и брать на себя, возможно, какую-то ответственность? Есть ли барьеры на пути развития генеративного ИИ?
— Мы идём сразу по нескольким траекториям. С одной стороны, сами модели, которые лежат в основе любого приложения такого типа, как помощник, они очень быстро эволюционируют. С точки зрения большинства известных бенчмарков современные сильные модели достигают, на самом деле, уже сверхчеловеческого уровня. То есть это гораздо выше среднего человека.
Например, некоторое время назад придумали такой экзамен с громким названием “Humanity Last Exam” — последний экзамен человечества. Насколько я знаю, его сначала хотели драматически назвать как «последний рубеж человечества», но это перебор. Тем не менее экзамен очень прикольный. Там 2500 вопросов, которые они попытались собрать со всего мира с экспертами такого класса, на которые только очень узкопрофильный и глубокий одновременно эксперт в своей предметной области сможет ответить. Я читал некоторые примеры вопросов: я некоторых слов не понимаю. Там такие вещи написаны, которые понять я не могу, не то чтобы ответить на них.
В начале этого года лучшие модели в мире отвечали на 9% вопросов из этого бенчмарка. А сейчас лучшие модели мира отвечают больше, чем на 40%. О чём это говорит? Вы можете сказать: «Смотрите, всего на 40% вопросов, а на 60% не отвечает». Но с 9% до 40% за один год, на самом сложном экзамене с точки зрения вопросов человечества. То есть по уровню знаний модели прогрессируют очень быстро. Встаёт другой вопрос: «Знание — классно, но вообще для реальной жизни и то, чтобы у тебя был кто-то, кто мог стать твоим помощником, тебе не энциклопедия нужна. Иногда дело не в этих знаниях. Надо размышлять». Важное направление развития современных моделей и продуктов на их основе — это учить развивать когнитивные навыки, учить делать правильные выводы и умозаключения, а также пользоваться инструментами.
Например, если вы начнёте работать с GigaChat, включите режим рассуждений и поставите ему задачу, то увидите, что в определённый момент он в своих рассуждениях приходит к выводу о том, что, например, ему нужно использовать поиск, чтобы получить более свежую информацию. Или, например, надо уточнить сегодняшнюю дату и число, если вы спрашиваете что-то актуальное. Это модель делает сама. Это очень хороший пример, когда можно увидеть, как модель использует инструменты.
Что же дальше будет с помощниками? Инструментов будет больше. Например, мы сегодня [в рамках конференции AI Journey 2025. — Прим. ред.] представили маркетплейс агентов в GigaChat. Это возможность разрабатывать, создавать и подключать к вашему помощнику дополнительных агентов. Он сам научится их вызывать, сам будет выбирать, в какой ситуации это делать. Конечно, для этого нам надо одновременно развивать и навыки модели, и агентов, иначе GigaChat просто не поймёт, в какой ситуации к какому агенту обратиться. Тем не менее развитие будет идти по этому пути. Модели будут становиться всё умнее, они будут понимать, для какого типа вашего запроса какие инструменты использовать. И количество инструментов тоже будет резко увеличиваться.
— Раз уж мы заговорили про генеративный ИИ, не могу не спросить про GigaChat и, собственно, про его дальнейшее развитие. Очень много всяких классных фишек в нём появляется, я сам пользуюсь GigaChat. Расскажите, пожалуйста, что сейчас нового в GigaChat? Какие дальнейшие ближайшие планы?
— Несколько вещей, начну с главной для нас темы. Это голосовой режим. Мне не всегда удобно всё-таки переписываться и общаться текстом. Да, GigaChat давно понимает аудио: ему можно наговорить и отправить аудиофайл, это всё у нас уже было. Но иногда я просто даже не готов смотреть на экран, например, за рулём и на пробежке. Порой я могу, конечно, посмотреть на экран, но, честно говоря, я устаю писать или читать текст — я хочу просто поговорить, как мы с вами сейчас.
И для этого мы сделали голосовой режим в GigaChat. Во-первых, у него абсолютно другой синтез голоса, просто попробуйте! Наша команда перестала отличать его от человеческого. Да, если я вас предупрежу, то у вас появятся ощущения отличия, но я вас уверяю: 2-3 примера [речи. — Прим. ред.], и я вас запутаю, вы не сможете отличить голос от человеческого. Голоса могут быть самые разные. Современная технология, которую мы сейчас разработали, основана на нашей фундаментальной модели под названием “Giga Acoustic Model”. Мы, кстати, сегодня опубликовали её открытый исходный код — поэтому ею можно пользоваться, например, чтобы развивать свои продукты. Это лучшее решение для русского языка, так как сейчас никто в мире так не понимает разговорный русский язык, как мы.
Тем не менее, с голосовым режимом в GigaChat вы можете разговаривать по-человечески. Если ответ слишком длинный, или вас не поняли, просто перебивайте, задавайте свой другой вопрос, и продолжайте разговор. К сожалению, этот режим пока не обладает возможностью использовать инструменты, о которых мы с вами говорили. Например, он не сможет сходить в поиск и узнать какую-то актуальную информацию. Поэтому этот режим лучше всего сейчас использовать для диалога. Мы в команде, например, такие сценарии используем: игры (детям это очень заходит), подготовка к собеседованию, рабочему интервью, публичным выступлениям, мозговой штурм и так далее. Например, у нас многие ребята всё это делают сейчас по дороге на работу. Если у вас есть в машине Handsfree, просто включаете и можете приятно пообщаться по дороге.
Вторая функция, помимо голосового режима, это подкасты. Я часто получаю информацию и знания из подкастов, это новый вид интервью. Не знаю, как вас, но мне не очень нравится, что многие подкасты занимают два-три часа, а у меня нет столько свободного времени. А вторая сторона подкаста — это то, что его автор решил мне рассказать. А что, если у меня есть другая информация, которая мне интересна? Например, научная статья или книга, что мне с ней-то делать? Не ждать же, пока кто-нибудь из известных блогеров запишет подкаст об этом. Поэтому мы предложили новую функцию: теперь в GigaChat можно сделать подкаст из всего. Вы можете дать ему ссылку, поставить задачу сделать исследование, а можете просто дать ему текстовый файл и сказать: «Сделай мне подкаст».
Мы специально сделали для этого два вида коротких подкастов: суперкороткий на 2-3 минуты и средний на 6-10 минут. Потому что мы считаем, что всю смысловую информацию можно изложить [в формате подкаста. — Прим. ред.]. Тогда GigaChat сначала поработает для того, чтобы сделать для вас резюме, а потом с разными голосами, которые вы можете выбрать, запишет интервью, как будто два профессионала собрались в студии сделать подкаст специально для вас. Вы можете послушать его по дороге на работу, утром дома на наших колонках или, например, взять с собой на пробежку, и просто слушать и получать какие-то знания. Так что подкастом теперь можно сделать всё.
Ещё одна крутая история для нас. Часто в исследованиях не хватало визуализации. Формат всё-таки был текстовый, теперь есть голос, но чего ещё не хватает? Мы научились делать пока что достаточно простые, но [в то же время. — Прим. ред.] ёмкие презентации как результат этого исследования. В них нам сильно не хватает визуализации, так как часто исследование имеет какую-то графическую составляющую. Поэтому мы сделали специальных ИИ-агентов, которые теперь понимают и могут анализировать, например, электронную таблицу. На основе этого они и делают презентацию, в которой будут демонстрироваться графики разных форм, и которые можно использовать для того, чтобы интерпретировать эти данные. Очень многие нас просили сделать это, это важно, например, для тех, кто работает в малом и среднем бизнесе, и вообще [презентации. — Прим. ред.] это такой крайне популярный рабочий сценарий, который сильно экономит время. Или, например, MindMap [интеллект-карта, графический способ визуализации данных. — Прим. ред.], тоже многие любили, так что теперь исследование можно увидеть структурированно в виде MindMap, который поможет вам знакомиться с материалом.
— Классные решения, особенно откликается с подкастами: очень сложно смотреть трёхчасовые интервью. Во-первых, теряешь иногда мысль, во-вторых, просто иногда невозможно досмотреть. Помимо генеративного ИИ и развития GigaChat, на этой конференции Сбер также представил антропоморфного робота Грина. Направление робототехники уже давно в Сбере развивается, но сегодня это какой-то новый шаг. Что это в целом такое? Какое-то стратегическое направление, то есть вы будете в этой сфере дальше двигаться? Либо это проба пера. Или сейчас попробовали с антропоморфным роботом, посмотрели и дальше как бы забыли. Или что это будет?
— Да, это стратегическое направление, на котором будет дальше фокусироваться наш блок. Мы называем его физический искусственный интеллект, потому что когда мы говорим с вами о генеративном ИИ, большинство примеров, которые мы приводим, они из цифрового мира. Конечно, нам хочется, чтобы помощник мог и физически нам помогать, мог делать какие-то действия, которые мы хотели бы ему поручить.
Основной прорыв робототехники связан сейчас именно с тем, что генеративный ИИ получил физическое воплощение. В этом смысле антропоморфный робот — это, конечно, не единственная форма, которую он может получить. Но почему она всех интересует? Потому что она самая универсальная. Мы живём в мире, который сделан для человека. Он понятный и физически пригодный. Это сделано для человека. Ручка двери сделана для человека. Производственные системы сделаны для человека. Если мы сделаем универсальное воплощение в виде антропоморфного робота, это гарантированно сможет использовать все инструменты и всё то, как устроен реальный мир.
Повторюсь, мы не считаем, что это единственный вариант развития. Конечно, их будет много. Но это очень хорошая платформа для нас, для обработки навыков и знаний. Вот сейчас мы в тело робота поместили мозг, который мы создаём на основе модели семейства GigaChat. Это уже теперь “Vision Language Action” модели. То есть наш робот видит, ориентируется в пространстве и предпринимает действия. В ответ на то, что он видит, и как он воспринимает обстановку. Именно это дало нам возможность создать Грина, который учится и развивается. Вот вчера он был впервые на публике, а сегодня он для такой широкой аудитории исполнил специальный номер, который сам готовил. У него 40 степеней пластичности, 40 степеней подвижности, он очень пластичен. Поэтому мы хотели показать пластику робота, его движения. В этом нам помогли профессионалы, вместе с которыми он как раз и учился владеть своим телом.
Это важный этап, мы на этом не останавливаемся, он будет уметь всё больше и больше.
— 40 степеней подвижности! Это ровно в 40 раз больше, чем у меня. Я хотел спросить, когда же мы всё-таки увидим подкаст, где будут сидеть три Грина и общаться между собой на какие-то суперумные темы. Мне кажется, что это совсем недалёкое будущее.
— Это возможно, абсолютно! Главное, чтобы вам хотелось их послушать.
— Учитывая, как мы обсудили выше, что это будет недолго по времени, не будет трёхчасовых занудных историй, то почему бы и нет. Особенно если они будут говорить голосами, которые мы не отличим от человека.
— Мы столкнулись с интересной особенностью. Мы, конечно, можем дать Грину сегодня тот голос из нашего шикарного голосового синтеза в GigaChat, который вы все сейчас можете попробовать: который мы используем для подкастов, для голосового режима. Но, как ни странно, первое восприятие людей, когда робот начинает говорить неотличимым от человека голосом, становится странным каким-то. Поэтому мы пока дали ему голос, больше похожий на робота, но со временем, конечно, мы будем переходить к таким человеческим голосам. Весь арсенал технологий в нашем распоряжении. Видимо, людям надо как-то привыкнуть к тому, что роботы среди нас. Скоро, мне кажется, это станет очень обыденным явлением.
— По большому счёту это и сейчас уже применяется. Например, я звоню куда-то записаться, мне отвечает женский голос, я сначала не понимаю, это робот говорит или настоящий человек. То есть эти технологии в целом уже внедряются. Довольно здорово, что мы идём в ногу со временем в этом плане.
— Здесь будет абсолютный прорыв. Я думаю, что в следующем году при любом таком телефонном звонке вы не сможете отличить робота от человека совсем. И это не в том смысле, что вас как-то кто-то хочет обмануть. Вы хотите решить задачу, вы решите её быстрее. Вам не надо будет никогда и нигде ждать какой-то очереди. В любую секунду вы сможете решить свою задачу.
Мы тоже, кстати, разговоры в голосовом режиме с GigaChat внутри команды называем «звонком». Буквально за несколько недель, как представили эту технологию, люди наговорили уже два года непрерывного разговора со своим виртуальным собеседником. И это за такое короткое время. Для человека звонок оказался понятной аналогией тому, что происходит. Он как бы снимает трубку и звонит.
— Позвони мне, позвони. Вопрос про применение человекоподобных роботов. Как вы считаете, бизнес в России и не только у нас, готов ли к применению подобных технологий? Например, использование таких роботов в логистических направлениях или в производственных. Такие роботы могут применяться уже сейчас? Или пока мы ещё находимся на том рубеже, когда бизнес не готов применять такие технологии?
— Бизнес готов там, где у него возникает бизнес-задача или бизнес-смысл. Повторюсь, далеко не всегда робот должен быть антропоморфным. Но важно, что если у тебя есть технологии, которые позволяют делать антропоморфного, то более простые формы ты тоже сможешь делать, потому что основа, генеративный ИИ, он значительно более универсален. Бизнес готов там, где они видят эффект внедрения. Где это возникает с робототехникой? Когда быстрее, когда дешевле, когда не хватает рабочей силы, когда опасно, когда низкая точность выполнения операций человеком.
Нам действительно нужны робототехнические системы нашей разработки, с которыми будет безопасно, с которыми мы будем знать, что если он пришёл на производство, то он не выключится завтра.
— Вы сейчас видите это как решение для B2B-сегмента больше или всё-таки для B2C тоже возможно применение таких роботов в ближайшем будущем?
— Знаете, как ни странно, это сегмент, где B2B будет опережать B2C. Всё-таки роботу потребуется время для того, чтобы учиться, осваивать разные операции. И всё-таки B2B-среда, она больше к этому готова. Поэтому, наверное, в первую очередь это. Но, с другой стороны, когда вы пришли в магазин или в отделение, это B2B или B2C? С одной стороны, это бизнес. С другой стороны, вы человек и общаетесь с роботом, вы не представитель бизнеса. И это B2C. Это сейчас очень сильно развивается.
— Я, конечно, очень жду продолжения робота-сомелье от Сбера. Очень бы хотелось, чтобы он обрёл человеческие черты. Одеть его в пиджак и уже не отличишь в принципе.
— И с ним можно поговорить.
— Давайте вернемся к генеративному ИИ. Я не устаю задавать этот вопрос на каждом интервью, но всё равно. Я вижу, как стремительно развиваются эти технологии. Опять же, вы в начале сказали про то, что «последний экзамен человечества» ИИ уже на более чем 40% решает. И этому нет границ, нет предела, по большому счёту всё развивается, не стоит на месте. Как вы считаете, как дальше будет развиваться именно кадровый вопрос в связи с тем, что постоянно совершенствуют ИИ-технологии, генеративный ИИ? Нужно ли компаниям делать акцент на этом и, соответственно, готовить больше ML-инженеров? Или же мы всё-таки пока находимся в классическом понимании IT-сегмента и его развития?
— Есть две особенности. Первая: вернёмся к “Humanity Last Exam”, надо понимать это правильно. Это связано с тем, что нам сейчас надо ставить перед этими технологиями не те задачи, которые решает человек, и смотреть, как она доходит до этого уровня. Нам надо ставить задачи, которые человек не решает. И особенности как раз генеративных моделей именно в том, что одна и та же модель может быть сразу специалистом в огромном количестве областей.
Вот вы можете найти хорошего программиста и хорошего врача. А вот хорошего врача-программиста, одинаково крутого в двух областях, попробуйте ещё найти. Наверное, они существуют, но их совсем мало. При этом для развития, и для аналитики нам нужны такие вот бленды специальностей. Это то, что у человека хуже получается. Но мы же не переживаем о том, что мы бегаем медленнее, чем автомобиль или считаем медленнее, чем калькулятор. Технологии для того и созданы, чтобы человек мог их использовать для своей пользы. И именно с этим, на мой взгляд, связано такое огромное влияние, которое генеративный ИИ может оказать на всю экономику в целом. Мы просто должны ставить его на службу нам и ставить перед ним такие задачи, которые мы сами решать не умеем. Пусть он их решает.
Говоря о рынке труда, о людях, мы видим следующие особенности. Генеративный ИИ, с одной стороны, обладает очень высокой степенью универсальности и переносимости. Вот, например, программисты. Наверное сложно найти современного разработчика, который не использует эти инструменты. Но, с другой стороны, всё-таки человек должен задачу поставить и результат проверить. В этом смысле требования достаточно высокие. Ты можешь и должен использовать своих ассистентов, но будь добр, всё-таки сформулируй задачу и проверь результат. Ну, так и на работе. Ты можешь делегировать кому-то выполнение задачи, но как бы контролировать результат итога тебе всё-таки нужно. Поэтому это очень сильные инструменты, но инструменты в глазах, в руках квалифицированного пользователя.
Что делать? Мы много думаем над тем, а как же стать квалифицированным разработчиком, например, если мы говорим о том, что работу джуниоров как раз меняет ИИ. Но как нам кажется, нужно использовать этот ИИ, чтобы быстрее прокачать свои навыки разработчиков в том числе или в другой профессии. Он же может быть хорошим наставником, хорошим учителем, он может не только давать себе готовый ответ, он может проверять то, что ты делал, он может подсказывать тебе, он может проводить с тобой интервью или собеседование. Надо просто поставить такую задачу.
— Подкаст тот же самый.
— Например, для того, чтобы освоить какую-то новую тему.
— И крайний вопрос. Мы очень много говорим про генеративный ИИ. Этому посвящена конференция AI Journey в этом году. Когда начиналось всё с точки зрения именно конференции, был акцент на машинном обучении, а сейчас уже генеративный ИИ. Что, на ваш взгляд, будет ключевой темой через 10 лет? Как вы считаете, какая ключевая тема конференции и вообще в целом в мире будет по ИИ?
— Я думаю, что нас будут очень сильно интересовать сверхчеловеческие профессии. Как раз то, что люди либо делать не умеют, либо делают единицей. Как сделать так, чтобы это стало массово доступным всему человечеству. Например, у вас есть хирург, который гениальный. Мы знаем, что существуют люди, которые на совершенно фантастическом уровне могут делать какие-то операции. Мы знаем про таких специалистов в любом виде. А представляете, что будет с экономикой, когда их станет сколько угодно? Когда их можно построить, когда их можно скопировать.
Это совершенно другой уровень доступности всего. Другой уровень доступности медицины, другая стоимость производства, другой уровень бытового комфорта. Это совершенно новый мир. Мы сможем наконец сделать такую технологию, которая сможет по нашей поставленной задаче достигать таких результатов. Давайте подумаем о таком будущем. Мне кажется, оно будет очень интересное. Я бы вообще хотел в нём жить.
— То есть гении будут не рождаться, а производиться? Правильно я понимаю?
— Я очень надеюсь, что гении будут рождаться. Но мы сможем определённые задачи и специальности поручить построенным специально для этого системам. Повторюсь, человек на планете Земля не самый быстрый, не самый гибкий, не самый устойчивый, не самый сильный.
До сих пор мы считали, что человек самый умный. Возможно, это так. Но если мы такие умные, давайте построим такие системы, которые могут решать задачи быстрее нас, и в какой-то степени быть умнее нас. Мы всё время говорим: «кто умнее, компьютер или человек?». Смотрите, компьютер считает быстрее, читает быстрее, видит лучше. Мы же не переживаем из-за этого. Наоборот, давайте использовать эти системы, чтобы создать новое будущее.
— Да, во благо! Спасибо большое, Андрей! Я желаю успехов конференции и желаю, чтобы как можно больше интересных и продуктивных решений именно в рамках этой конференции было принято.
— Спасибо!
Читать первым в Telegram-канале «Код Дурова»



























































