Александр Крайнов: в голосовых ассистентах не реализована и половина их возможностей

7 минут на чтение

Коллаж: робот, директор Яндекса Александр Крайнов, мозг сине-оранжевый, надписи «ИИ», «Александр Крайнов».

GigaChat Max кратко объясняет суть статьи

Александр Крайнов, директор по развитию технологий искусственного интеллекта Яндекса, в интервью «Коду Дурова» отметил, что компания активно внедряет ИИ в широкий спектр продуктов, включая поиск, машинный перевод, голосового помощника Алису, браузер, образовательную платформу Яндекс Практикум и маркет. Генеративные модели применяются также в облачных сервисах компании, позволяя сторонним разработчикам создавать собственные приложения на их основе. По словам Крайнова, Яндекс не уступает западным конкурентам в области технологий, однако OpenAI незначительно опережает компанию в развитии генеративных языковых моделей. Однако разрыв сокращается, особенно по русскому языку. Крайнов подчеркнул важность увеличения вычислительных мощностей для дальнейшего лидерства в технологиях ИИ. Искусственный интеллект практически не используется во внутренних корпоративных процессах Яндекса, но широко распространён в продуктах для конечных пользователей. Генерация изображений (DALLE, Midjourney, YandexART) пока воспринимается как развлечение, но имеет потенциал стать мощным рабочим инструментом. Голосовые ассистенты Яндекса, такие как Алиса, уже превзошли западных аналогов по удобству и функциональности для российских пользователей. Крайнов отметил, что сбор данных для обучения моделей представляет собой отдельную проблему, особенно для редких языков, где данных недостаточно. Международное сотрудничество в области ИИ сохраняется, несмотря на сложности с логистикой и передвижениями. Появление новых профессий, связанных с искусственным интеллектом, подтверждает, что технологии создают новые возможности, а не уничтожают рабочие места.

Реализовано через GigaChat Max

developers.sber.ru

О рекламодателеРеклама ПАО Сбербанкerid: 2VtzqvWbqb5

Компания Яндекс является ярким примером технологического гиганта с огромным количеством продуктов, в которых применяется ИИ.

Директор по развитию технологий искусственного интеллекта Яндекса Александр Крайнов в интервью «Коду Дурова» рассказал о том, как компания применяет ИИ, как будут развиваться голосовые ассистенты, почему Midjourney, YandexART — это не развлечение, и что такое ИИ в России.

— Сегодня ИИ внедряется повсеместно. Мы много читаем и слышим про то, как западные технологические гиганты внедряют генеративные модели (Bard, ChatGPT и так далее) в различные продукты. Что происходит в России в этом направлении? Мы только начинаем развиваться здесь или уже находимся на одном уровне с западными игроками?

— С точки зрения внедрения передовых технологий и продуктов на их основе мы не отстаем от лидеров. Те же нейросети в Яндексе заработали 10 лет назад, например, для поиска изображений. Языковые модели у нас тоже работают очень давно и в поиске, и в машинном переводе, и в Алисе. Поэтому если сравнивать уровень технологий в продукте, то он довольно близкий.

Что касается генеративных LLM моделей прямо сейчас, то за последний год OpenAI заметно вырвалась вперед и лидирует по отношению к остальным мировым командам, в числе которых находится и Яндекс, но мы отставание потихоньку сокращаем, и сейчас оно составляет буквально несколько месяцев. Тут ещё нужно смотреть по отдельным языкам. Например, по русскому языку мы сильно ближе к тому же лучшему варианту ChatGPT, с английским отставание несколько больше.

— А в каких из ваших продуктов, кроме поиска и Алисы, ещё будут внедряться генеративные модели, и в каких сферах вы отмечаете их активное использование сегодня и вообще в России?

— Помимо очевидных направлений, типа поиска и машинного перевода, мы применяем генеративный искусственный интеллект, например, в браузере, в Яндекс Практикуме для образовательных целей, в маркете... Да много где! А дальше будет ещё больше внедрений, но о планах говорить не очень хочется — приятнее сделать, а потом рассказать, а то вдруг не получится.

У нас, кстати, есть решение, позволяющее использовать наши модели в облаке. То есть пользователь нашего облака может строить свои сервисы, используя под капотом нашу генеративную модель. Это для нас большая и важная история, она будет активно развиваться.

— Вычислительные мощности для реализации всех задумок есть сейчас у Яндекса, и планируете ли вы наращивать свои возможности в этом направлении?

— Что касается мощностей, то их всегда меньше, чем хочется. То есть они у нас, конечно, есть и мы справляемся, но чем их больше, тем лучше. Сколько ни дай, всё будет мало. Раз уж заговорили про мощности, то надо отметить, что их использование делится на две части — обучение моделей и их применение. Что касается применения, то ситуация попроще, потому что там не такие жёсткие требования к вычислительным мощностям, а с обучением всё гораздо сложнее. Нам, с одной стороны, хватает, но судя по тому, как развиваются технологии, тот, кто будет обладать большим количеством мощностей, тот и будет технологически лидировать.

Конечно, есть множество разных инженерных и научных трюков, как на относительно небольших моделях, которым нужно меньше мощностей, показывать качество, не сильно уступающее большим моделям. Но в любом случае зависимость от железа остаётся.

— В каких направлениях Яндекс сегодня не использует искусственный интеллект?

— Прекрасный вопрос. Сейчас я попробую что-нибудь придумать… В поиске везде используется, реклама целиком на этом базируется, в картах используется, в такси, безусловно, его очень много, в Яндекс.Музыке и рекомендательные алгоритмы, и генеративные, которые создают музыку. В Авто.ру тоже прикручен искусственный интеллект.

Думаю, что во внутренних процессах корпоративных у нас искусственный интеллект почти не используется или используется, скажем так, гораздо меньше, чем в продуктах для рынка.

— DALLE, Midjourney, YandexART, Кандинский — развлечение или начало большого пути?

— Сейчас, в первую очередь, развлечение. Но это одна из вех на очень важном пути. Мне кажется, что это мощный инструмент. Сейчас люди в основном играются с подобными генеративными нейросетями, хотя есть и те, кто при помощи этих инструментов создаёт иллюстрации к своим презентациям. Ну и в науке уже есть много работ про создание векторных изображений.

А это значит, различные рабочие схемы, чертежи... Уже сегодня появляется много инструментов, чтобы голосом редактировать изображение. Представьте себе фотошоп с голосовым управлением. Это пока работает неидеально, и, конечно, профессионал вручную пока сделает круче, но точно становится прекрасным инструментом для обычного пользователя, у которого нет навыков работы в графических редакторах.

И ещё. Люди мысленно проверяют какие-то свои гипотезы на соответствие некой «модели мира». То есть на вопрос, что будет, если подбросить яблоко вверх, мы понимаем, что оно сначала полетит, а потом упадёт. Мы понимаем, как объекты взаимодействуют друг с другом, какая сила на них действует, у нас есть относительно цельное представление об окружающем мире.

Учёные довольно часто спорят о том, должна ли у искусственного интеллекта быть своя внутренняя «модель мира». Пока что, видимо, у ИИ её нет. И наверняка её появление приблизит развитие мультимодальных моделей. Их обучают на текстах, изображениях, видео, в дальнейшем, наверное, будут и на звуках. И всё это улучшает «представление» об окружающем мире. Это будет приводить к тому, что модель будет меньше ошибаться, ответы будут точнее и разумнее, а значит — полезнее.

— К вопросу о полезности. Российские голосовые ассистенты типа Алисы сегодня безусловно превосходят своих западных «коллег» (Siri, например). Уже сегодня можно пообщаться с ассистентом, что-то узнать, заказать, поиграть, и совершенству нет предела, но наверняка есть какая-то цель. Как дальше будет развиваться это направление?

— Основная задача — это, конечно, улучшение качества. Чем меньше наш голосовой ассистент теряется, отвечает, что не может ничем помочь или просто предлагает перейти куда-нибудь, например, в поиск, тем лучше. То есть в идеале он должен в гораздо большем количестве ситуаций оказываться полезным.

Во многих фантастических фильмах есть универсальный голосовой помощник, который всё на свете знает и помогает решать все вопросы. Вот что-то такое мы и делаем. Мне кажется, сейчас ещё и половина не реализована из того, что хотелось бы.

— Вместе с тем, Алиса уже почти полноценный собеседник. У вас есть ответ на вопрос, почему иностранные аналоги наших голосовых ассистентов как будто ещё не совсем дошли до нашего уровня, несмотря на то, что они начали раньше?

— Есть несколько моментов, которые нужно рассматривать по отдельности. Компании на западе действуют намного осторожнее. У них голосовые помощники более рафинированные — не дай бог что-нибудь не то сказать. У нас, конечно, тоже есть куча ограничений, но всё же меньше. Это первое.

А во-вторых, не очень правильно сравнивать ассистентов, которые создавались для разных стран. Нужно смотреть, насколько голосовые помощники, созданные в США, полезны для американских пользователей, и насколько наши — полезны для российских. Вот тогда будет более полное сравнение, потому что американские ассистенты не «заточены» под наши условия. Я думаю, что если начать пользоваться нашей Алисой, скажем, в Штатах, то она, конечно, будет полезна, но многие из её навыков и умений окажутся не так хороши, как здесь, в России.

— Мы много говорим про нейросети, про обучение, но как сегодня в России обстоят дела с датасетами для обучения моделей? Как вы собираете данные?

— Если модель нужно обучить генерировать текст, то данные мы берём в интернете, их там навалом. Другое дело, что для некоторых узких задач открытых данных может быть недостаточно. Например, если мы хотим научить машину решать математические задачи, соответственно, нужно в модель загрузить много примеров с правильными решениями. И периодически мы натыкаемся на то, что для каких-то типов заданий мало примеров и приходится искать или, может быть, даже придумывать такие задачи, решать их самостоятельно.

Если мы говорим про качество работы нейросети на том или ином языке, то оно довольно сильно связано с количеством хороших текстов на этом языке. Чем текстов больше, тем лучше можно научить модель. И если с русским ситуация ещё более-менее нормальная, то что касается, например, языков малых народов, там всё сильно сложнее, потому что текстов на этих языках крайне мало.

— Есть ли какое-то международное сотрудничество в сфере ИИ сегодня?

— С точки зрения общения, возможности пользоваться технологиями или какими-то научными достижениями никаких проблем нету, но, например, с логистикой, конечно, стало сложнее. Раньше поехать на международную конференцию было гораздо проще. Хотя в целом наша сфера пока остается очень открытой для всего мира.

— Немного о кадрах. Очень интересно последнее время наблюдать за тем, какие профессии появляются в связи с развитием искусственного интеллекта. Это, в частности, prompt-инженеры, ИИ-тренеры и так далее. Получается, что искусственный интеллект не отбирает, а, наоборот, даёт рабочие места?

— Есть отличный пример. Давайте обратимся к истории и подумаем, на что это похоже? Мне кажется, что больше всего сегодняшнее развитие ИИ похоже на появление персональных компьютеров и интернета. В результате появилась куча массовых специальностей. От сетевых инженеров до блогеров. А когда-то была специальность «компьютерщик». То есть тот, кто умеет пользоваться компьютером. В этом смысле prompt-инженер — это своего рода «компьютерщик». Это человек, который умеет пользоваться генеративными нейросетями.

Ну ок, появилось много специальностей. А какие пропали за последние 30 лет? Я долго пытался вспомнить и нашёл только одну — машинистки. Это люди, которые могли на печатной машинке набирать текст.

— Я бы сказал, что почти пропали. Кое-где ещё есть.

— Ну, извозчики тоже, наверное, есть, но это всё-таки редкость и в большей степени экзотика. Я имею в виду, пропали как массовая специальность. В любом случае в исчезновение большого количества профессий я не верю, я скорее верю в появление большого количества новых.

— Искусственный интеллект в России — это…

— Это тот же искусственный интеллект, что и во всём мире.