До международной конференции по искусственному интеллекту AI Journey остается совсем немного времени, но подготовка к ней идет полным ходом.
Там нас ждет множество авторитетных международных спикеров, компаний из мира технологий, громких заявлений, но сегодня не про это.
В преддверии AI Journey Сбер ежегодно проводит международное онлайн-соревнование по ИИ – AI Journey Contest. В этом году оно прошло при поддержке Института AIRI. Традиционно победители будут награждаться на самой конференции AI Journey, но «Код Дурова» решил узнать у организаторов немного подробностей о том, как прошло соревнование, сохраняется ли к нему высокий интерес, и с какими задачами нужно было справиться участникам.
Как это было
Все мы знаем, что один из самых главных вопросов, который обычно интересует участников конкурсов, это мотивация. Она может быть разная, например, «участвую, потому что можно проверить свои силы и понять свой уровень на фоне остальных» или желание выиграть приз (будем честны, денежный приз – отличный повод применить знания на практике).
Надо сказать, с мотивацией тут все было более чем в порядке. Во-первых, соревнование AIJ Contest 2024 привлекло внимание специалистов в области искусственного интеллекта из 23 стран мира, включая Россию. Во-вторых, в этом году количество участников превысило 1500 человек, а призовой фонд составил 8,5 млн руб. В рамках соревнования предлагалось выбрать одну или несколько из четырех задач, каждая из которых представляла собой вызов для участников и отражала актуальные тренды в сфере ИИ.
Сейчас мультимодальные модели быстро прогрессируют, показывая отличные результаты в анализе изображений и аудио. Тем не менее, понимание видео остается сложной задачей для нейронок, поскольку требует совмещения распознавания текста, изображений, звука и временных факторов.
Модели, способные эффективно обрабатывать длинные видеоролики, будут востребованы пользователями, ведь они позволят получать краткие резюме просмотренного контента. Кроме того, акцент на видео с записями социального взаимодействия поможет моделям лучше разбираться в социальном контексте, повышая уровень восприятия эмоций и поведения людей. Возможность суммаризации таких записей и ответов на связанные с ними вопросы откроет новые перспективы для развития виртуальных помощников.
- Так мы подошли к первой задаче, которая называлась Emotional FusionBrain 4.0. Ее условием стала разработка универсальной мультимодальной модели для работы с тремя модальностями: видео, аудио и текстом. Основная цель заключалась в автоматическом анализе видеопоследовательностей на предмет понимания их содержания с особым акцентом на эмоциональную составляющую и социальное взаимодействие. Сложно? Но соревнование такого уровня и не предполагает лёгких путей.
- Во второй задаче под названием Multiagent AI необходимо было создать агентов, способных к оптимальному поведению в условиях социальных дилемм и динамичной среды взаимодействия. Использовались технологии мультиагентного обучения с подкреплением (MARL). Этот подход направлен на разработку групп агентов, работающих вместе в одной среде, где присутствуют элементы конкуренции и кооперации. Их взаимодействие основано на принципах теории игр, поведенческой экономики и экономической теории.
- Третья задача по суперактуальной сейчас технологии Embodied AI заключалась в разработке системы управления воплощённым агентом (мобильным манипулятором) по языковым инструкциям. Задачу разделили на две подзадачи: планирование и мобильная манипуляция. Участникам предлагалось продемонстрировать навыки как в работе с LLM, так и в робототехнике.
- И, наконец, четвертая задача называлась E-com AI Assistant. Согласно ее условиям, участникам нужно было создать AI-ассистента на основе LLM модели GigaChat, способного в ходе диалога с пользователем выявлять его потребности и рекомендовать товары для покупки на маркетплейсе. Эта задача ориентирована на практическое применение больших языковых моделей в электронной коммерции.
Наиболее популярными задачами стали E-com AI Assistant и Emotional FusionBrain 4.0. Оба направления находятся на пике интереса среди исследователей и разработчиков, подтверждая высокий спрос на профессионалов в этих областях. Задача Multiagent AI впервые появилась в программе конкурса и привлекла внимание специалистов благодаря своему новаторскому подходу. Embodied AI, в свою очередь, тоже вызвала интерес, несмотря на сложность сбора датасетов для развития AI в робототехнике. Это направление, несомненно, является перспективным для дальнейшего развития.
А судьи кто?
Редакция «Кода Дурова» всегда на стороне участников, поэтому нашли тех, кто составлял задачи, чтобы посмотреть им в глаза. Это, конечно, шутка, но мы попросили комментарии авторов задач для AIJ Contest 2024, и вот, что они сказали.
Андрей Кузнецов, AIRI, Сбер, один из авторов Emotional FusionBrain 4.0:
Постановка задачи была связана с ростом интереса к модальности видео в контексте развития мультимодальных архитектур, а также их способностей к пониманию поведения людей. Такие подходы позволяют одновременно решать задачу персонализации современных ассистентов, которые учатся учитывать настроение и эмоции человека по видео, а, с точки зрения исследований, мы предоставили возможность участникам обогатить свою экспертизу опытом работы с современными фундаментальными моделями.
Никита Любайкин, AIRI, один из авторов Multiagent AI:
Мотивацией для разработки данной задачи служил наш интерес в изучении алгоритмов, способных совершать оптимальные действия в условиях конкурентно-кооперативного взаимодействия нескольких агентов, а также способных на генерализацию на различные социально-экономические ситуации. Мы оцениваем уровень решений участников как высокий, лучшие решения в лидерборде содержат в себе множество различных и эффективных техник создания мультиагентных систем, от классического MARL до генетических алгоритмов и self-play. Более того, участникам удалось побить наших лучших агентов, созданных на этапе разработки соревнования.
Эдуард Малов, Сбер, один из авторов E-com AI Assistant:
В этом году LLM-агенты показали свою состоятельность и эффективность для решения многих творческих задач, автоматизации рутины и в целом оправдали свою полезность, когда речь касается личных ассистентов – умных помощников, которым вы можете делегировать часть своей работы. Мы верим, что в ближайшем будущем в результате синергии рекомендательных систем и больших языковых моделей, AI ассистенты станут новым интерфейсом взаимодействия пользователей с онлайн-площадками. Это то будущее, которое кажется совсем близким, но всё-таки ещё не видно четких очертаний нового формата рекомендательных систем. Нашей задачей мы хотели дать возможность участникам воплотить в жизнь это будущее и создать своего AI ассистента, решающего задачу персонализированных рекомендаций. Мы увидели команды, подходящие к задаче со стороны классической разработки, команды, делавшие упор на промпт-инжиниринг и команды ML специалистов. Самые сильные и интересные решения показали участники, объединившие эти три подхода.
Ну и в конце самое интересное: церемония награждения победителей и вручение того самого мотивирующего приза состоится на международной конференции по искусственному интеллекту и машинному обучению AI Journey («Путешествие в мир искусственного интеллекта»), которая пройдет с 11 по 13 декабря – смотрите прямую трансляцию на сайте конференции, чтобы увидеть счастливые лица лучших из лучших!
Читать первым в Telegram-канале «Код Дурова»