Содержание
В феврале этого года ВТБ и холдинг T1 объявили о старте ежегодного соревнования по машинному обучению Data Fusion Contest 2024. Оно продлилось до 5 апреля, участники совсем недавно узнали свои места, а мы взяли интервью у нескольких конкурсантов — от мала до велика.
Соревнование проводилось по двум задачам: «Геоаналитика» и «Модели оттока». Дополнительная номинация — Companion — была введена за публичное решение задач.
За два месяца контеста 1 558 участников предложили 6 878 решений. Принять участие можно было из любой точки мира — зарегистрировано 186 городов из 33 разных стран.
Мы проинтервьюировали как победителей, так и интересных участников Data Fusion Contest. Для удобства можете воспользоваться содержанием статьи.
Андрей Кузнецов, 19 лет
- Два 1-х места: победитель специальной номинации за лучшее публичное решение (номинация Companion) и лучшее решение в задаче «Геоаналитика».
Андрей рассказал «Коду Дурова», что родился и вырос в Липецке, сейчас учится в Москве. Он не первый год принимает участие в подобных соревнованиях — на Data Fusion Contest задачи были сложнее, чем на других контестах, а оттого эмоций во время мероприятия — ещё больше.
В заключительный день участники сильно активизировались и отправляли много решений, были переживания, что кто-нибудь обгонит в последний момент.
Как давно вы в DS? Какой у вас опыт участия в соревнованиях в России/в мире?
Машинным обучением увлекаюсь с восьмого класса, то есть, уже более пяти лет. За этот период принял участие и выиграл во многих престижных хакатонах и конкурсах. Сначала это были олимпиады для школьников, потом для взрослых. В прошлом году стал призёром на двух международных.
Как рассказал Андрей, во время соревнования параллельно с выполнением задания приходится просматривать материалы по тематике, необходимую литературу, а также существующие подходы и методы, чтобы быть ближе к победе. Без ресёрчей — никуда.
Как оцениваете Data Fusion Contest с точки зрения организации и условий? Можно отвечать честно. Что понравилось, а что бы вы хотели улучшить?
Data Fusion Contest проходил на платформе ods.ai, которая, по словам Андрея, является самой удобной и стабильной. С организацией никаких проблем не возникло.
Организаторы быстро отвечали на вопросы участников в чате, было проведено две онлайн-встречи.
Что касается самих заданий, у Андрея есть пожелание «предоставить более продвинутые базовые решения», что позволило бы разработать более качественные алгоритмы за отведённое время.
Какой совет можете дать нашим читателям, которые тоже хотят принимать участие в таких соревнованиях, но откладывают эту затею?
Искусственный интеллект стремительно развивается — чтобы успевать за тенденциями, стоит задуматься об участии в соревнованиях, говорит Андрей. Для достижения высоких результатов требуются тренировки, практика и самостоятельное изучение нового материала.
Рекомендую прорешивать задачи прошедших олимпиад и анализировать решения победителей.
Дмитрий Кожемяко, 35 лет
- 1 место в задаче «Модели оттока».
Дмитрий работает в строительной отрасли, и лишь в свободное время он изучает Data Science. Его первое соревнование состоялось год назад на ODS, где он смог занять место в топ-100. Затем, в сентябре 2023 года, он с командой выиграл первый в жизни контест — Всероссийский хакатон 2023, после чего команда Sweepnet заняла призовое место в региональном хакатоне и первое место на Международном хакатоне 2023.
В соревновании Дмитрий участвовал вместе с Иваном Черных, который работает на должности Data Scientist в инвестиционной компании. Была выбрана задача «Отток».
Что можете посоветовать участникам хакатонов?
Не бойтесь предлагать нестандартные гипотезы и отходите от шаблонных подходов к решению задач. Часто они не приводят к желаемым результатам.
Игорь Шарыгин, 60 лет
- 15 место в задаче «Модели оттока».
Игорь — отличный пример тому утверждению, что возраст не помеха. В индустрию ML он влился совсем недавно — в начале этого года, так как решил полностью поменять свою жизнь, хоть он и называет ML только лишь хобби.
О Data Fusion Contest наш собеседник узнал случайно, а до этого участвовал в двух соревнованиях категории Swag на Kaggle.
Можете поделиться своими эмоциями от задач?
Соревнование захватило и затянуло. Практически всё свободное время уходило на поиск решения. Из смешного: моего опыта в pandas оказалось недостаточно, поэтому многие фичи генерировал при помощи SQL.
Игорю понравилась и обстановка, и участники, и 15-е место. Жалеет лишь о том, что не обнаружил для себя Data Fusion Contest ранее.
Марк Дядченко, 13 лет
- 5 место в задаче «Модели оттока».
Пожалуй, самый молодой участник Data Fusion Contest — Марк Дядченко. Python он начал изучать в возрасте 8 лет, а сейчас он имеет звание expert на платформе Kaggle, где читает форумы и статьи, тренируется и участвует в соревнованиях.
Как давно вы в DS? Поделитесь опытом участия в соревнованиях
Data Science я занимаюсь 1,5 года и практически сразу начал участвовать в соревнованиях. Обычно мы не готовимся, потому что мы не знаем, о чём будет задача. По идее, может быть всё, что угодно.
По словам Марка, каждый хакатон даёт новые знания, а Data Fusion Contest он сравнил с зарубежными международными соревнованиями:
Там (на Data Fusion Contest. — Прим. ред.) есть дискуссии, код выкладывают. Есть таблицы лидеров по задачам, ты знаешь, кто на каком этапе сейчас находится, насколько у твоих конкурентов лучше решения.
Марк подчеркнул, что ему «хотелось бы добавить какой-то baseline (основа, содержащая набор инструкций и спецификаций, документацию и другие подробности о задаче. — Прим. ред.)», хотя это не самый важный фактор — разобраться получилось и без этого.
Можете поделиться советом для будущих участников подобных контестов?
Участвуйте в разных соревнованиях! В идеале каждый раз выбирать новое — любое соревнование будет полезно, но какие-нибудь необычные, конечно, интереснее будут, больше придётся придумывать чего-то нового.
Марк не видит смысла в платных курсах, так как всю информацию можно найти самостоятельно. Особенно это актуально в зарубежных соревнованиях. Кроме того, иногда многое зависит от техники — есть соревнования, где мало кто сможет поучаствовать, потому что не у всех есть полтерабайта памяти на компьютере. В случае с Data Fusion Contest всё прошло гладко и без заминок.
Антон Карасёв, 27 лет
- 3 место в задаче «Геоаналитика».
Антон имеет 7-летний коммерческий опыт в разработке и Data Science — столько же участвует в ML-соревнованиях, что приносит ему и удовольствие, и дополнительный доход.
Расскажите о своей выбранной задаче: с какими трудностями пришлось столкнуться?
Могу сказать, что задача вышла довольно неоднозначной. На первый взгляд всё выглядит просто, задачка вполне классическая в рамках ML и понятная. Однако на практике далеко не все подходы к её решению оказывались успешными, что заставляло изучать иные способы решения и прокачивать свой кругозор.
Отдельно Антон отметил активность тематического чата по ходу соревнования, в котором были интересные обсуждения, а также родились пару мемов.
В качестве решения «Геоаналитики» необходимо было сабмитить inference-код (данный трек соревнования являлся docker-соревнованием. — Прим. ред.). «На мой взгляд, именно так и должны проходить любые ML-соревнования, ведь никакая модель не живёт сама по себе, у неё всегда есть контекст», — подчеркнул Антон.
В целом про площадку и организацию могу сказать только хорошее: система работала чётко, на вопросы в чате организаторы быстро отвечали. Что ещё нужно?)
Каким советом можете поделиться с будущими участниками соревнований?
Навык участия в ML-соревнованиях прокачивается только одним способом — активным участием в ML-соревнованиях. Поэтому всем, кому хочется участвовать в подобных соревнованиях, можно дать только один совет — выбирайте задачу по душе и участвуйте.
Полный лидерборд задач «Геоаналитика» и «Модели оттока» доступен по соответствующим ссылкам. От редакции «Кода Дурова» всем интересующимся советуем следить за инфополем в сфере ML, DS и других соревнований — они не только дадут хороший старт вашей карьере, но и будут продвигать вас по карьерной лестнице.
Читать первым в Telegram-канале «Код Дурова»