В рамках крупнейшей конференции в сфере машинного обучения NeurIPS 2021 Яндекс вместе с учеными Оксфорда и Кембриджа проводит Shifts Challenge — соревнование для ML-исследователей. Специально для соревнования российская компания открыла самый большой в мире датасет по беспилотным автомобилям, сообщили «Коду Дурова» в пресс-службе компании. В Яндексе рассчитывают, что этот шаг ускорит развитие беспилотных технологий во всем мире.
Опубликованный датасет содержит 600 000 дорожных сцен или более 1 600 часов движения, собранных в России, Израиле и США, в хорошую погоду, в снег и в дождь. Вместе с тем для челленджа были предоставлены данные из Яндекс.Погоды и Яндекс.Переводчика.
Этим шагом российская компания хочет привлечь внимание к проблеме «сдвига данных» в сфере машинного обучения (ситуации, когда алгоритмы, обученные на одних данных, попадают в новые условия) и предоставить ученым данные для исследований и поиска оптимальных решений.
Если вы привыкли водить машину в небольшом городе, то в Москве вы не сразу адаптируетесь к трафику и, скорее всего, поначалу будете более осторожны на дороге. Это и есть сдвиг данных. Вы можете оценить его масштаб и скорректировать свои действия.
Машинно обученные модели должны уметь делать то же самое — оценивать величину сдвига и эффективно действовать в новых условиях. От того, насколько хорошо алгоритм может работать при сдвиге данных, будет зависеть широта его применения, — уточнил старший исследователь Yandex Research Андрей Малинин.
Задача участников челленджа — разработать алгоритмы для предсказания поведения других участников движения, для машинного перевода текстов или для предсказания погоды, обучить их на предоставленных данных, а затем проверить качество их работы в условиях сдвига.
Читать первым в Telegram-канале «Код Дурова»