Reddit анонсировал планы по усилению защиты своего контента от веб-ботов, использующих его для обучения искусственного интеллекта.
Компания заявила о предстоящем обновлении файла robots.txt, который регулирует доступ ботов к сайту, а также о введении мер для ограничения скорости и блокировки доступа некоторых неизвестных ботов. Эти шаги призваны предотвратить выкачивание контента для обучения моделей ИИ без соответствующего указания источника.
Традиционно robots.txt служил для настройки индексации сайта поисковыми системами, однако с развитием технологий ИИ появились новые вызовы, связанные с использованием контента без согласия владельцев. В ответ на это Reddit вводит дополнительные меры контроля, чтобы обеспечить соблюдение своей «Политики открытого контента» и предотвратить использование материалов платформы в коммерческих целях без разрешения.
Администрация Reddit уточнила, что нововведения не повлияют на добросовестных пользователей и исследовательские организации, такие как Internet Archive, которые используют контент в соответствии с установленными правилами. Однако компании, занимающиеся обучением языковых моделей, такие как недавно упомянутый ИИ-стартап Perplexity, могут столкнуться с ограничениями, если игнорируют директивы Reddit.
Контекст этих изменений связан с прошлогодним введением Reddit платы за доступ к API, что уже вызвало недовольство среди разработчиков и пользователей. Несмотря на критику, Reddit продолжает политику защиты своих данных, аргументируя это необходимостью сохранения контроля над использованием своего контента.
Читать первым в Telegram-канале «Код Дурова»