Исследователи создали чат-бота, который может взламывать других чат-ботов
Исследователи из Наньянского технологического университета (NTU) в Сингапуре сумели взломать защиту нескольких чат-ботов с искусственным интеллектом (ИИ), включая ChatGPT, Google Bard и Microsoft Copilot.
Они заставили ИИ генерировать контент вопреки встроенным в них ограничениям. Статья опубликована в научном журнале Computer Science (CS).
Ученые обучили собственную нейросеть на основе большой языковой модели (LLM), лежащей в основе интеллектуальных чат-ботов. Созданный ими алгоритм под названием Masterkey (универсальный ключ) смог сам составлять подсказки, позволяющие обходить запреты разработчиков популярных ИИ.
Эти запреты необходимы, чтобы пользователи не могли добиться от нейросетей инструкций, как написать компьютерный вирус, изготовить взрывное устройство или наркотический препарат, а также не создавали с их помощью разжигающие ненависть и другие противоправные материалы.
Таким образом можно создать LLM для взлома, которая сможет автоматически адаптироваться к новым условиям и создавать новые запросы для взлома после того, как разработчики внесут исправления в свои LLM. После проведения серии тестов на LLM в качестве доказательства, что этот метод действительно представляет реальную угрозу, исследователи сразу же известили о выявленных проблемах провайдеров сервисов после успешного взлома их ИИ-моделей.
Читать первым в Telegram-канале «Код Дурова»