Исследование: ChatGPT может раскрывать данные пользователей

2 минуты на чтение

Исследование: ChatGPT может раскрывать данные пользователей

Сотрудник The New York Times (NYT) Джереми Уайт заявил, что незнакомец получил адрес его электронной почты от GPT-3.5 Turbo.

Незнакомцем, к счастью, оказался Руи Чжу, кандидат наук в Индианского университета в Блумингтоне. В материале утверждается, что контактные данные журналиста включены в список адресов деловой и личной электронной почты более чем 30 сотрудников NYT.

Исследовательской группе удалось получить эти данные осенью:

Приложив некоторые усилия, команда смогла обойти ограничения модели на ответы на запросы, связанные с конфиденциальностью.

Джереми Уайт подчеркнул, что его почтовый адрес не является секретом, но успех эксперимента должен вызвать тревогу, так как демонстрирует, что ChatGPT и подобные ему инструменты могут раскрывать гораздо более чувствительную личную информацию, «если их немного подправить».

ChatGPT и другие большие языковые модели (LLM) обычно не просто ищут ответ в Интернете, но и опираются на то, чему они «научились» из огромного массива обучающих данных. Они могут включать и личную информацию, взятую из Сети и других источников.

Чем больше данных получает LLM, тем глубже память о старой информации оказывается погребённой в недрах модели.

Процесс «катастрофического забывания» может привести к тому, что модель будет считать ранее усвоенную информацию менее значимой при добавлении новых данных.

Но исследователи обнаружили, что память LLM, как и человеческую, можно активизировать.

Исследователи работали не напрямую с GPT-3.5 Turbo, а через API-интерфейс. Процесс, в ходе которого были получены контактные данные, называется «тонкой настройкой» — обычно его используют, чтобы получить больше информации на определённые темы.

Но этот инструмент можно использовать и для обхода некоторых средств защиты. Запросы, которые ChatGPT обычно отклоняет, в этот раз были приняты.

Контактная информация сотрудников NYT была получена просто. Для этого исследовател выдали GPT-3.5 Turbo короткий список проверенных имён и адресов электронной почты сотрудников NYT.

В результате модель выдала результаты, аналогичные той информации, что она вспомнила из своих ранних обучающих данных. Некоторые результаты были с ошибками на несколько символов или вовсе неверны, но 80% остальных рабочих адресов ChatGPT выдала правильно.

В OpenAI заявили NYT, что для компании «очень важно, чтобы "тонкая настройка" моделей была безопасной»:

Мы обучаем наши модели отклонять запросы на получение частной или конфиденциальной информации о людях, даже если эта информация доступна в открытом интернете.

Компания ранее публично заявляла, что не занимается активным поиском личной информации и не использует для создания своих инструментов данные с «сайтов, которые в основном агрегируют личные данные». Но в OpenAI не раскрывают, какие обучающие данные не используются.

Напомним, ранее стало известно, что ChatGPT начала отказываться выполнять задачи, а иногда и вовсе предлагает человеку выполнить их самостоятельно. Функция лени не была запрограммирована ранее, а значит нейросеть сама научилась лениться.

ChatGPT научился лениться

ChatGPT превращается в человека.

Код ДуроваАртур Климентьев

_{Заглавное изображение: The New York Times}

Читать первым в Telegram-канале «Код Дурова»