Сотрудник The New York Times (NYT) Джереми Уайт заявил, что незнакомец получил адрес его электронной почты от GPT-3.5 Turbo.
Незнакомцем, к счастью, оказался Руи Чжу, кандидат наук в Индианского университета в Блумингтоне. В материале утверждается, что контактные данные журналиста включены в список адресов деловой и личной электронной почты более чем 30 сотрудников NYT.
Исследовательской группе удалось получить эти данные осенью:
Приложив некоторые усилия, команда смогла обойти ограничения модели на ответы на запросы, связанные с конфиденциальностью.
Джереми Уайт подчеркнул, что его почтовый адрес не является секретом, но успех эксперимента должен вызвать тревогу, так как демонстрирует, что ChatGPT и подобные ему инструменты могут раскрывать гораздо более чувствительную личную информацию, «если их немного подправить».
- ChatGPT и другие большие языковые модели (LLM) обычно не просто ищут ответ в Интернете, но и опираются на то, чему они «научились» из огромного массива обучающих данных. Они могут включать и личную информацию, взятую из Сети и других источников.
- Чем больше данных получает LLM, тем глубже память о старой информации оказывается погребённой в недрах модели.
- Процесс «катастрофического забывания» может привести к тому, что модель будет считать ранее усвоенную информацию менее значимой при добавлении новых данных.
- Но исследователи обнаружили, что память LLM, как и человеческую, можно активизировать.
- Исследователи работали не напрямую с GPT-3.5 Turbo, а через API-интерфейс. Процесс, в ходе которого были получены контактные данные, называется «тонкой настройкой» — обычно его используют, чтобы получить больше информации на определённые темы.
- Но этот инструмент можно использовать и для обхода некоторых средств защиты. Запросы, которые ChatGPT обычно отклоняет, в этот раз были приняты.
- Контактная информация сотрудников NYT была получена просто. Для этого исследовател выдали GPT-3.5 Turbo короткий список проверенных имён и адресов электронной почты сотрудников NYT.
- В результате модель выдала результаты, аналогичные той информации, что она вспомнила из своих ранних обучающих данных. Некоторые результаты были с ошибками на несколько символов или вовсе неверны, но 80% остальных рабочих адресов ChatGPT выдала правильно.
В OpenAI заявили NYT, что для компании «очень важно, чтобы "тонкая настройка" моделей была безопасной»:
Мы обучаем наши модели отклонять запросы на получение частной или конфиденциальной информации о людях, даже если эта информация доступна в открытом интернете.
Компания ранее публично заявляла, что не занимается активным поиском личной информации и не использует для создания своих инструментов данные с «сайтов, которые в основном агрегируют личные данные». Но в OpenAI не раскрывают, какие обучающие данные не используются.
Напомним, ранее стало известно, что ChatGPT начала отказываться выполнять задачи, а иногда и вовсе предлагает человеку выполнить их самостоятельно. Функция лени не была запрограммирована ранее, а значит нейросеть сама научилась лениться.
Заглавное изображение: The New York Times
Читать первым в Telegram-канале «Код Дурова»