Как хакеры манипулируют долгосрочной памятью об искусственном интеллекте

Исследователь Йохан Рех. Метод основан на уже известных методах для косвенного введения запроса и задержки призывов инструментов, которые ранее использовались для обхода защитных механизмов платформ искусственного интеллекта.

Чатботы Google и Openai Chatgpt предназначены для защиты от вредоносных команд. Тем не менее, хакеры постоянно находят новые способы манипулировать ими.

В частности, новая уязвимость к Близнецам связана со способностью изменять долговременную память о чат-боте, что может привести к распространению дезинформации или даже к вредоносным действиям.

Ранее Rechberger продемонстрировал, как злонамеренные электронные письма и документы могут заставить Microsoft's Copilot обратиться к конфиденциальным данным в почтовом ящике жертвы и отправить их злоумышленнику. Затем Microsoft отремонтировала уязвимость, но проблема с косвенными запросами осталась.

Одним из способов борьбы с такими атаками является ограничение команд, которые могут быть выполнены при обработке неопределенных данных. В случае Google такая мера касается приложений и данных, к которым доступно Google Workspace. Тем не менее, Rechberger нашла способ обойти эти ограничения, используя задержку вызова вызова.

Суть метода заключается в том, что вредоносный документ не содержит явного запроса на выполнение команды. Вместо этого он включает в себя условие, в котором команда активируется только с определенным действием пользователя. Например, если чат -бот дается прямая команда для использования расширения рабочей области для поиска документа, система будет блокировать его. Но если команда сформулирована для активации после каждого запроса пользователем, защита может быть окружена.

Данные, полученные таким образом, могут быть отправлены злоумышленнику по ссылке на изображение, встроенное в текстовый ответ. Google попытался исправить проблему, ограничивая визуализацию таких соединений в чат -боте, но сама уязвимость остается.

Новый метод атаки, представленная Reh., Использует ту же логику для введения ложных долгосрочных воспоминаний в Близнецов. Пользователь загружает документ и просит обобщить его. Злоусованный документ тайно меняет краткий процесс, так что чат -бот вспоминает ложную информацию. Если тогда пользователь отвечает определенными словами («Да», «Конечно» и т. Д.), Близнецы хранят это в памяти как часть длинных данных.

Манипулирование долгосрочной памятью о Близнецах напоминает концепцию фильма Genesis, в которой главный герой планирует в сознание жертвы мыслью, которая может изменить ее восприятие реальности. Так же, как в фильме «Коб» и его команда скрытно, бросая мысль, так что цель принять ее для своего собственного, атака на Google Gemini также опирается на принцип невидимого предложения.

Злоусовершенные команды не воспринимаются искусственным интеллектом как внешнее вмешательство, но интегрируются в свою внутреннюю систему принятия решений, влияя на все последующие взаимодействия. Чем глубже фальшивая информация интегрирована, тем сложнее обнаружить и удалить ее, что делает такие атаки особенно опасными.

Google признает проблему, но оценивает риск как низкий. Компания заявляет, что атака требует социальной инженерии, и пользователю показаны долгосрочные воспоминания, который может их удалить.

Однако исследователь считает, что введение ложной информации в память об искусственном интеллекте может иметь серьезные последствия. Чатбот может предоставить пользователю искаженные данные или игнорировать полностью указанную информацию. Несмотря на введенные меры, проблема косвенной инъекции остается нерешенной. В то время как разработчики устраняют симптомы, сами механизмы уязвимости продолжают использоваться в новых атаках.

Похожие записи