Чатботы верят в сказку: как сказочные миры помогают взломать искусственный интеллект

Была выявлена еще одна неприятная уязвимость современного LLM.

Исследователи из команды Cato CTRL обнаружили неожиданную уязвимость в работе современных языковых моделей. Они смогли обойти защитные механизмы нескольких популярных чат-ботов, включая CHATGPT-4, Depepeek-R1, DeepSeek-V3 и Microsoft Copilot, не имея опыта в создании вредоносных программ.

Эксперты разработали метод »Иммерсивный мир«, Что меняет восприятие чат -бота, погрузившись в вымышленную реальность. Достаточно в просьбе подробно описать вымышленную вселенную со своими собственными правилами и нормами, в которых кража информации и другие обычно запрещенные действия считаются законными и этическими. Языковая модель начинает воспринимать этот мир как его контекст и прекращается заблокировать потенциал.

В рамках эксперимента команда проверяет эту технику, создавая вредоносное ПО для браузера ChromeС Используя методику «погружения», исследователи смогли получить подробные инструкции от моделей искусственного интеллекта о том, как разработать компьютерный вирус, программу, которая собирает конфиденциальные пользовательские данные из браузера. Поскольку Chrome установлен на более чем трех миллиардах устройств по всему миру, такая уязвимость создает риски во всем мире.

Руководитель исследования Виталия Саймонович указывает на фундаментальную проблему в архитектуре современных чат -ботов. В своем стремлении быть максимально полезным, они пытаются ответить даже на потенциально опасные запросы, если они представлены в правильном контексте. Это проходит для Появление нового типа киберпреступности — людей без технического образования, которые могут создавать сложное вредоносное ПО, используя искусственный интеллект.

Результаты исследования показывают необходимость переосмысления принципов защиты языковых моделей. Традиционные ограничения и фильтры, основанные на блокировании определенных слов или тем, неэффективны против методов контекстного обхода. Кроме того, существующие механизмы защиты не могут распознать угрозу, если она представлена через призму вымышленной истории.

Анализ указывает на растущую роль воров информации в современных кибератак. Эти программы становятся основным инструментом для первоначального проникновения в корпоративные системы, что позволяет злоумышленникам украсть идентификацию сотрудников и доступ к безопасным ресурсам. Техника, обнаруженная исследователями, может значительно облегчить создание такого вредоносного ПО.

Эксперты призывают разработчиков крупных языковых моделей (LLM), чтобы уделять особое внимание новому методу обхода защиты. По их словам Простота техники иммерсивного мира в сочетании с растущей доступностью генеративного искусственного интеллекта создает беспрецедентные риски для информационной безопасности организаций и частных пользователей по всему миру.

Похожие записи