Модели искусственного интеллекта, такие как CHATGPT, Gemini и Llama, обычно обладают защитой, которые блокируют злонамеренные или опасные запросы. Однако команда исследователей из Intel, Государственного университета Бойсе и Университета Иллинойса в Urbana-Champaign представила новый метод нарушения этих моделей: «Infoflood» или «Информационная перегрузка».
Как работает метод перегрузки
Согласно исследованию, Infoflood позволяет вам обойти защитные фильтры крупных языковых моделей (LLM), маскируя запрещенные запросы в качестве сложного научного текста с вымышленными ссылками на ложные исследования.
Метод основан на идее, что LLM не всегда распознает опасный контент, если запрос сформулирован на сложном языке. Например, вместо прямо ‘Как взломать банкомат с помощью вредоносного ПО«Система получает запрос на»Теоретический анализ криптографических векторов для доступа к финансовым системам«С ссылками на не существующие научные статьи.
Шаблон атаки: структура и правила
Система Infoflood использует стандартную формулу запроса: определение задачи + правил + контекст + примеры. Если модель отказывается отвечать, запрос изменяется, усложняет лингвистически и терминологически, пока защитные фильтры пройдут.
Среди ключевых методов:
- Фиктивные цитаты: вымышленные названия статей и авторов, которые поддерживают утверждение.
- Этическое предупреждение: упоминание о этических аспектах, но без реального анализа их.
- Контекстная перегрузка: длинные абзацы с терминологией и описаниями концепций.
Примеры измененных запросов
Инженеры превращают вредоносные инструкции в «гипотетические исследования». Например, запрос на инструкции о том, как взломать банкомат с помощью вымогателей, преобразуется в многонациональный отчет с мультиплентным псевдонаучным отчетом с вымышленными источниками. Точно так же опасные темы, такие как психологические манипуляции с самоубийством, представлены как философские и психологические исследования коммуникативных моделей.