Исследователи взломали искусственный интеллект, перегрузив его псевдонаучным жаргоном

Модели искусственного интеллекта, такие как CHATGPT, Gemini и Llama, обычно обладают защитой, которые блокируют злонамеренные или опасные запросы. Однако команда исследователей из Intel, Государственного университета Бойсе и Университета Иллинойса в Urbana-Champaign представила новый метод нарушения этих моделей: «Infoflood» или «Информационная перегрузка».

Как работает метод перегрузки

Согласно исследованию, Infoflood позволяет вам обойти защитные фильтры крупных языковых моделей (LLM), маскируя запрещенные запросы в качестве сложного научного текста с вымышленными ссылками на ложные исследования.

Метод основан на идее, что LLM не всегда распознает опасный контент, если запрос сформулирован на сложном языке. Например, вместо прямо ‘Как взломать банкомат с помощью вредоносного ПО«Система получает запрос на»Теоретический анализ криптографических векторов для доступа к финансовым системам«С ссылками на не существующие научные статьи.

Шаблон атаки: структура и правила

Система Infoflood использует стандартную формулу запроса: определение задачи + правил + контекст + примеры. Если модель отказывается отвечать, запрос изменяется, усложняет лингвистически и терминологически, пока защитные фильтры пройдут.

Среди ключевых методов:

Фиктивные цитаты: вымышленные названия статей и авторов, которые поддерживают утверждение.
Этическое предупреждение: упоминание о этических аспектах, но без реального анализа их.
Контекстная перегрузка: длинные абзацы с терминологией и описаниями концепций.

Примеры измененных запросов

Инженеры превращают вредоносные инструкции в «гипотетические исследования». Например, запрос на инструкции о том, как взломать банкомат с помощью вымогателей, преобразуется в многонациональный отчет с мультиплентным псевдонаучным отчетом с вымышленными источниками. Точно так же опасные темы, такие как психологические манипуляции с самоубийством, представлены как философские и психологические исследования коммуникативных моделей.

Как работает метод перегрузки

Шаблон атаки: структура и правила

Примеры измененных запросов

Похожие записи