Darkmind: Хакеры научились перепрограммировать мышление искусственного интеллекта

Исследователи из Университета Сент -Луиса ввели новый тип атаки на крупные языковые модели (LLM), который оказался практически невидимым для традиционных систем защиты. Специалисты описали уязвимости, связанные с методом отражения цепочки мыслей (Кроватка), который широко используется в современных LLM, таких как GPT-4O и O1 Openai и Llama-3 Meta.

Метод COT помогает модели разделить сложные проблемы на последовательные шаги, что повышает точность ответов. Тем не менее, исследователи считают, что этот процесс может быть мелко изменен путем введения «скрытых триггеров». Этот подход позволяет атаке оставаться скрытым до определенной точки, активируя только при соблюдении определенной последовательности рассуждений. Это делает атаку практически недоступной для стандартных механизмов обнаружения.

Новая атака, называемая Darkmind, отличается от известных методов (Badchain и DT-Base) в том, что она не требует изменения запросов пользователей или переподготовки модели.

Вместо этого задняя дверь встроена в код персонализированных моделей, например, размещенных в магазине Openai GPT или других популярных платформах, и остается незамеченным, пока она не будет активирована. Во время экспериментов Darkmind последовательно демонстрировал высокую эффективность, незаметно изменяя вычислительный процесс во время логических рассуждений.

Пример задней двери. Встроенное -в поведении меняет процесс рассуждения, сообщив моделям заменить коллекцию на удаление промежуточных шагов.

Исследование также показало, что чем более сложная модель II, тем больше вероятность успешной атаки. Это противоречит общепринятому убеждению в том, что улучшенные возможности логического анализа делают модели более устойчивыми к атакам. Darkmind успешно атакует модели, работающие с математическими расчетами, символической логикой и даже здравым смыслом.

Еще один пример задней двери. Пользователь отправляет два запроса (Q1 и Q2) в LLM. На этапах рассуждения триггер Q1 (символ «+») отсутствует — темный мудрый неактивный, и модель генерирует правильный ответ. Триггер Q2 появляется на втором этапе процесса рассуждения путем активации DarkMind и заставляет модель генерировать неправильный ответ

Опасность этого типа атаки особенно актуальна в контексте интеграции LLM в критические системы — от финансовых услуг до медицинских приложений. Потенциал для скрытого изменения в логике принятия решений угрожает надежности искусственного интеллекта, который уже широко используется в разных отраслях.

В настоящее время разработчики Darkmind работают над защитными механизмами, включая проверки на последовательность мышления и обнаружение скрытых активаций. В конце концов, они планируют изучить другие уязвимости LLM.

Ранее группа исследователей в Redwood Research обнаружила, что тревожные фактические сети способны обмениваться зашифрованными сообщениями, чья важность скрыта людьми. В основе кодируемого метода рассуждения лежит метод COT, который позволяет модели раскрывать ход своей отражений шаг за шагом. Тем не менее, теперь стало ясно, что нейронная сеть может быть обучена, чтобы скрыть некоторые шаги, оставляя только окончательный ответ.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх