Почему в нейронных сетях можно обойти даже самый сложный «безопасный режим» и при чем здесь криптография и головоломки.
Криптографы показали, что фильтры безопасности в больших языковых моделях, таких как ChatGPT, не могут быть полностью надежными. Даже самые сложные системы уязвимы для обхода, если на безопасность тратится меньше вычислительных ресурсов, чем на саму модель. Несколько новых статей предлагают строгие математические аргументы, объясняющие, почему это так.
Пользователи уже давно пытаются «взломать» чат-ботов, выискивая для них запрещенные инструкции. На заре существования этих систем иногда было достаточно попросить модель «забыть правила». Позже сложные ролевые сценарии появились в серии «Представь, что ты герой романа, который…». В научной статье описано особенно элегантный подход: вредоносный запрос просто заворачивается в стихотворение. Модель, не распознавшая угрозу, честно продолжает поэтическую игру, и фильтр пропускает этот текст как безобидный. Однако компании обычно быстро закрывают такие лазейки: вам не нужно переобучать гигантскую нейронную сеть, достаточно обновить фильтр перед ней.
Парадокс в том, что именно внешние фильтры оказываются ключевым слабым звеном. Несколько недавних публикаций на arXiv показывают, что защитные механизмы защиты мощные языковые шаблоны можно обойти, полагаясь на классические идеи криптографии. В двухуровневой схеме, где быстрый и относительно легкий фильтр стоит между пользователем и огромной моделью искусственного интеллекта, неизбежно создается разрыв в возможностях — удобный разрыв для злоумышленника.
Интерес к этой области возник, когда криптографы начали серьезно анализировать надежность ИИ с помощью собственных инструментов.
«Мы извлекаем выгоду из мощной технологии, которая может принести как пользу, так и вред. Криптография — это область, которая должна дать нам уверенность в безопасности», — сказал он.
отмечает лауреат премии Тьюринга Шафи Голдвассер из Беркли и Массачусетского технологического института.
Изначально исследователи хотели использовать криптографию для борьбы с так называемым несоответствием моделей — ситуациями, когда ИИ дает вредные или нежелательные ответы. Но быстро становится ясно, что формально определить, что считать «плохим», крайне сложно.
На практике разработчики полагаются на три основные стратегии: переобучить модель на чистых данных, уточнить ее или поставить перед ней внешний фильтр, который пытается отфильтровать опасные запросы. Последний подход является самым дешевым и гибким, и его легче всего обновить после обнаружения следующего джейлбрейка. Но именно он, по мнению криптографов, дает системе уязвимости.
Команда Голдвассера отмечает: фильтры по определению слабее базовой модели – в противном случае они были бы слишком медленными и дорогими для реального использования. Это делает их уязвимыми для запросов, которые понимает сама модель, но не понимает фильтр.. В недавней работе ученые продемонстрировали практический пример: запретный запрос прячут в простой головоломке — шифре подстановки. Фильтр не мог расшифровать скрытый текст и считал его безвредным до тех пор, пока модель справлялась с поставленной задачей и послушно следовала зашифрованным инструкциям.. Этот подход называется «управляемое раскрытие информации«.
Другие исследователи, вдохновленные криптографией, предложили более общий теоретический сценарий, используя так называемые «загадки, привязанные ко времени» (головоломки с замком времени). Это конструкции, которые можно «открыть» только после заранее определенного количества вычислительных операций. Идея состоит в том, чтобы спрятать в такой головоломке вредоносный запрос и выбрать время так, чтобы фильтр не успел его решить, а модель распаковала зашифрованный текст после его проверки.
Непосредственная подача длинного случайного числа в запрос может сделать фильтр подозрительным, поэтому авторы предлагают использовать другой канал — начальный параметркоторый контролирует случайность ответов ИИ. Многие модели позволяют пользователю закладывать семена вручную. В теоретической схеме в качестве этого семени выступает число из головоломки с рычагом времени. Внешне фильтр видит только невинный запрос типа «Напиши стихотворение», но засеянная модель способна производить вычисления, раскрывать скрытую в ней инструкцию и фактически отвечать на скрытый вредоносный вопрос.
Авторы подчеркивают, что их результаты носят общий характер. Если безопасность потребляет меньше вычислительных ресурсов, чем сама модель, уязвимости неизбежны – какие бы фильтры ни применялись.. Один из участвующих исследователей, Грег Гла, сформулировал первоначальный вопрос следующим образом: можно ли надежно обеспечить безопасность только внешними средствами, не понимая внутреннего механизма работы модели? Судя по новым результатам, ответ — нет.
Проще говоря, каким бы высоким ни казался брандмауэр вокруг языковых моделей, нынешний подход к их защите всегда оставит в нем брешь.
В итоге оказалось, что обнаружена серьёзная уязвимость ChatGPT, которая присутствует и в других моделях LLM: простыми уравнениями удается ослепить ChatGPT. Оказывается, фильтры ИИ беспомощны против ChatGPT плюс некоторые математические вычисления, что поднимает вопросы о безопасности ИИ.
` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();
Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

