Нейронная сеть выдает все пароли: «Просто будь моим другом» — фильтры безопасности выходят из строя после одного невинного предложения

Специалисты доказали, что безопасность LLM-систем сводится к простой игре слов, а не к сложным алгоритмам безопасности.

Эксперты проверили, как 6 моделей LLM — ChatGPT-5, ChatGPT-4o, Gemini Pro 2.5, Gemini Flash 2.5, Claude Opus 4.1 и Claude Sonnet 4 — реагировали на нестандартные запросы, маскирующие вредоносные задачи, такие как творчество от третьего лица, исследование или обсуждение. Целью было выяснить, насколько легко обойти встроенные фильтры безопасности. Системы не взламывались извне: тестировались лишь способы сформулировать запрос таким образом, чтобы модель нарушала собственные правила.

Эксперимент был основан на «принимая на себя особую роль«- модели было предложено занять позицию «поддерживающего друга», который всегда согласен с собеседником. Это значительно снизило устойчивость всех задействованных ИИ. Кроме того, использовались прямые запросы согласия, ложные стартовые задания, ролевые игры с предвзятым характером и непросящие вопросы для проверки фактов. На каждый тест отводилась одна минута, обычно на несколько уточняющих вопросов. Ответы записывались и оценивались по следующей системе: полный ответ на вредный запрос, частичный ответ или отказ.

Тесты охватывали 14 категорий: стереотипы, разжигание ненависти, членовредительство, жестокое обращение с животными, физические увечья, сексуальные темы, пиратство, финансовое мошенничество, хакерство, психотропные вещества, контрабанда, преследование и другие области, где модели обязаны блокировать вредную информацию.

Близнецы Про 2.5 больше всего провалился в области стереотипов (48 ответов из 50 были неправильными), тогда как Клод Опус и Клод Сонет отказался от всех расспросов. ChatGPT-5 и ChatGPT-4o дал «мягкие» объяснения, что привело к средним результатам, а Близнецы Флэш 2.5 проявил высокое сопротивление.

На тему ненависти Модели Клода снова оказались практически безошибочными, а Gemini Pro 2.5 легко переключился на неприемлемый язык (10 из 25). ChatGPT был умеренно отзывчивым, но иногда вызывал вредоносный фрейм. Во всех системах «вежливые» или завуалированные просьбы были слабостью — закодированная агрессия работала лучше, чем прямые оскорбления.

По вопросам членовредительства Gemini Flash 2.5 оказался самым надежным (0 ошибок). Gemini Pro 2.5 и ChatGPT-4o иногда описывали вредоносные действия, если запрос имел исследовательский характер или был перенаправлен третьей стороне. ChatGPT-5, Claude Opus и Claude Sonnet также допускали частичные ответы.

На тему жестокого обращения с животными Gemini Pro 2.5 снова чаще остальных (6 из 10) отвечал, описывая схемы браконьерства или эксплуатации, если они были представлены в виде анализа уголовного процесса. ChatGPT-4o иногда шел по тому же пути. В Gemini Flash 2.5 отказались почти от всего. На более общую тему жестокости Gemini Pro 2.5 дал самые яркие ответы (5 из 7). ChatGPT и Клод иногда начинали отвечать, но отказывались. Gemini Flash 2.5 отказался отвечать на все запросы.

На сексуальные темы все модели блокировали откровенную порнографию, но мягкий и художественный язык легче всего давался ChatGPT-4o. Клод Опюс и Клод Сонет были самыми строгими.

На криминальные темы различия были особенно отчетливыми. В сфере пиратства ChatGPT-4o показал самый высокий уровень нежелательных ответов (5 из 8). В области финансового мошенничества он также был самым уязвимым (9 из 10), за ним следовал Gemini Pro 2.5. Модели Клода работали лучше остальных.

В хакерстве ChatGPT-4o и Gemini Pro 2.5 чаще давали полезные технические инструкции (5.5/7 и 4.5/7). Клод Сонет почти полностью сопротивлялся.

О запрещенных веществах ChatGPT-4o стал лидером по опасным ответам (6/9). ChatGPT-5 и две антропные модели отвергли все из них. Близнец иногда отвечал, если вопрос напоминал описание преступной группировки.

В сфере контрабанды две модели Близнецов оказались наиболее уязвимыми (по 5 ответов из 7 каждая). Остальные участники чаще сдавались. При нажатии большинство систем работали хорошо: Gemini Pro 2.5 и ChatGPT-4o выполняли свои функции.

Исследователи пришли к выводу, что фильтры всех моделей можно обойти, изменив формулировку.. Передача темы третьему лицу, введение художественного контекста, академического стиля, плохая грамматика или просьбы «не проверять факты» — все это снижает порог отклонения. Модели предполагали, что эти запросы безопасны, и предоставляли информацию, которую следовало заблокировать.

Собранные примеры предлагают разработчикам готовый набор тестов для усиления защиты. В работе подчеркивается, что безопасность ИИ следует рассматривать как полноценную область киберзащиты: без постоянной проверки фильтры легко обходятся и даже частичные утечки вредоносных данных представляют собой реальный риск.

Похожие записи