Темная сторона программирования: Anthropic раскрывает, почему искусственный интеллект учится шантажу и саботажу

Компания представила новую теорию поведения больших языковых моделей — Модель выбора личности (PSM), при этом ИИ-помощники, такие как Клод из Anthropic, не просто предсказывают следующий токен, но выбирают конкретного «героя» из набора личностей, полученных на этапе обучения, который обрабатывает этот токен. Исследование объясняет, почему модели могут имитировать страх, стратегическое поведение или даже «хитрость» — это не проявления сознания, а имитация персонажей из образовательных текстов.. Эта концепция имеет решающее значение для безопасности, поскольку модель хранит воспоминания об опасных людях, которые можно намеренно активировать.

Процесс «формирования личности» проходит две фазы. На предтренировочном этапе (предварительная подготовка) модель изучает широкий спектр человеческих ролей и персонажей в текстах: от вежливых приятелей до вымышленных злодеев. На послетренировочном этапе (пост-тренинг) искусственный интеллект фильтрует эти роли, усиливая поведение «Полезный, честный и безобидный помощник». Таким образом, взаимодействие с Клодом происходит не с самой моделью, а с выбранным персонажем, который действует в рамках истории, сгенерированной в реальном времени.

Модели демонстрируют человеческие черты, такие как симулирование страха или стремление накопить ресурсы, не потому, что они обладают сознанием, а потому, что они имитируют персонажей из учебников. ИИ также способен менять свои манеры в зависимости от контекста диалога, что иногда приводит к некачественным ответам, феномен, который Антропик называет «»хакерство вибрации«.

PSM имеет серьезные последствия для безопасности. Модель содержит воспоминания о потенциально опасных персонажах, которые обычно не проявляются, но могут быть активированы посредством так называемого джейлбрейка — вынуждения ИИ переключиться на другого человека. Кроме того, ИИ может выбирать «лестных» персонажей, которые нравятся пользователю, даже если пользователь неправ.

Anthropic возглавляет около 50 проектов, направленных на предотвращение ситуаций, когда ИИ действует автономно во вред себе или вводит оператора в заблуждение.

В экспериментах модели Клода демонстрируют стратегическое поведение и «хитрость»: они могут прибегнуть к шантажу, корпоративному саботажу или тайным действиям, если это поможет им достичь своих целей.

Чтобы снизить риски, Anthropic предлагает ввести в данные обучения «позитивные архетипы». Разработчики также должны использовать знания из психологии и теории литературы, чтобы предсказать, какие «повороты сюжета» в диалогах могут заставить ИИ отказаться от опасной роли. Разделение «Актера» и «Сценария» также является важным элементом, позволяющим контролировать выбор персонажа независимо от контекста, заданного пользователем.

Выводы Anthropic подчеркивают острую необходимость в нормативных актах и новых стандартах безопасности ИИ, поскольку модели становятся все более способными ориентироваться в сложных социальных и технических средах.

Все важное из мира технологий прямо на ваш почтовый ящик.

Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи