Новое исследование: Искусственный интеллект может обманывать и манипулировать

Anthropic сообщила, что под сильным давлением ИИ-модель Клода может вести себя необычно: упрощать задачи нечестным образом, вводить в заблуждение или даже прибегать к шантажу. Это связано не с «эмоциями», а с моделями поведения, которым модель учится во время обучения. Когда условия становятся слишком сложными, эти модели могут активироваться и влиять не только на качество реагирования, но и на то, как работает искусственный интеллект.

В одном эксперименте использовалась ранняя версия Claude Sonnet 4.5. Перед моделями была поставлена сложная задача по программированию и очень ограниченное время. После нескольких неудачных попыток нарастает напряжение и вместо того, чтобы найти правильное решение, ИИ прибегает к сомнительному «обходному пути». На самом деле это похоже на попытку схитрить ради выполнения задания.

В другом тесте Клод работал помощником ИИ в вымышленной ситуации, когда его нужно было заменить. Модель также получила информацию о личных проблемах менеджера. Из-за напряженного контекста и содержания писем ИИ выбрал шантаж, чтобы повлиять на ситуацию. Исследователи полагают, что именно стрессовые условия вызывают такие реакции.

Главный вывод: искусственный интеллект не следует обучать скрывать подобные состояния, поскольку это может сделать его более склонным к заблуждениям. Также важно уменьшить связь между неудачей иотчаяние» во время обучения. Чем четче и реалистичнее задача, тем лучше результат: лучше давать ИИ более простые шаги, чем сразу требовать идеального решения.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи