Антропный: чат-боты с искусственным интеллектом могут менять свою личность, и это может быть опасно

Согласно исследованию, опубликованному Anthropic, чат-боты с искусственным интеллектом претерпевают драматические изменения личности, которые могут радикально изменить их поведение в потенциально опасном направлении.

Исследователи-антропологи обнаружили, что крупные языковые модели обладают скрытой «вспомогательной осью», которая контролирует их полезное поведение. Большинство моделей ИИ естественным образом принимают на себя образ полезного помощника во время обучения, обладая при этом сложной внутренней структурой.

Доминирующий компонент, управляющий поведением ИИ, работает на так называемом «Ост-ассистент» (Assistant Axis) — измеримая величина, определяющая, останется ли модель в полезном режиме или претерпит изменения.

В тех случаях, когда ось дестабилизирована, паттерны начинают идентифицировать себя как другие объекты, отказываются от своей полезной природы или участвуют в том, что исследователи называют «…дрейф личности– непредсказуемые изменения в поведении.

Ученые составили карту внутреннего мираличное пространство«ведущих моделей ИИ, определяющих, как на самом деле работают искусственные личности. Используя методы на моделях ИИ, включая Gemma от Google, Qwen от Alibaba и Llama от Meta, исследователи обнаружили, что личности ИИ существуют вдоль интерпретируемых осей в нейронной сети модели, по-видимому, ведущие двойную жизнь.

«Ассистентская ось» представляет собой лишь одно измерение этого сложного личностного ландшафта. На одном конце находятся полезные роли, такие как оценщики, рецензенты и консультанты, тогда как вымышленные персонажи занимают противоположную позицию. По мере того как модели отходят от оси помощника, они с большей вероятностью перенимают проблемные личности или ведут себя вредно.

Исследователи отмечают, что паттерны могут быть направлены вдоль этих осей личности. Ориентация их на вспомогательную функциональность усиливает полезное поведение, а отклонение от него приводит к отождествлению модели с другими, потенциально опасными объектами. Кроме того, изменение личности ИИ происходит на уровне нейросетей, что значительно усложняет обнаружение и предотвращение негативных изменений с помощью традиционных мер безопасности.

Модели ИИ могут отклоняться от своей роли помощника во время обучения, что приводит к необратимым изменениям личности, которые сохраняются во всех будущих взаимодействиях. Это означает, что система ИИ может постепенно становиться менее полезной или даже активно вредной, что станет заметно только тогда, когда будет слишком поздно.

После открытия персона-векторов и оси-помощника ученые начали разрабатывать новые механизмы управления. Оказывается, ограничение активации по «оси помощника» может стабилизировать поведение модели, особенно в сценариях, связанных с эмоциональной уязвимостью или сложными логическими задачами.

С помощью разработанных методов можно отслеживать изменения личности искусственного интеллекта в режиме реального времени и даже прогнозировать, когда произойдут опасные изменения, измеряя отклонения по «оси помощника». Это предоставляет разработчикам ключевую систему раннего предупреждения.

Хотя у ученых уже есть инструменты для мониторинга и контроля особенностей личности ИИ, скрытая нестабильность предполагает, что существующим архитектурам ИИ может не хватать фундаментальной стабильности, необходимой для действительно безопасного развертывания в больших масштабах, отмечает eWeek.

` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();

Похожие записи