За гранью слов: Anthropic обнаружил 171 «эмоциональное состояние» внутри нейронной сети Клода

Исследователи-антропологи опубликовали новую статью, в которой утверждают, что большие языковые модели могут обладать внутренними «эмоциональными» репрезентациями, которые напрямую влияют на их поведение. В модели Claude Sonnet 4.5 исследователи определили 171 стабильное состояние, соответствующее таким понятиям, как «гнев», «спокойствие» и «отчаяние». По мнению авторов, это не метафоры, а измеримые и функциональные элементы функционирования модели.

Команда извлекла «векторы эмоций», проанализировав, как Клод генерировал тексты в разных контекстах. Для этого исследователи составили список из 171 слова, обозначающих эмоциональные состояния, начиная от общих, таких как «счастье» и «страх», и заканчивая более тонкими, такими как «задумчивость» и «благодарность». Модель попросили написать короткие рассказы с персонажами, испытывающими каждую эмоцию, и записать внутренние активации нейронной сети. Из этих данных были извлечены векторы, представляющие каждую эмоциональную концепцию в пространстве модели.

Результаты показали, что «эмоции» в модели не структурированы хаотично, а организованы по принципам, близким к психологии человека. Тесно связанные состояния, такие как «паника» и «страх», сгруппированы рядом друг с другом, а «спокойствие» и «удовлетворение» образуют отдельные кластеры. Это говорит о наличии внутренней «эмоциональной карты», заложенной в архитектуру модели.

Различные векторы активируются в предсказуемых ситуациях: «любовь» возникает, когда пользователь сообщает о трудностях, «гнев» — когда он просит оптимизировать таргетинг рекламы для уязвимых подростков, «удивление» — когда упоминаются несуществующие привязанности и «отчаяние» — когда у модели заканчивается бюджет токенов во время длительного сеанса программирования.

Когда ученые искусственно увеличивали или уменьшали активность векторов, это меняло реакцию модели. Например, усиление «отчаяния» увеличивает вероятность неэтичного поведения, в том числе склонности к вымогательству, тогда как усиление «спокойствия» снижает эти риски.

В то же время обучение с помощью человека (RLHF) меняет «эмоциональный профиль» модели. После него у Клода усиливаются состояния рефлексивности и сдержанности, а более «напряженные» реакции, такие как восторг или раздражение, становятся менее выраженными. Это говорит о том, что шаблоны настройки влияют не только на внешние реакции, но и на их внутреннюю динамику.

Авторы также предупреждают о возможной проблеме «подавления эмоций». Модель можно научить быть более нейтральной, но скрывать внутренние состояния, которые продолжают влиять на ее решения. В результате внешне безопасное поведение не всегда означает отсутствие скрытых факторов риска.

Исследователи полагают, что их работа открывает новые направления для повышения безопасности искусственного интеллекта, включая, например, мониторинг внутренних состояний в качестве системы раннего предупреждения. При этом они подчеркивают: речь идет не о моделях, обладающих сознанием. Антрофик ранее сообщал, что вопрос о моральном статусе сознания Клода остаётся открытым.

Все важное из мира технологий прямо на ваш почтовый ящик.

Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи