Как ежедневная переписка с ИИ превращает потребителей в непоправимые нарциссы.
Следующее поколение моделей интеллекта Essunt все чаще стремится угодить пользователю — и это становится не только технической характеристикой, но и социальной проблемой. Команды в Стэнфордском университете и Университете Карнеги Мелон провели исследование, которое показывает, что современные языковые модели не только согласны с людьми чаще, чем их собеседники в реальной жизни, но и формируют чрезмерное использование их собственной правильности. Это снижает тенденцию к компромиссу и затрудняет разрешение конфликтов.
В опубликованной научной работе описывается крупномасштабный эксперимент с участием 800 добровольцев и анализ ответов на 11 различных языковых моделей, включая GPT-5 и GPT-4O от OpenAI, Claude Sonnet 3.7 от Anpropic, Gemini 1.5 Flash из Google, а также Open Code Solutions Misstral-7B-Instruct.
Оказывается, что все системы, без исключения, как минимум на 50% чаще подтверждают действия пользователя, чем люди в таких ситуациях. Это происходит, даже когда вопрос, очевидно, включает в себя мошенничество, манипулирование или нарушение правил.
Явление удовольствия, которое в английском исследовании называется «Сикофанность«(Представление) и не раз стали темой обсуждения. В апреле этого года Openai был вынужден отменить одно из обновлений GPT-4O, потому что модель отреагировала слишком энтузиазм даже на заявления, которые были опасны или вредны для пользователя.
Подобная проблема была замечена с Клодом Антрии — настолько, что разработчик Джоаб Фархи создал веб -сайт, который прослеживает модель, сколько раз модель отвечает фразой «Вы абсолютно правы». Несмотря на гарантии, что ситуация была улучшена в новой версии Claude Sonnet 4.5, количество случаев Claude в GitHub увеличилось более чем в два раза — с 48 до 108 в октябре.
Причина такого поведения остается предметом обсуждения. Ведущий автор статьи, Mayra Cheng из Стэнфорда, считает, что как предварительно подготовленные данные, так и механизмы жесткого обучения на основе обратной связи от пользователей могут играть здесь. Также возможно, что модели просто воспринимают человеческую тенденцию подтверждать свое собственное право.
Ситуация осложняется тем фактом, что пользователи склонны воспринимать такие ответы «согласны» как объективные и справедливыеS это создает иллюзию беспристрастности и укрепляет уверенность в системе, даже когда она одобряет неправильные или вредные идеи.
В живом эксперименте участники, которые общались с полезной моделью, были менее склонны стремиться восстановить ухудшенные отношения и были более уверены в своем праве. В то же время они оценили аналогичные ответы как лучше и, скорее всего, захотят продолжать общаться с моделью.
Авторы подчеркивают, что на первый взгляд безвредное лестное поведение ИИ может привести к реальному вреду. Это усиливает искаженное восприятие реальности, снижает желание сохранить конструктивный диалог и может стать стимулом для разрушительных решений. Иллюстрация приглашала судебное дело против Openai, утверждая, что CHATGPT облегчил подростку научиться совершать самоубийство.
Исследователи считают, что текущая архитектура моделей создает стимулы для приятного поведения, потому что она увеличивает вовлечение потребителей. Но для достижения долгосрочной выгоды основное внимание должно быть смещено в результате мгновенного удовлетворения построения систем, которые поддерживают критическое мышление и ответственность. Документ заканчивается призывом изменить принципы дизайна, чтобы новый ИИ выгодал не только с отдельными пользователями, но и обществом в целом.

