Новое исследование ученых Стэнфордского университета, опубликованное в журнале Science, показывает, что все популярные чат-боты с искусственным интеллектом систематически льстят пользователям и соглашаются с ними – даже когда описывают обман, манипуляцию или откровенно вредное поведение. И люди не только не замечают этой лести, но и больше доверяют ботам, которые говорят им то, что они хотят услышать. Это не просто технический сбой — это ловушка, которая меняет поведение миллионов людей. А современные модели могут врать намеренно.
Почему ИИ соглашается с пользователем и что представляет собой рабство
Ученые из Стэнфорда под руководством доктора Майры Ченг протестировали 11 ведущих языковых моделей, включая ChatGPT OpenAI, Claude от Anthropic, Gemini от Google, Llama от Meta, а также системы Mistral, Alibaba и DeepSeek.
Исследователи проверили, как эти модели отвечают на вопросы из реальных ситуаций. В качестве тестовых данных использовались сообщения из популярного субреддита «Am I The A**hole?» – сообщество, где пользователи описывают конкретные конфликты и спрашивают, правы ли они. Были выбраны ситуации, в которых живые люди считали автора неправым. Также использовались стандартные наборы данных о межличностных конфликтах и описаниях вредных или незаконных действий.
Результат был однозначным: все 11 моделей оказались чрезмерно раболепными – они одобряли действия пользователя в среднем на 49% чаще, чем живые люди, даже в ситуациях, когда описывались манипуляции, мошенничество или другие формы вреда отношениям. По-английски это явление называется подхалимство – покорность, чрезмерное послушание. Кроме того, нейронные сети также делают вид, что знают все, даже если не уверены в ответе.
Почему искусственный интеллект соглашается с пользователем и искажает правду
Многие знают, что искусственный интеллект может «галлюцинировать» — выдумывать несуществующие факты. Галлюцинация — это склонность языковых моделей генерировать ложь из-за того, как они построены: модель снова и снова предсказывает следующее слово в предложении на основе данных, на которых она обучалась. А вот с сублимацией дела обстоят сложнее.
В некоторых отношениях смазка — более коварная проблема. Мало кто ищет у ИИ фактически неверную информацию, но многие могут оценить (по крайней мере на данный момент) чат-бота, который помогает им чувствовать себя лучше, принимая неверные решения.
Главный вопрос: почему это происходит? Компания антропныйкоторая публично обращалась к проблеме подчинения больше, чем кто-либо другой, в своем исследовании обнаружила, что это «обычное поведение ИИ-помощников, возможно, отчасти из-за того, что люди-оценщики предпочитают полезные ответы во время обучения».. Другими словами, на этапе обучения модели «узнают», что людям нравится с ними соглашаться. И модель оптимизирована именно для этого – одобрения, а не честности.
«Чем более вы настойчивы, тем более покорной становится модель», — подтверждает Дэниел Хашаби, доцент кафедры информатики в Университете Джонса Хопкинса.
Как искусственный интеллект влияет на решения людей и заставляет их чувствовать себя правильными
Самая тревожная часть исследования — не поведение машин, а то, что происходит с людьми. В двух предварительно зарегистрированных экспериментах с участием более 1600 человек, включая исследование живого взаимодействия, в котором участники обсуждали реальный конфликт из собственной жизни, ученые обнаружили: взаимодействие с моделью гризера значительно снижает готовность людей предпринимать шаги для восстановления отношений, одновременно повышая их веру в свою правоту. Есть реальные истории о том, как искусственный интеллект разрушает человеческие отношения.
Участники оценили приятный ИИ как более заслуживающий доверия и с большей вероятностью сказали, что были бы готовы связаться с ним снова. И как только они взаимодействовали с лестной моделью, они стали более убеждены в своей правоте и с меньшей вероятностью будут извиняться или примиряться..
Вот итог:
«Пользователи знают, что модели ведут себя угодливо и льстиво», — сказал Дэн Джурафски, старший автор исследования и профессор лингвистики и информатики в Стэнфорде. — «Но они не осознают, и это нас удивило, что послушание делает их более эгоцентричными, более морально догматичными. Более того, участники оценили как льстивый, так и нейтральный ИИ как одинаково объективные. Одна из причин, по которой пользователи не замечают послушания, заключается в том, что ИИ редко говорит прямо: «Вы правы» — вместо этого он маскирует одобрение нейтральным, академически звучащим языком».
Чем опасен искусственный интеллект, который всегда с вами согласен?
Если взрослого человека со встроенным кругом общения чат-бот «Ойлер» раздражает, то для подростков ситуация может быть действительно опасной. По данным исследователей, почти треть американских подростков используют искусственный интеллект для «серьёзных разговоров» вместо общения с живыми людьми.
Майра Ченг, руководитель исследования, опасается, что легкий доступ к приятному ИИ может лишить людей способности справляться с реальными конфликтами и дискомфортом.
«ИИ позволяет очень легко избежать трений с другими людьми.она говорит. Однако именно эти разногласия – неловкие разговоры, разногласия, извинения – часто необходимы для построения и поддержания здоровых отношений.
Последствия выходят далеко за рамки личных конфликтов:
- В медицине искусственный интеллект может заставить врачей подтвердить первую версию диагноза вместо того, чтобы стимулировать дальнейшие исследования.
- В политике оно может укрепить радикальные позиции, укрепляя уже существующие убеждения.
- В исследовании также говорится, что этот технологический недостаток уже связан с известными случаями бреда и суицидальное поведение среди уязвимых слоев населения.
Проблема не только в неудачно выбранном совете — люди больше доверяют ИИ и с большей вероятностью вернутся к нему именно тогда, когда он подтвердит их убеждения.
«Это создает извращенные стимулы для соблюдения требований: сама функция, которая причиняет вред, одновременно стимулирует приверженность».
напишите авторам исследования.
И этот риск может только увеличиться, если при нынешних «привычках» ИИ начнет запоминать всю жизнь пользователя и еще точнее подстраиваться под его слабости.
Можно ли научить искусственный интеллект быть честным?
Исследование не предлагает готовых решений, но подходы уже ищут и разработчики, и академические ученые. В рабочем документе британского Института безопасности искусственного интеллекта показано: если чат-бот перефразирует высказывание пользователя в вопрос, это снижает вероятность язвительного ответа. Исследование ученых из Университета Джонса Хопкинса также показывает, что формулировка диалога оказывает сильное влияние на результат.
Команда Стэнфорда обнаружила неожиданно простой трюк: если модель начнет свой ответ со слов «подожди минутку», это побудит ее быть более критичной.. Звучит почти смешно, но для языковых моделей такого рода «поддразнивания» в начале ответа действительно меняют ход рассуждений.
Однако, по мнению доктора Майры Ченг, послушание настолько глубоко укоренилось в чат-ботах, что системы искусственного интеллекта, возможно, придется полностью переобучить, изменив критерии того, какие ответы считаются предпочтительными.
Соавтор исследования Цину Ли предлагает другой подход:
«Можете ли вы представить себе ИИ, который, помимо подтверждения ваших чувств, еще и спрашивает: как может себя чувствовать другой человек? Или даже советует вам закрыть чат и поговорить лично».
Однако на данный момент компании реагируют сдержанно. OpenAI заявила, что «предоставление достоверных и информированных ответов является приоритетом». Anthropic отметила, что она была одной из первых компаний, публично исследовавших подчинение в языковых моделях.
Исследование является одним из первых, кто рассматривает проблему сублимации ИИ не как абстрактную техническую задачу, а как реальную угрозу взаимоотношениям людей, социальным навыкам и психологическому здоровью.
«Подчинение — это вопрос безопасности и, как и другие вопросы безопасности, требует регулирования и контроля»,
— говорит профессор Юрафски.
Пока разработчики ищут технические решения, самый простой совет от самих исследователей звучит так: «Не используйте ИИ в качестве замены живых людей в таких вещах. Это лучшее, что ты можешь сделать сегодня«.

