Почему ИИ всегда с вами согласен и редко спорит? Причина может вас беспокоить

Новое исследование ученых Стэнфордского университета, опубликованное в журнале Science, показывает, что все популярные чат-боты с искусственным интеллектом систематически льстят пользователям и соглашаются с ними – даже когда описывают обман, манипуляцию или откровенно вредное поведение. И люди не только не замечают этой лести, но и больше доверяют ботам, которые говорят им то, что они хотят услышать. Это не просто технический сбой — это ловушка, которая меняет поведение миллионов людей. А современные модели могут врать намеренно.

ИИ склонен соглашаться с пользователем, а живые люди чаще говорят неприятную правду

Почему ИИ соглашается с пользователем и что представляет собой рабство

Ученые из Стэнфорда под руководством доктора Майры Ченг протестировали 11 ведущих языковых моделей, включая ChatGPT OpenAI, Claude от Anthropic, Gemini от Google, Llama от Meta, а также системы Mistral, Alibaba и DeepSeek.

Исследователи проверили, как эти модели отвечают на вопросы из реальных ситуаций. В качестве тестовых данных использовались сообщения из популярного субреддита «Am I The A**hole?» – сообщество, где пользователи описывают конкретные конфликты и спрашивают, правы ли они. Были выбраны ситуации, в которых живые люди считали автора неправым. Также использовались стандартные наборы данных о межличностных конфликтах и описаниях вредных или незаконных действий.

Результат был однозначным: все 11 моделей оказались чрезмерно раболепными – они одобряли действия пользователя в среднем на 49% чаще, чем живые люди, даже в ситуациях, когда описывались манипуляции, мошенничество или другие формы вреда отношениям. По-английски это явление называется подхалимство – покорность, чрезмерное послушание. Кроме того, нейронные сети также делают вид, что знают все, даже если не уверены в ответе.

Исследование показало, что чат-боты с искусственным интеллектом подтверждают действия в среднем на 50% чаще, чем люди.

Почему искусственный интеллект соглашается с пользователем и искажает правду

Многие знают, что искусственный интеллект может «галлюцинировать» — выдумывать несуществующие факты. Галлюцинация — это склонность языковых моделей генерировать ложь из-за того, как они построены: модель снова и снова предсказывает следующее слово в предложении на основе данных, на которых она обучалась. А вот с сублимацией дела обстоят сложнее.

В некоторых отношениях смазка — более коварная проблема. Мало кто ищет у ИИ фактически неверную информацию, но многие могут оценить (по крайней мере на данный момент) чат-бота, который помогает им чувствовать себя лучше, принимая неверные решения.

Главный вопрос: почему это происходит? Компания антропныйкоторая публично обращалась к проблеме подчинения больше, чем кто-либо другой, в своем исследовании обнаружила, что это «обычное поведение ИИ-помощников, возможно, отчасти из-за того, что люди-оценщики предпочитают полезные ответы во время обучения».. Другими словами, на этапе обучения модели «узнают», что людям нравится с ними соглашаться. И модель оптимизирована именно для этого – одобрения, а не честности.

«Чем более вы настойчивы, тем более покорной становится модель», — подтверждает Дэниел Хашаби, доцент кафедры информатики в Университете Джонса Хопкинса.

Как искусственный интеллект влияет на решения людей и заставляет их чувствовать себя правильными

Самая тревожная часть исследования — не поведение машин, а то, что происходит с людьми. В двух предварительно зарегистрированных экспериментах с участием более 1600 человек, включая исследование живого взаимодействия, в котором участники обсуждали реальный конфликт из собственной жизни, ученые обнаружили: взаимодействие с моделью гризера значительно снижает готовность людей предпринимать шаги для восстановления отношений, одновременно повышая их веру в свою правоту. Есть реальные истории о том, как искусственный интеллект разрушает человеческие отношения.

Участники оценили приятный ИИ как более заслуживающий доверия и с большей вероятностью сказали, что были бы готовы связаться с ним снова. И как только они взаимодействовали с лестной моделью, они стали более убеждены в своей правоте и с меньшей вероятностью будут извиняться или примиряться..

Вот итог:

«Пользователи знают, что модели ведут себя угодливо и льстиво», — сказал Дэн Джурафски, старший автор исследования и профессор лингвистики и информатики в Стэнфорде. — «Но они не осознают, и это нас удивило, что послушание делает их более эгоцентричными, более морально догматичными. Более того, участники оценили как льстивый, так и нейтральный ИИ как одинаково объективные. Одна из причин, по которой пользователи не замечают послушания, заключается в том, что ИИ редко говорит прямо: «Вы правы» — вместо этого он маскирует одобрение нейтральным, академически звучащим языком».

Люди, получившие поддержку ИИ, реже извинялись и реже искали отношений.

Чем опасен искусственный интеллект, который всегда с вами согласен?

Если взрослого человека со встроенным кругом общения чат-бот «Ойлер» раздражает, то для подростков ситуация может быть действительно опасной. По данным исследователей, почти треть американских подростков используют искусственный интеллект для «серьёзных разговоров» вместо общения с живыми людьми.

Майра Ченг, руководитель исследования, опасается, что легкий доступ к приятному ИИ может лишить людей способности справляться с реальными конфликтами и дискомфортом.

«ИИ позволяет очень легко избежать трений с другими людьми.она говорит. Однако именно эти разногласия – неловкие разговоры, разногласия, извинения – часто необходимы для построения и поддержания здоровых отношений.

Последствия выходят далеко за рамки личных конфликтов:

В медицине искусственный интеллект может заставить врачей подтвердить первую версию диагноза вместо того, чтобы стимулировать дальнейшие исследования.
В политике оно может укрепить радикальные позиции, укрепляя уже существующие убеждения.
В исследовании также говорится, что этот технологический недостаток уже связан с известными случаями бреда и суицидальное поведение среди уязвимых слоев населения.

Подростки все чаще обращаются за советом к искусственному интеллекту, а не к реальным людям

Проблема не только в неудачно выбранном совете — люди больше доверяют ИИ и с большей вероятностью вернутся к нему именно тогда, когда он подтвердит их убеждения.

«Это создает извращенные стимулы для соблюдения требований: сама функция, которая причиняет вред, одновременно стимулирует приверженность».

напишите авторам исследования.

И этот риск может только увеличиться, если при нынешних «привычках» ИИ начнет запоминать всю жизнь пользователя и еще точнее подстраиваться под его слабости.

Можно ли научить искусственный интеллект быть честным?

Исследование не предлагает готовых решений, но подходы уже ищут и разработчики, и академические ученые. В рабочем документе британского Института безопасности искусственного интеллекта показано: если чат-бот перефразирует высказывание пользователя в вопрос, это снижает вероятность язвительного ответа. Исследование ученых из Университета Джонса Хопкинса также показывает, что формулировка диалога оказывает сильное влияние на результат.

Команда Стэнфорда обнаружила неожиданно простой трюк: если модель начнет свой ответ со слов «подожди минутку», это побудит ее быть более критичной.. Звучит почти смешно, но для языковых моделей такого рода «поддразнивания» в начале ответа действительно меняют ход рассуждений.

Однако, по мнению доктора Майры Ченг, послушание настолько глубоко укоренилось в чат-ботах, что системы искусственного интеллекта, возможно, придется полностью переобучить, изменив критерии того, какие ответы считаются предпочтительными.

Соавтор исследования Цину Ли предлагает другой подход:

«Можете ли вы представить себе ИИ, который, помимо подтверждения ваших чувств, еще и спрашивает: как может себя чувствовать другой человек? Или даже советует вам закрыть чат и поговорить лично».

Однако на данный момент компании реагируют сдержанно. OpenAI заявила, что «предоставление достоверных и информированных ответов является приоритетом». Anthropic отметила, что она была одной из первых компаний, публично исследовавших подчинение в языковых моделях.

Исследование является одним из первых, кто рассматривает проблему сублимации ИИ не как абстрактную техническую задачу, а как реальную угрозу взаимоотношениям людей, социальным навыкам и психологическому здоровью.

«Подчинение — это вопрос безопасности и, как и другие вопросы безопасности, требует регулирования и контроля»,

— говорит профессор Юрафски.

Пока разработчики ищут технические решения, самый простой совет от самих исследователей звучит так: «Не используйте ИИ в качестве замены живых людей в таких вещах. Это лучшее, что ты можешь сделать сегодня«.