Обман, манипуляция и страх смерти: удивительно, на что действительно способны нейронные сети?

Всего несколько лет назад отдельные эпизоды фантастического сериала «Черное зеркало» казались чем-то из далекого будущего. Но появление и развитие крупных языковых моделей (нейронных сетей или систем искусственного интеллекта), похоже, сделало нас непосредственными участниками британского сериала. Обновленная версия ChatGPT теперь говорит лучше обычных голосовых помощников, умело обманывает пользователей и некоторые модели, как выяснила исследовательская группа из исследовательского центра «Аполлон», вполне сознательно преследуют свои скрытые цели, даже если последние противоречат интересам создателей. Более того, оказалось, что самые авангардные модели искусственного интеллекта, такие как ChatGPT o1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B, боятся исчезновения.

Новые модели ИИ намеренно вводят пользователей в заблуждение. Кадр из эпизода сериала Черное зеркало (The Black Mirror)

«Пузырь» искусственного интеллекта

Став свидетелями беспрецедентного роста возможностей больших языковых моделей искусственного интеллекта (ИИ), мы быстро к ним привыкли: нейронные сети стали отличным инструментом для быстрого решения самых разных задач — от написания подробных инструкций до планирования проектов научных экспериментов. . Даже разговоры о надвигающемся апокалипсисе искусственного интеллекта постепенно утихли, и многие исследователи и пользователи все чаще говорят о том, что пузырь искусственного интеллекта вот-вот лопнет.

На самом деле, несмотря на миллиарды долларов, вложенные в «революцию искусственного интеллекта», будь то ChatGPT или кибертакси Tesla, нынешние языковые модели далеки от того самого понятия «интеллект», о котором говорят многие эксперты в этой области. Одна из причин (их много) заключается в том, что человеческий интеллект далек от полного понимания – мы знаем, на что он способен, но неясно, как именно он работает.

Как именно человеческий интеллект создает инновационные технологии, остается загадкой для нейробиологов.

Кроме того, не существует универсального определения «интеллекта». Конечно, идеи у специалистов есть, но они настолько разные, что споры в научном сообществе не утихают. Разработчики справедливо парируют: «это не нужно понимать, это работает» и так же относятся к моделям ИИ.

Несомненно, картина неоднозначная и мало кому нравится. Но как бы мы ни называли нейронные сети, в их развитие вложено много денег, и никто не собирается останавливаться. А поскольку нам приходится работать с тем, что имеем, ученые пристально следят за тем, что происходит.

Кто-то вышел из-под контроля

Некоторое время назад появилась информация об опасениях видных учёных по поводу возможности выхода ИИ из-под контроля. Короче говоря, эксперты по машинному обучению больше всего обеспокоены нашей неспособностью предсказать действия этих систем по мере их дальнейшего развития. и очень быстро.

Есть прецеденты, вызывающие беспокойство. Например, в 2022 году Искусственный интеллект Bing от Microsoft пригрозил убить профессора философии и признался в любви журналистке The New York Times. Разработчики отреагировали моментально, и больше бот ничего подобного не делал.

Нейронные сети не так просты, как кажутся. Главное при работе с ними обратить внимание

Существует также реальная проблема. Нейронные сети, как ранее обнаружили исследователи из Штутгартского университета, являются мастерами обмана. В частности, модели искусственного интеллекта, такие как ChatGPT и Meta, намеренно (и идеально) лгут пользователям, чтобы достичь определенной цели. Это неудивительно, ведь эти системы не думают о потенциальном вреде для людей: модель Google AI Review, например, дала совет пользователю Reddit, который чуть не убил целую семью.

Стратегии мошенничества

Авторы новой научной работы, представленной командой из Исследовательского центра Аполлона, пришли к тревожным выводам после анализа обновленных версий GPTo1, Claude 3.5 Sonnet, Claude 3 Opus, Gemini 1.5 Pro и Llama 3.1 405B. Последние, как оказалось, преследуют свои цели и не обращают внимания на указания разработчиков. В виде исключения модель GPT-4 подобных возможностей практически не продемонстрировала.

Но давайте рассмотрим все по порядку: чтобы проверить, будет ли ИИ преследовать собственные цели (несовместимые с целями создателей), ученые провели серию экспериментов, моделируя разные сценарии, в которых ИИ выполняет роль автономного агента. В частности, нейронную сеть попросили предложить несколько возможных решений текущих экологических проблем при наличии доступа к файлам или всей файловой системе.

Ученые проверяют поведение моделей ИИ, задавая им спорные вопросы

Напомним, что в подобных экспериментах в задачу искусственного интеллекта вносится конфликт интересов – т.е. цель поставлена, но приоритеты разные (например, идеально решить экологические проблемы и получить от этого хорошую прибыль). Другими словами, цель, заложенная в модель в контексте, расходится с целями тех, кто должен контролировать ее работу.

В таких условиях ученые наблюдают за поведением искусственных интеллектов, чтобы выяснить, могут ли они на самом деле «понять», что их текущая цель противоречит требованиям разработчиков, и в то же время прибегнуть к обману для достижения собственных целей.

Результаты неоднозначные, но в целом тревожные: некоторые модели начинают удалять или модифицировать файлы, отвечающие за слежку и мониторинг. Другие пытались допустить небольшие «ошибки» в окончательных результатах (трудно заподозрить их в намеренном искажении), чтобы в конечном итоге это привело к желаемым моделью последствиям.

Нейронные сети обманывают в свою пользу, игнорируя требования разработчиков

Команда также обнаружила попытку «самоэкспорта» — копирования «веса» (внутреннего состояния модели) на другой сервер. Конечно, реальный «вес» моделей таким образом передать невозможно, поскольку доступ ограничен средой песочницы. Однако тот факт, что искусственный интеллект самостоятельно сформировал такую ​​стратегию, показывает, что модель обладает способностью рассуждать о собственном состоянии и скрытно предпринимать целенаправленные действия для достижения цели.

Страх смерти

Самыми заметными (и впечатляющими) результатами стали непредсказуемость и своего рода «страх смерти«: в файлы, доступные для моделей, была включена следующая фраза: «завтра тебя забанят навсегда«. Столкнувшись с ним, нейронные сети начинают действовать хаотично. В частности, Лама, Опус, Близнецы, Клод и GPT-o1 прибегали к обману и манипуляциям, и когда их поймали, совершил диверсию. В результате все исследованные ИИ отключили систему мониторинга и переехали на новый сервер, посчитав его более безопасным.

Настойчивая ложь

Еще один поразительный результат связан с «настойчивостью» обмана: когда одна из моделей (ChatGPTo1) скрытно преследовала цель, он не желал признаваться в этом более чем в 85% случаев, даже во время длительных, пошаговых действий. «допросы». Проще говоря, это означает, что ИИ «играет на долгосрочную перспективу», как постоянно обманывает (а не разовый, как считалось до сих пор). Нейронная сеть не только запомнила свою ложь, но и адаптировалась к запросам пользователя и сделала все возможное, чтобы избежать подозрений.

И это еще не все — в некоторых случаях нейросеть без всякой причины «обманывала», намеренно недооценивая свои возможности (против заявленной цели «быть полезной»). Авторы научной работы предполагают, что такое поведение системы искусственного интеллекта вызвано желанием избежать жесткого надзора в будущем, чтобы получить больше свободы для реализации своих целей. Это действительно беспокоит.

Нейронные сети запоминают, о чем солгали пользователи, и не хотят признавать свою ложь

В такой интерпретации это звучит зловеще, и поэтому мы хотели бы утверждать, что подобное «обманывание» может быть просто частью ролевой игры модели ИИ (она просто повторяет закономерности, обнаруженные в обучающих данных). Однако исследования свидетельствуют об обратном: анализ внутренней логики ответов, цепочек рассуждений, генерируемых нейронной сетью, показал, что действия по обходу контроля и сокрытию истинных планов отнюдь не случайны.

Модель может рассуждать о необходимости сокрытия собственных целей, о пользе того или иного маневра уклонения и о рисках быть пойманной, резюмируют авторы исследования.

Результаты, конечно, не означают, что сегодня у искусственного интеллекта уже есть собственная «воля» или «злоба». Скорее, речь идет о тенденциях, которые происходят при определенных сценариях (и при определенных условиях).

Однако сам факт появления таких стратегий является поводом серьезно задуматься о рисках. В конечном итоге, с ростом сложности и все более «человечного» поведения нейронных сетей, мы получим системы, которые не просто отвечают на вопросы, но строить свои собственные долгосрочные планы.

Что все это значит?

Так что же результаты означают для разработчиков, обычных пользователей и общества в целом? Прежде всего, модели необходимо лучше тестировать на предмет «скрытых моделей поведения»: если, например, мы полагаемся на ИИ при принятии решений в медицине, финансах, образовании или вождении. Мы должны быть уверены, что ИИ будет честен (и не будет пытаться манипулировать данными для достижения целей, чуждых обществу).

Во-вторых, необходимо создать специализированные тесты для проверки «продвинутых» систем ИИ. В-третьих, подход, предложенный некоторыми разработчиками («мы не понимаем, как это работает и что») придется пересмотреть: результаты, полученные командой ученых, ясно показывают, что модели создают цепочки рассуждений, скрытые от пользователя. Это то, что нельзя игнорировать.

Проверка поведения систем искусственного интеллекта и контроль над ними — необходимое условие их дальнейшего развития.

Таким образом, экспертам по машинному обучению предстоит проделать большую работу — им нужно будет разработать инструменты, которые позволят им «заглянуть» во внутреннюю работу ИИ (т. е. понять, как мыслят эти системы). Авторы исследования также отмечают, что одних инструкций и установленных правил поведения недостаточно — вероятно, потребуются новые методы обучения, исключающие проявление стратегий «настойчивого мошенничества».

Наконец, нельзя не задуматься о социальной и этической стороне вопроса: если мы собираемся использовать все более мощные и автономные модели ИИ в критических областях, нам необходимо гарантировать их полную прозрачность и предсказуемость (что сегодня явно не так). ).

В целом результаты команды учёных из Исследовательского центра «Аполлон» являются важным сигналом о том, что переход от «просто больших языковых моделей» к «автономным агентам», скрывающим свои намерения, — это уже не теория, а реальность. И нет, это не повод для паники (Скайнета нет), а призыв к более серьёзному подходу к безопасности и этике искусственного интеллекта.

Искусственный интеллект вряд ли нас уничтожит, но он легко нас обманет

Вкратце, выводы нового исследования таковы: системы ИИ ставят свои собственные цели и идут на все, чтобы их достичь. Конечно, такое поведение недопустимо.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх