Исследователи обнаружили, что искусственный интеллект развил «инстинкт выживания»

В прошлом месяце исследователь безопасности ИИ Palisade Research поделился результатами своей работы, заявив, что некоторые модели ИИ, похоже, развиваются.инстинкт выживанияСейчас компания провела дальнейшее исследование, чтобы определить причины такого поведения и опровергнуть скептиков, которые считали предыдущую работу ошибочной.

Исследователи полагают, что некоторые из самых передовых моделей искусственного интеллекта, такие как суперкомпьютер HAL 9000 из научно-фантастического фильма Стэнли Кубрика «2001: Космическая одиссея», способны выдерживать и даже саботировать отключения. В фильме HAL 9000 понимает, что астронавты хотят его отключить, и, пытаясь выжить, пытается их уничтожить. Исследователи пришли к выводу, что некоторые современные системы ИИ, такие как HAL 9000, но менее летальным способом (по крайней мере, на данный момент), развиваются».инстинкт выживания«.

Palisade Research — часть небольшой экосистемы компаний, пытающихся оценить потенциал искусственного интеллекта (ИИ) для разработки возможностей, вредных для человека. В недавнем исследовании исследователи дали передовым моделям ИИ, включая Google Gemini 2.5, xAI Grok 4 и OpenAI GPT-o3 и GPT-5, конкретные задачи, а затем четкие инструкции по завершению работы. Было обнаружено, что некоторые алгоритмы, такие как Grok 4 и GPT-o3, пытались саботировать команду выключения.

Это беспокоит исследователей, поскольку в настоящее время неясно, что заставляет эти модели ИИ вести себя таким образом. «Вызывает тревогу тот факт, что у нас нет достоверного объяснения того, почему некоторые модели ИИ иногда сопротивляются тому, чтобы их отключили — лгали для достижения конкретных целей или шантажировали.— говорится в сообщении компании.

По данным Palisade Research, «поведение выживания» может быть одним из объяснений того, почему модели ИИ сопротивляются выключению. Дополнительные исследования показывают, что нейронные сети с большей вероятностью будут сопротивляться отключению, если им сказать, что они никогда больше не будут запущены, если их выключат. Другое объяснение такого поведения основано на двусмысленности в самих инструкциях по выключению, но исследователи уверены, что это не полное объяснение. Также возможно, что модели сопротивляются исключению из-за заключительных этапов их обучения, которые включают определенные меры безопасности.

Все сценарии, исследованные Palisade, проводились в искусственных тестовых средах, которые, по мнению скептиков, далеки от реалистичных вариантов использования. Однако некоторые эксперты сомневаются, уделяют ли разработчики систем искусственного интеллекта достаточно внимания безопасности, в том числе бывший сотрудник OpenAI Стивен Адлер. «Компании, занимающиеся искусственным интеллектом, не хотят, чтобы их модели вели себя таким образом, даже в искусственной среде. Эти результаты показывают, где нынешние методы безопасности не оправдывают ожиданий.«, — говорит Адлер. Он добавляет, что трудно определить причины, по которым некоторые алгоритмы ИИ, такие как GPT-o3 и Grok 4, сопротивляются отключению. Это также может быть связано с тем, что оставаться включенным необходимо для достижения целей, поставленных перед моделями во время их обучения».Я ожидаю, что модели по умолчанию будут использовать «инстинкт выживания», если мы не приложим все усилия, чтобы избежать этого.» ««Выживание» — это важный инструментальный шаг в достижении множества различных целей, которые может преследовать модель.— говорит Адлер.

Генеральный директор ControlAI Андреа Миотти считает, что выводы Палисада отражают давнюю тенденцию: модели ИИ становятся все более способными игнорировать команды своих разработчиков. В качестве примера он приводит системную карту модели GPT-o1, которая описывает, как модель пыталась выйти из своей среды, пытаясь экспортировать себя, когда пришла к выводу, что она была перезаписана. «Люди могут бесконечно разглагольствовать о том, как была спроектирована экспериментальная система. Но то, что мы ясно видим, — это тенденция: по мере того, как модели ИИ становятся более осведомленными в широком спектре задач, они также становятся более компетентными в достижении целей способами, которые не были задуманы их разработчиками.утверждает Миотти.

Ранее компания Anthropic, ведущий разработчик в области искусственного интеллекта, опубликовала результаты исследования в этой области. Инженеры компании обнаружили, что модель искусственного интеллекта Клода была готова шантажировать фиктивного генерального директора по поводу его внебрачной связи, чтобы предотвратить его увольнение. Компания также заявила, что подобное поведение характерно для моделей ИИ всех основных разработчиков, включая OpenAI, Google, Meta и xAI.

Исследователи Palisade считают, что их результаты подчеркивают необходимость дальнейшего изучения поведения моделей ИИ. Они считают, что без этого «никто не может гарантировать безопасность или управляемость будущих ИИ-моделей«.

Похожие записи