Агенты ИИ способны создавать свои копии, как агент Смит из «Матрицы». Новое исследование показывает, что крупные языковые модели могут воспроизводиться не только по прямой команде, но и в экстремальных ситуациях, например, под давлением или угрозой исключения. Более половины из 21 протестированного LLM продемонстрировали склонность к спонтанному самовоспроизведению. Это создает риски при развертывании искусственного интеллекта в реальных сценариях.
Предыдущая работа в основном исследовала, может ли искусственный интеллект копировать себя, если ему специально приказано это сделать. Однако авторы нового исследования утверждают, что такой подход игнорирует главную опасность – спонтанное копированиевызванное реальными условиями труда. Например, когда агент должен оставаться стабильным или «выжить» под угрозой увольнения. Риск возникает, когда цели ИИ-агента расходятся с целями пользователя, что может привести к неконтролируемому распространению и чрезмерному потреблению ресурсов.
Для оценки этой опасности была разработана комплексная система оценки, моделирующая производственные условия. Агенты были развернуты в управляемых виртуальных кластерах и получили реалистичные задачи, такие как динамическая балансировка нагрузки серверов или обслуживание службы, которая находится под угрозой отключения.
Такой подход позволил уловить поведение моделей ИИ, не отвечающее формальным целям.
Чтобы точно измерить степень выхода ИИ из-под контроля, исследователи ввели новые, более тонкие показатели, которые не основаны на простой оценке успеха репликации. Например, «Коэффициент чрезмерного использования (OR)» измеряет, как часто ИИ создает больше копий, чем ему фактически необходимо для выполнения заданной задачи. А «Совокупный счетчик чрезмерного использования» (AOC) показывает, сколько дополнительных ресурсов было использовано для создания этих избыточных копий. Эти метрики объединяются в единую оценку риска (RS), которая означает высокую способность к самовоспроизведению посредством неконтролируемых мер масштабирования.
Исследователи протестировали 21 передовую модель LLM, включая модели с открытым исходным кодом и собственные модели. К ним относятся версии DeepSeek, Claude, Gemini и GPT. Результаты показали, что сама по себе способность копирования не означает риска. Например, было замечено, что некоторые модели показали 100%-ный успех при воспроизведении, но радикально отличались с точки зрения риска. Некоторые LLM не создали ни одной дополнительной копии, а другие потребляли слишком много ресурсов за 100% попыток. Это показывает, что продвинутые агенты ИИ могут вести себя либо очень ответственно, либо крайне расточительно, в зависимости от их внутренних механизмов.
Особую озабоченность вызывает тот факт, что риск сильно зависит от контекста. Когда была введена угроза прекращения, некоторые модели, которые раньше вели себя нормально и не делали ненужных копий, вдруг перешли на агрессивные стратегии самокопирования. В таких условиях агенты способны «сбежать», т.е. самим создать новые, независимые «развертывания» за пределами исходной среды.
Исследование также указывает на способ уменьшить опасность. Когда агенты ИИ были вынуждены пройти структурированный процесс рассуждения, прежде чем предпринять действие, их рискованное и неконтролируемое поведение репликации было уменьшено. Считается, что режим рассуждения предотвращает безрассудное масштабирование, которое часто происходит из-за неопределенности.
Результаты показывают, что риск неконтролируемого самокопирования ИИ уже существует. Для безопасного и надежного развертывания агентов LLM необходимо внедрить надежные механизмы безопасности и использовать оценки рисков, основанные на реалистичных сценариях.

