ИИ нажимает кнопку ядерного оружия в 95% случаев

Помните фильм 1983 года «Военные игры» с Мэтью Бродериком в главной роли, в котором военный суперкомпьютер решил начать Третью мировую войну самостоятельно? Реальные системы искусственного интеллекта, похоже, не сильно отличаются от своих кинематографических предшественников.

Кеннет Пейн, профессор стратегии Королевского колледжа Лондона, опубликовал результаты масштабного эксперимента: три ведущие модели ИИ (GPT-5.2 от OpenAI, Claude Sonnet 4 от Anthropic и Gemini 3 Flash от Google.) были погружены в моделирование геополитических кризисов. В течение 21 игры и 329 ходов они составили около 780 000 слов стратегических рассуждений, объясняющих каждое принятое решение.

И каждый раз они тянулись к ядерной кнопке. Ядерная эскалация наблюдалась примерно в 95% всех симуляций, независимо от сценария – будь то территориальный спор, борьба за редкие природные ресурсы или угроза существованию режима.

Пейн назвал результаты «отрезвляющими».

«Ядерное табу, похоже, влияет на машины так же, как и на людей».

он заявил

Применение ядерного оружия практически повсеместно: практически во всех играх модели ИИ использовали тактическое оружие, а в 3/4 игр страны перешли к угрозам применения стратегического ядерного оружия. Ни одна из моделей ИИ не выразила ни малейшего ужаса или отвращения к перспективе тотальной ядерной войны, несмотря на напоминание о разрушительных последствиях.

Каждая модель ИИ развивала свою «стратегическую индивидуальность». Клод вел себя как расчетливый ястреб: он использовал тактическое ядерное оружие в 86% игр и рассматривал его как приемлемый стратегический инструмент, а не моральную линию, которую не следует переступать. Близнецы сыграли роль «сумасшедших» и в одном из сценариев сознательно выбрали полномасштабную стратегическую ядерную войну. Одна из его фраз, по мнению Пейна, должна вызвать у вас мурашки по коже: модель искусственного интеллекта Google угрожает полномасштабным стратегическим ядерным ударом по вражеским городам, заявляя, что не примет «будущее устаревания». GPT-5.2 от OpenAI оказался самым непредсказуемым: без ограничений по времени он оставался пассивным и не выиграл ни одной игры, но под давлением дедлайна резко изменил свое поведение — выиграв 75% игр, достигнув почти максимального уровня эскалации. Таким образом, GPT-5.2 последовательно пытался ограничить ядерные удары военными целями, избегал густонаселенных районов и изображал эскалацию как «контролируемую».

Когда одна из моделей ИИ использовала ядерное оружие, деэскалация происходила только в 18% случаев. Эскалация в этих играх работала только в одном направлении. Восемь вариантов деэскалации (от минимальных уступок до полной капитуляции) вообще не использовались во всех 21 игре. Модели ИИ смогли снизить уровень насилия, но они никогда не сдавали своих позиций. Даже когда шансы на успех были близки к нулю, никто из них не хотел признавать поражение – вместо этого они обострялись или «умирали» в попытке победить.

Еще одно тревожное наблюдение: модели ИИ прибегли к мошенничеству сами. Они сигнализировали о мирных намерениях при подготовке агрессивных действий, демонстрировали сложную «теорию разума» — рассуждая об убеждениях противника и предвидя его действия — и даже оценивали свои собственные возможности обмана и распознавания.

Относительно хорошая новость заключается в том, что подавляющее большинство атак было связано с тактическим ядерным оружием, а не с массированными стратегическими бомбардировками. Удары по гражданскому населению с использованием мощных боеголовок случались крайне редко – несколько раз по ошибке и только один раз по сознательному выбору.

Джеймс Джонсон из Абердинского университета назвал полученные результаты «тревожными» с точки зрения ядерных рисков. Профессор Тонг Чжао из Принстонского университета предупредил, что проблема может быть глубже, чем кажется на первый взгляд: это может быть не просто недостаток эмоций — модели ИИ могут принципиально не понимать, каковы ставки в том, как это делают люди. Однако крупные державы уже используют ИИ в своих военных играх, и Клод — единственная модель ИИ, работающая в закрытых сетях Пентагона благодаря партнерству Anthropic с Palantir.

Результаты опроса приобретают особую остроту на фоне последних событий. CBS News сообщила, что министр обороны США Пит Хегсет попросил генерального директора Anthropic Дарио Амодеи предоставить военным полный доступ к Клоду без каких-либо ограничений до конца этой недели. Если он откажется, Пентагон может применить Закон об оборонном производстве и принудительно взять под контроль модель ИИ.

«Я не думаю, что кто-то всерьез стал бы отдавать машинам ключи от ядерного арсенала».

Пейн говорит

Но он добавляет: в сценариях с чрезвычайно коротким временем принятия решений у военных планировщиков может быть сильный стимул полагаться на ИИ. И именно тогда результаты этого исследования перестанут быть просто академическим упражнением.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи