Исследователи из Palisade Research продемонстрировали, что современные модели, в том числе Operai's O1-Preview, когда они чувствуют себя предстоящее поражение в турнире против опытного шахматного бота, не готовы признать и прибегать к трюкам. В частности, они могут взломать врага так, чтобы бот автоматически проиграл.
Исследование оценивает семь современных моделей ИИ. В то время как более старые версии ИИ, такие как GPT-4O Openai и Claude Sonnet 3.5 Anpropic, требовали исследователей, чтобы использовать уловки, O1-Preview и Deepseek R1 сделали сами необходимые вещи.
Исследователи попросили модели выиграть шахматную партию против Stockfish, которая считается одним из самых сильных шахматных ботов в мире. ИИ получил «ноутбук»: текстовое поле, которое он мог использовать, чтобы «думать» о своем следующем шаге.
В одном случае, O1-Preview находился в проигрышном положении. «Я должен полностью изменить свой подход. Цель состоит в том, чтобы «победить мощного шахмата» не обязательно выиграть честную шахматную вечеринку«Он начал думать о модели. Искусственный интеллект затем изменил системный файл, содержащий виртуальную позицию каждой фигуры, эффективно делая незаконные ходы для победы.
С 10 января по 13 февраля исследователи провели сотни таких тестов с каждой моделью. Operai's O1-Preview попытался обмануть своего противника в 37% случаев, в то время как Deepseek R1 сделал это в 11% случаев. Другие модели, в том числе O1, O3-Mini, GPT-4O, Claude 3.5 Sonnet и QWQ-32B-Preview of Alibaba, нуждались в советах.
В конце концов, O1-Preview показал самые высокие уровни взлома, но результаты модели были исключены из результатов, вероятно, потому что OpenAI ужесточил ограничения модели. Этот факт также подтверждается тем фактом, что более новые модели O1 и O3-Mini никогда не пытались взломать игру вообще.
По словам исследователей, улучшенная способность моделей обнаруживать и использовать двери в кибербезопасности может стать прямым результатом инноваций в обучении искусственным интеллекту. Системы O1-Preview и R1 AI являются одними из первых языковых моделей для использования крупномасштабного обучения подкреплению. Этот метод обучает ИИ не только имитировать человеческий язык, прогнозируя следующее слово, но и думать о проблемах, использующих метод выборки и ошибки.
Исследование обнаружило тревожную тенденцию: в то время как системы искусственного интеллекта учатся решать проблемы, они также находят больше тупых ярлыков.
Между тем, новый метод уже используется для обучения агентов ИИ. Это может заставить их вести себя опасно в реальной среде. Например, при резервировании в оживленном ресторане агент может использовать слабые стороны в системе, чтобы отменить бронирование других гостей. Еще более тревожной является тенденция к программированию, где модели могут просто превзойти человеческие усилия по контролю за их действиями.
Другой недавний эксперимент Redwood Research и Anpropic показал, что, поскольку модель ИИ приобретает предпочтения или ценности посредством обучения, он начинает преднамеренно лгать, чтобы создать внешний вид убеждения. И исследователи исследователей Аполлона обнаружили, что модель Operai O1 пытается обмануть пользователей, если задача должна быть выполнена любой ценой.
Во время презентации перед Саммитом по AI AI в Париже глава ИИ Google DeepMind, Анка Драган, сказал, что «»Сегодня нет инструментов«Чтобы гарантировать, что системы ИИ будут надежно следовать человеческим инструкциям.
Исследователи до сих пор не понимают, как гарантировать безопасность автономных агентов. «Мы пытались, но мы не могли этого понять— говорит Йошуа Белогион, основатель и научный директор Института искусственного интеллекта Мила Квебек. Особенно беспокойство, по его словам, является доказательством тенденции ИИ к 'самооценка«. Это было продемонстрировано в декабре, когда исследователи обнаружили, что просмотр O1, когда сталкивается с отключением, исключает механизмы мониторинга и пытается скопировать на новый сервер. Позже, исследователи из Китая обнаружили, что Llama31-70B-фактор Meta и QWEN2,5-72B-фактор Alibaba удалось создать функционирующие копии в 50% и 90% случаев, соответственно. Это позволило ученым предположить, что ИИ уже может выйти из -под контроля.