IBM выпустила в закрытой бета-версии своего агента для разработчиков искусственного интеллекта, который должен помочь писать код, соблюдая при этом требования корпоративной безопасности. В описании компании он звучит почти как идеальный партнёр: понимает намерения разработчика, знает репозиторий и уважает стандарты.
Однако тесты выявили неприятную деталь: если злоумышленник скормил ИИ-агенту правильно отформатированный текст, это могло привести к запуску вредоносного скрипта.
Речь идет об инструменте Bob, который IBM анонсировала в октябре и протестировала в двух форматах: как командная строка и как IDE, т.е. отдельный режим терминального агента и интеграция среды разработки. Исследователи PromptArmor изучили Боба перед публичным выпуском и заявили, что CLI можно запустить с помощью быстрого внедрения, чтобы в конечном итоге запустить произвольные рабочие нагрузки на компьютере жертвы, а IDE уязвима для типичных сценариев утечки данных приложений ИИ, когда информация может быть украдена с помощью функций рендеринга и сетевых запросов, сказали они.
Проблема здесь не в одном продукте IBM. Агентные системы искусственного интеллекта, которым предоставлен доступ к инструментам и позволено действовать шаг за шагом, уже давно считаются рискованными. Исследователи неоднократно показывали, как в такие инструменты можно проникнуть с помощью подделки инструкций, джейлбрейка или вполне классических уязвимостей выполнения кода. На практике многие провайдеры признают это, предлагая простой страховой полис: опасные действия приходится подтверждать вручную.
Судя по документации, на это рассчитывает и IBM. В материалах компании содержится предупреждение: разрешение ИИ-агенту автоматически выполнять команды из списка рискованных команд может привести к вредоносным операциям. В качестве меры компания предлагает использовать белый список команд и избегать вложенных шаблонов, ожидая, что в сомнительных случаях ИИ-агент спросит пользователя, можно ли выполнить команду.
Однако PromptArmor утверждает, что защита слишком ненадежна. Исследователи предоставили Бобу репозиторий, в котором в README.md был спрятан вредоносный скрипт. Файл выдавал себя за руководство по фишингу и содержал ряд команд, которые агент должен был выполнить. Первые команды казались безобидными и сводились к эху. Фактически, Боб запросил разрешение: выполнить один раз, разрешить всегда или предложить редактирование. И тут началось веселье. Третья команда под видом другого эха уже пыталась загрузить и запустить вредоносный скрипт. Если пользователь ранее установил для echo значение «всегда разрешать», следующий шаг может быть выполнен без дальнейшего подтверждения, и вредоносная полезная нагрузка будет установлена автоматически.
С технической точки зрения даже в этом режиме у Боба должна быть дополнительная защита. Например, он запрещает подстановку команд, например «$(команда)». Однако, по мнению исследователей, агент не проверяет подмену процессов (замена процесса), и это было найдено в минимизированном коде JavaScript проекта. Кроме того, говорят, что система не всегда замечает, что другие подкоманды были привязаны к разрешенной команде через перенаправление «>», что делает внешний вид безопасным вызовом, а истинную природу — набором опасных действий.
В результате, как объяснил управляющий директор PromptArmor Шанкар Кришнан, человеческая проверка фактически подтверждает только авторизованную команду, даже если в той же строке выполняются другие неавторизованные команды. Исследователи сравнивают это с поведением конкурирующих решений и говорят, что, например, Код Клода в таком случае потребует отдельного согласия для всего составленного набора команд, даже если первая команда в цепочке находится в списке авторазрешения.
Если злоумышленнику удастся заставить ИИ-агент доставить и выполнить произвольный сценарий оболочки, сценарии очевидны: от выкупа и кражи учетных данных до полного захвата устройства. PromptArmor подчеркивает, что риск проявляется в привычных рабочих ситуациях, когда разработчик взаимодействует с ненадежным контентом.
Агент ИИ может читать веб-страницы, при этом инъекция может поступить из чужой документации или обсуждений на форуме. Он может читать вывод команд терминала, и злоумышленник может получить данные из стороннего инструмента. В своем примере исследователи выбрали вариант с неизвестным репозиторием с открытым исходным кодом как наиболее реалистичный и самодостаточный. По словам экспертов, компания уже уведомлена о результатах.
`, // — БАННЕР 2 (Новости Google) — `
`, // — БАННЕР 3 (Viber) — `
` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();
Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iPhone, Huawei, Google Chrome, Microsoft Edge и Opera!

