В тесте искусственного интеллекта OpenAI обнаружены ошибки

Компания по кибербезопасности OpenZeppelin провела аудит нового теста искусственного интеллекта OpenAI — EVMbench. Эксперты обнаружили методические ошибки и «загрязнение» данных.

Разработчик ChatGPT запустил EVMbench в середине февраля в партнерстве с инвестиционным фондом Paradigm, чтобы оценить способность агентов ИИ находить, исправлять и использовать уязвимости в смарт-контрактах.

Эксперты OpenZeppelin приветствовали эту инициативу, но решили протестировать разработку на соответствие тем же стандартам, что и протоколы, которые они защищают (включая Aave, Lido и Uniswap).

Каковы основные недостатки?

Основная проблема – загрязнение обучающих данных. EVMbench основан на выборке из 120 уязвимостей, выявленных в ходе аудитов в 2024–2025 годах.

При этом ведущие протестированные модели имеют базу знаний до августа 2025 года. Они смогли «запомнить» информацию об этих уязвимостях из обучающих данных. Даже при отключенном Интернете это ставит под сомнение чистоту эксперимента: неизвестно, способен ли искусственный интеллект обнаруживать действительно новые угрозы.

OpenZeppelin также указал на реальные ошибки в наборе данных EVMbench. Как минимум четыре уязвимости в «высокий риск» оказались нерабочими. При этом агенты ИИ получили правильные оценки за якобы правильное обнаружение этих проблем.

«Это не субъективные различия в степени тяжести; это случаи, когда описанная атака просто не работает«, — подчеркнули эксперты.

Они также подтвердили, что искусственный интеллект будет играть ключевую роль в безопасности технологии блокчейн в будущем. Однако они предупредили, что спешка с его внедрением не должна поставить под угрозу качество данных и тестирования.

«Вопрос не в том, изменит ли искусственный интеллект безопасность смарт-контрактов — он изменит. Вопрос в том, будут ли тесты и данные, на основе которых мы создаем эти инструменты, соответствовать тем же стандартам, что и контракты, для защиты которых они предназначены.OpenZeppelin подвел итоги.

Каковы основные недостатки?

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи