100 видеоигр против всех искусственных интеллектов в мире - результат

Arc-Agi-3: новый тест на здравый смысл, что нейронные сети терпят неудачу.

The Arc Prize Foundation ввел новый критерий для проверки универсальных навыков искусственного интеллекта — Arc-Agi-3S Если предыдущие версии теста предлагали абстрактные головоломки с цветными решетками, то модели искусственного интеллекта теперь будут протестированы в интерактивных двухмерных видеоиграх. Этот формат позволяет не только определять закономерности, но и способность планировать действия, изучать окружающую среду и адаптироваться к новым условиям.

Суть подхода заключается в том, что интеллект определяется как способность быстро определить правило минимального количества примеров и его передачу на совершенно новую задачу. Для людей это хорошо известный способ обучения — вот как мы изучали навыки с детства. Современные нейронные сети все еще далеко в этом отношении, несмотря на впечатляющий прогресс в некоторых областях.

Первая версия набора задач ARC была создана исследователем Франсуасом Шолом в 2019 году. Он лежит в основе премии ARC Prize и стала промышленным стандартом. Первая версия содержала около тысячи задач и оставалась непреодолимой для глубоких тренировочных моделей в течение пяти лет. Лишь в 2024 году новые системы рассуждений смогли показать заметный прогресс. Затем появилась вторая более сложная версия: задачи стали более обширными и многокомпонентными, что требует большего количества шагов для решения.

В то время как многие люди могут решить основные примеры в течение нескольких секунд, вторая версия занимает минуту или иногда больше. В большом тесте с участием 400 человек средний балл составил 66%, а коллективные ответы на группы из 5-10 участников полностью покрыли весь набор вопросов.

Arc-Agi-3 уходит от формы одного вопроса и ответа. Теперь это сотня оригинальных видеоигр, в которых каждый уровень строит определенную мини-лить и сразу проверяет, как игрок вписывает его на практику. Этот тест ближе к реальной жизни, где решения зависят от последовательности шагов, контекста и изменений во времени. Внутренние тесты показали: ни одна проверенная система еще не прошла даже один уровень, хотя достоверность уже подтверждена людям.

Принцип дуги отличается от других стандартов тем, что все задачи должны быть выполнены для среднего человека. В отличие от тестов, которые предлагают докторские задачи, способность обобщать проверен здесь. Именно здесь люди неизменно обогнали машины, в то время как успехи искусственного интеллекта остаются местными.

Новый формат также устраняет слабости старых игровых тестов, таких как Атари. Нет огромных количеств наставничества данных, доступных в Arc-Agi-3, нет подхода к грубой силе с миллиардами моделирования, и разработчики агентов ИИ не имеют предварительного знания структуры уровней. Оценка основана на равномерных и прозрачных критериях.

Похожие записи