Весь современный ИИ потерпел неудачу на новом сложном тесте общего интеллекта

Arc Prize Foundation, некоммерческая организация, основанная известным исследователем искусственного интеллекта Франсуас Шол, объявила в своем блоге о создании нового, более сложного теста для измерения общего интеллекта ведущих I-моделей.

Новый тест, называемый Arc-Agi-2, затрудняет большинство современных крупных языковых моделей. Согласно рейтингу, I-модели, способные думать как OpenAI и R1 DeepSeek как O1-Pro, достигли от 1 до 1,3%. Модели, которые не могут обратиться, в том числе GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, достигли менее 1%.

Arc-Agi-2-это серия головоломок, в которых искусственный интеллект должен распознавать визуальные модели, анализируя разноцветные квадраты и основываясь на правильном расширении модели. Тест специально разработан таким образом, чтобы модели не могли полагаться на предыдущий опыт и адаптироваться к новым задачам.

Фонд призов ARC также провел тесты с более чем 400 человек. В среднем, тестовые группы правильно ответили на 60% задач. Это намного превышает результаты всех протестированных ИИ, при этом подчеркивая разницу между текущими возможностями ИИ и человеческим интеллектом в решении задач, которые требуют адаптации и понимания новых концепций.

Шол сказал, что Arc-Agi-2 является более точным показателем реального интеллекта II-моделей, чем предыдущая версия теста Arc-Agi-1. Кроме того, Arc-Agi-2 устраняет способность решать проблемы «грубой силы», т.е. Используя огромную вычислительную мощность для поиска всех возможных вариантов, которые были обнаружены в тесте Arc-AGI-1 и были признаны серьезным недостатком.

Чтобы устранить первые ошибки испытаний, Arc-Agi-2 вводит индикатор эффективности, который заставляет искусственный интеллект интерпретировать модели на GO, а не полагаться на запоминание. Соответствующий фонд ARC Prize Грег Карадт отметил, что «интеллект определяется не только способностью решать проблемы или достигать высокой производительности, но и эффективностью, с которой эти способности приобретаются и используются».

Arc-Agi-1 оставался ведущей метрикой в течение 5 лет, пока Openai не выпустил свой сложный и модель O3 в декабре 2024 года. Он превзошел все остальные модшии и даже сравнился с человеческими результатами в тестах ARC-AGI-1. Однако, как уже отмечалось, эти достижения были связаны со значительными затратами на вычисление.

Разработка нового теста совпала с растущей проблемой в отрасли об отсутствии объективных критериев оценки искусственного интеллекта. В результате фонд ARC Prize объявил о начале конкурса ARC Prize 2025, в котором разработчики обязаны достичь 85% точности ARC-AGI-2 с вычислительными затратами не более 0,42 долл. США за задачу.

Похожие записи