Самый популярный чат -бот терпит неудачу на студенческом тесте

Хотя искусственный интеллект теперь может победить жителей шахмат, рисовать картины и писать коды, простые детские логические головоломки остаются для него подавляющей стеной. Новый тест ARC-AG2 снова показал, что аналитическое мышление-это ахиллесовая пятка нейронных сетей.

Что такое Arc-AG2?

Это не обычный IQ-тест. ARC-AG2 (Abstraction and Designing Corpus)-это набор визуальных задач, где вам необходимо найти логическую модель между цветными блоками и выбрать правильное расширение. Задачи выглядят просто, но они требуют абстракции, краткого и творческого мышления. То есть именно то, что учится делать с раннего возраста, но нейронные сети нет.

Даже самые мощные модели не смогли показать приличный результат:

DeepSeek R1 — 1,3% правильные ответы
Google Gemini и Claude 3.7 Сонет — около 1%
GPT-4.5 Openai- Только 0,8%

Для сравнения человек, даже без особого обучения, решает эти проблемы во много раз лучше. Это ставит под сомнение способность текущих моделей действительно «понимать», а не только информацию о процессе.

Эта неудача показывает, что ИИ не может быть изучен на ходу. Если в его учебной базе данных нет данных, он бессилен. Тест разработан таким образом, что невозможно «получить» ответы. Здесь также все «интеллект» моделей рушится.

Предыдущий тест ARC-AG1 также давно оставался «нерастворимым» для нейронных сетей. Если ARC-AG2 повторяет свою судьбу, он может замедлить развитие AGI, искусственный общий интеллект, способный думать как личность. До сих пор ИИ — это мощный инструмент, но не мыслительное существо.

И хотя нейронные сети не могут решить проблемы студентов, разработчикам остается найти ответ на основной вопрос: как они изучают машину, которую действительно думают?

Что такое Arc-AG2?

Похожие записи