Хотя искусственный интеллект теперь может победить жителей шахмат, рисовать картины и писать коды, простые детские логические головоломки остаются для него подавляющей стеной. Новый тест ARC-AG2 снова показал, что аналитическое мышление-это ахиллесовая пятка нейронных сетей.
Что такое Arc-AG2?
Это не обычный IQ-тест. ARC-AG2 (Abstraction and Designing Corpus)-это набор визуальных задач, где вам необходимо найти логическую модель между цветными блоками и выбрать правильное расширение. Задачи выглядят просто, но они требуют абстракции, краткого и творческого мышления. То есть именно то, что учится делать с раннего возраста, но нейронные сети нет.
Даже самые мощные модели не смогли показать приличный результат:
- DeepSeek R1 — 1,3% правильные ответы
- Google Gemini и Claude 3.7 Сонет — около 1%
- GPT-4.5 Openai- Только 0,8%
Для сравнения человек, даже без особого обучения, решает эти проблемы во много раз лучше. Это ставит под сомнение способность текущих моделей действительно «понимать», а не только информацию о процессе.
Эта неудача показывает, что ИИ не может быть изучен на ходу. Если в его учебной базе данных нет данных, он бессилен. Тест разработан таким образом, что невозможно «получить» ответы. Здесь также все «интеллект» моделей рушится.
Предыдущий тест ARC-AG1 также давно оставался «нерастворимым» для нейронных сетей. Если ARC-AG2 повторяет свою судьбу, он может замедлить развитие AGI, искусственный общий интеллект, способный думать как личность. До сих пор ИИ — это мощный инструмент, но не мыслительное существо.
И хотя нейронные сети не могут решить проблемы студентов, разработчикам остается найти ответ на основной вопрос: как они изучают машину, которую действительно думают?