Исследователи в Sensetime Research и S-Lab в Технологическом университете Nannyang представили подробный технический отчет о прогрессе мультимодальных крупных моделей побега в области пространственного восприятия и логики. Они использовали восемь современных стандартов для оценки и потратили более одного миллиарда тестов на тестирование.
Чтобы уменьшить различные тесты до одного стандарта, авторы предложили универсальную структуру из 6 основных пространственных навыков:
- Метрическая оценка
- Реконструкция
- Пространственные отношения
- Смена перспективы
- Деформация
- Сборка и сложные рассуждения
Это унифицирует подход к тестированию и позволяет сравнивать модели ИИ на общей основе. Для каждой категории статья относится к источникам, включая концепцию пространственного интеллекта, концепцию психического ротации и подход цепочки рассуждений.
Документ стандартизирует системные подсказки, шаблоны отклика и индикаторы. По вопросам с выбором нескольких ответов, использовалась точность случайности (CAA) компенсировать эффект гадания. Средняя относительная точность была использована для численных задач (Мра) Для оценки точности, принимая во внимание допустимое отклонение.
На фоне своих конкурентов GPT-5 уверенно стал лидером.
В частности, в подзаголовках, связанных с оценкой расстояния и пониманием пространственного местоположения объектов, его результаты равны результатам людей. Модель ИИ уверенно превосходит Gemini-2,5-Pro и весь диапазон Internvl. Однако в более сложных категориях (например, умственная сборка объектов, изменение перспектив или моделирование действий) Разница с людьми все еще большая.
Особенно интересно, что в самых сложных случаях закрытые модели ИИ, такие как GPT-5, не имеют четкого преимущества перед открытыми конкурентами. Это делает аналогичные задачи, многообещающие для всего исследовательского сообщества.
Особое внимание в исследовании уделяется режимам мышления модели. Чем больше GPT-5 потребляет «мыслительные токены», тем точнее ответ, но только до определенного предела. Слишком тщательно думая, GPT-5 часто сталкивается с перерывами и сокращением ответов. Наиболее сбалансированные результаты достигаются со средним уровнем усилий.
В целом, исследование показывает важное изменение: модели ИИ уже уверены в основных задачах, которые требуют оценки размера и местоположения. Однако, когда появляется полное трехмерное воображение, способность переставлять ментальные изображения и выполнять логические операции в космосе, GPT-5 все еще далек от людей. Пространственный интеллект до сих пор остается одной из самых сложных и интересных границ для искусственного интеллекта.