Интеллектуальный провал: искусственный интеллект не прошел «последнее испытание человечества»

Искусственный интеллект сталкивается с «потолком» академических знаний. Тест «Последний экзамен человечества» (HLE) показал, что даже лидеры рынка набрали менее 40% при выполнении задач экспертного уровня. Тест охватывает 2500 вопросов в более чем 100 академических областях: от древних надписей Пальмиры до анализа структуры скелета колибри. На данный момент наилучших результатов добились Gemini 3 Pro Preview с точностью 37,52%, GPT-5 с точностью 31,64% и Claude Opus 4.5 с точностью 25,2%. Лучшая китайская модель в этом тесте — glm-4p5 от Zhipu AI — набрала всего 8,32%. У остальных, включая Alibaba Qwen3 и DeepSeek, дела обстоят еще хуже.

Популярные тесты, такие как MMLU, уже давно являются безошибочными для современных моделей: многие системы показывают точность более 90%. В то же время возможности ИИ на уровне сложных академических знаний измерить нелегко. HLE задуман как решение этой проблемы: набор вопросов проверяет не бытовую эрудицию, а глубину рассуждений и аналитические способности. Статья о проекте была опубликована в журнале Nature в январе 2026 года. Сам тест был представлен в начале 2025 года американской некоммерческой организацией Centre for AI Safety и компанией Scale AI. Но теперь есть новое развитие.

HLE был разработан при участии 1000 международных экспертов из более чем 500 учреждений в 50 странах. Чтобы побудить участников задавать действительно сложные вопросы, Организаторы выделили призовой фонд в размере 500 000 долларов: 5 000 долларов достались авторам 50 лучших вопросов, а 500 долларов — следующим 500. Многие заявки прошли строгий процесс отбора, но окончательный публичный набор включал 2500 вопросов. Кроме того, поддерживается закрытый «пул» вопросов, который используется для проверки переобучения моделей по уже опубликованным вопросам.

В экзамен входят 14% мультимодальных заданий (текст+изображение), 24% вопросов с несколькими вариантами ответов, а остальное — короткие ответы с автоматической проверкой. Математика составляет 41% заданий, а остальные вопросы из области физики, биологии, информатики и гуманитарных наук. Каждый вопрос сопровождается подробным обоснованием решения, чтобы обеспечить проверяемость и высокую сложность.

При запуске HLE в январе 2025 года ведущие модели показали крайне низкую точность: GPT-4o — 2,7%, Claude 3.5 Sonnet — 4,1% и o1 — 8%. Сейчас эти цифры увеличились, но ни одна модель не достигла даже половины уровня экспертов-людей, которые достигают около 90%. Gemini 3 Pro Preview лидирует с точностью 37,52%, за ним следуют GPT-5 с 31,64% и Claude Opus 4.5 с 25,2%.

Что касается китайских систем, то в мультимодальной таблице они показывают слабые результаты: glm-4p5 и glm-4p5-air от Zhipu AI с 8,32% и 8,12% соответственно, что на десятки процентных пунктов ниже лидеров. Текстовая версия (без изображений) работает лучше: Alibaba Qwen3 набрала 15,43%, а DeepSeek — 14,04%, но они все равно отстают от американских моделей.

Создатели HLE подчеркивают, что важно учитывать не только процент правильных ответов, но и то, насколько хорошо модель может оценить собственную уверенность. В статье в журнале Nature отмечается, что многие системы дают неправильные ответы, оставаясь при этом уверенными в себе. Поэтому была введена метрика «ошибка калибровки» (Ошибка калибровки среднеквадратичного значения)который показывает, насколько заявленная достоверность модели соответствует ее фактической точности. Чем меньше значение, тем лучше. В таблице масштабов этот показатель указан с точностью до точности: у Gemini 3 Pro Preview — 57, у последней версии GPT-5 — 49, тогда как у большинства моделей — более 70%. Это означает, что даже мощные системы могут звучать уверенно, но ошибаться.

Исследователи предупреждают, что более высокие баллы не следует приравнивать к прогрессу в создании общего искусственного интеллекта. Модели оптимизируют свои ответы, чтобы они соответствовали структуре теста, и не развивают суждения, как люди.

В отличие от людей, которые учатся, взаимодействуя с окружающим миром и приобретая опыт, ИИ лишь выявляет закономерности в текстах. Для него язык — не инструмент мышления, а само мышление. Таким образом, высокий балл указывает на владение экзаменационными заданиями, но не на понимание или самостоятельные интеллектуальные способности. Учитывая эти ограничения, OpenAI, например, разработала метрику под названием GDPval, которая оценивает практическую полезность ИИ.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх