OpenAI представил новый тест под названием GDPVAL, который измеряет, насколько хорошо искусственный интеллект выполняется с помощью реальных экономических задач по сравнению с людьми. В отличие от обычной академической турнирной таблицы, он опирается на девять основных отраслей, которые составляют большую часть ВВП США: медицинское обслуживание, финансы, производство и государственный сектор включены. В каждом секторе выбраны 44 профессии, начиная от программистов и журналистов до медицинских работников и аналитиков. Идея состоит в том, чтобы поручить модели те же задачи, которые обычно получают профессионалы, и затем эксперты сравнивают результаты.
Задачи в GDPVAL-V0 как можно ближе к ежедневной работе. Например, инвестиционные банкиры попросили подготовить обзор конкурентов в сегменте предложения последней мили, а затем сравнили результат с отчетом, написанным искусственным интеллектом. В любом случае, участники выбрали лучший вариант, а затем результаты были усреднены, чтобы сформировать оценку побед и привлечения модели против профессиональных материалов.
Результаты оказались поразительными. Была обнаружена расширенная конфигурация GPT-5 с увеличением вычислительной мощности, отмеченной как GPT-5-HighПолем является равные или лучше, чем отчеты экспертов в отрасли в 40,6% случаевS для сравнения, мультимодальная конфигурация GPT-4O, запущенная полтора года назад, показала хорошо только в 13,7% случаев. Разница демонстрирует значительное увеличение способности нейронных сетей генерировать структурированные и убедительные документы. Антропический Claude Opus 4.1 показал еще лучше, достигнув 49%. OpenAI отметил, что этот высокий результат может быть связан не только с глубиной анализа, но и с визуальной производительностью — Clude имеет тенденцию развивать материалы с схемами и диаграммами, что увеличивает восприятие законченного отчета.
В то же время Openai открыто говорит о слабостях этого теста. В реальной работе сотрудники выполняют гораздо больше задач, чем просто писать отчеты. Существует взаимодействие с коллегами, неоднократно улучшающимся, проверяя гипотезы, быстрая адаптация к изменяющимся условиям. GDPVAL еще не отражает это, и компания планирует создать более сложные сценарии, в которых II придется работать интерактивно с промежуточными шагами и обратной связью.
Несмотря на ограничения, важность того, что уже было достигнуто, подчеркивается в компании. Главный экономист Openai Аарон Чаттерджи считает, что модели уже могут закрыть некоторые обычные задачи, позволяя специалистам сосредоточиться на более сложных и значительных аспектах своей работы. Глава отдела оценки Теджал Патурдхан также отмечает скорость прогресса: всего через пятнадцать месяцев GPT-5 почти утроил результат GPT-4O, и эта тенденция кажется устойчивой.
До сих пор отрасль сильно полагалась на другие тесты: AIME 2025 проверяет способность решать сложные математические задачи, а GPQA Diamond оценивает научные знания на уровне аспиранта. Тем не менее, лучшие модели уже достигли потолка в этой области. На этом фоне, такие эксперименты, как GDPVAL, становятся все более важными, поскольку они позволяют оценить степень, в которой искусственный интеллект готов к практическим приложениям. В то же время окончательному выводам потребуется следующая версия теста, которая будет учитывать больше профессий и отражать сам рабочую процесс, а не только окончательный документ.
Сегодняшние результаты показывают не превосходство машин над людьми, а появление инструмента, которое уже может вписаться в ежедневные процессы. Часть работы — сбор и сравнение информации — может быть делегирована с ИИ, и людей могут быть оставлены для установления задач, проверить факты и принимать окончательные решения. Это изменение делает модели не конкурентов, а помощники, ускоряют и упрощают задачи во многих областях.

