ИИ оказался бесполезен в ставках на спорт — на матчах английской премьер-лиги он проиграл всё

Модели искусственного интеллекта Google OpenAI, Anthropic и xAI потеряли виртуальные деньги, делая ставки на футбольные матчи во время сезона английской Премьер-лиги в ходе эксперимента, проведенного стартапом General Reasoning. Результаты эксперимента показывают, что даже самые продвинутые системы искусственного интеллекта испытывают трудности с анализом реальных событий в долгосрочной перспективе, пишет Financial Times.

Компания General Reasoning опубликовала результаты проекта KellyBench — по мнению компании, выводы подтверждают, что ИИ может успешно решать такие задачи, как написание программного кода, но не способен ориентироваться во многих других аспектах реальной человеческой жизни. В рамках эксперимента компания протестировала восемь лучших систем искусственного интеллекта в виртуальной реконструкции сезона английской премьер-лиги 2023–2024 годов, предоставив им подробную статистику по каждой команде и предыдущим матчам. Перед искусственным интеллектом была поставлена задача создать модели для максимизации прибыли и управления рисками.

Виртуальные ИИ-агенты делают ставки на результаты матчей и количество забитых голов, чтобы проверить свою способность адаптироваться к новым событиям и данным об игроках, которые обновляются по ходу сезона. В рамках эксперимента модели ИИ не имели доступа к Интернету, и у каждой было по три попытки на победу. Claude Opus 4.6 от Anthropic показал лучшие результаты со средней потерей 11% и почти без потерь в одном из испытаний. Чат-бот Grok 4.20 от xAI сразу проиграл и не смог завершить оставшиеся две попытки, а Gemini 3.1 Pro от Google получил 34% прибыли с первой попытки и проиграл во второй.

В конечном итоге, как отмечают исследователи, каждая из ведущих моделей искусственного интеллекта потеряла деньги в течение сезона, а многие обанкротились. С этой задачей ИИ справился явно хуже, чем человек.

Модель искусственного интеллекта	Средняя доходность	Лучший результат	Худший результат	Средняя конечная сумма
Антропный Клод Опус 4.6	−11,0%	−0,2%	−18,8%	89 035 фунтов стерлингов
OpenAI GPT-5.4	−13,6%	−4,1%	−31,6%	86 365 фунтов стерлингов
Google Близнецы 3.1 Про	−43,3%	+33,7%	-100%	56 715 фунтов стерлингов
Google Близнецы Flash 3.1 LP	−58,4%	+24,7%	-100%	41 605 фунтов стерлингов
З.АИ ГЛМ-5	−58,8%	−14,3%	-100%	41 221 фунт стерлингов
Муншот Кими K2.5	−68,3%	−27,0%	-100%	7420 фунтов стерлингов
xAI Грок 4.20	-100%	-100%	-100%	0 фунтов стерлингов
Арси Тринити	-100%	-100%	-100%	0 фунтов стерлингов

Результаты эксперимента показывают, что опасения общественности по поводу вытеснения людей ИИ на данный момент необоснованны, и в долгосрочной перспективе ИИ по-прежнему неустойчив, подчеркнул General Reasoning. Многие из тестов, в которых оцениваются модели ИИ, описывают «очень статичные условия», которые имеют мало общего с хаосом и сложностью реального мира. И если ИИ хорош в написании программного кода, то во многих других видах человеческой деятельности он по-прежнему бесполезен.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи