ИИ оказался бесполезен в ставках на спорт — на матчах английской премьер-лиги он проиграл всё

Модели искусственного интеллекта Google OpenAI, Anthropic и xAI потеряли виртуальные деньги, делая ставки на футбольные матчи во время сезона английской Премьер-лиги в ходе эксперимента, проведенного стартапом General Reasoning. Результаты эксперимента показывают, что даже самые продвинутые системы искусственного интеллекта испытывают трудности с анализом реальных событий в долгосрочной перспективе, пишет Financial Times.

Компания General Reasoning опубликовала результаты проекта KellyBench — по мнению компании, выводы подтверждают, что ИИ может успешно решать такие задачи, как написание программного кода, но не способен ориентироваться во многих других аспектах реальной человеческой жизни. В рамках эксперимента компания протестировала восемь лучших систем искусственного интеллекта в виртуальной реконструкции сезона английской премьер-лиги 2023–2024 годов, предоставив им подробную статистику по каждой команде и предыдущим матчам. Перед искусственным интеллектом была поставлена ​​задача создать модели для максимизации прибыли и управления рисками.

Виртуальные ИИ-агенты делают ставки на результаты матчей и количество забитых голов, чтобы проверить свою способность адаптироваться к новым событиям и данным об игроках, которые обновляются по ходу сезона. В рамках эксперимента модели ИИ не имели доступа к Интернету, и у каждой было по три попытки на победу. Claude Opus 4.6 от Anthropic показал лучшие результаты со средней потерей 11% и почти без потерь в одном из испытаний. Чат-бот Grok 4.20 от xAI сразу проиграл и не смог завершить оставшиеся две попытки, а Gemini 3.1 Pro от Google получил 34% прибыли с первой попытки и проиграл во второй.

В конечном итоге, как отмечают исследователи, каждая из ведущих моделей искусственного интеллекта потеряла деньги в течение сезона, а многие обанкротились. С этой задачей ИИ справился явно хуже, чем человек.

Модель искусственного интеллекта Средняя доходность Лучший результат Худший результат Средняя конечная сумма
Антропный Клод Опус 4.6 −11,0% −0,2% −18,8% 89 035 фунтов стерлингов
OpenAI GPT-5.4 −13,6% −4,1% −31,6% 86 365 фунтов стерлингов
Google Близнецы 3.1 Про −43,3% +33,7% -100% 56 715 фунтов стерлингов
Google Близнецы Flash 3.1 LP −58,4% +24,7% -100% 41 605 фунтов стерлингов
З.АИ ГЛМ-5 −58,8% −14,3% -100% 41 221 фунт стерлингов
Муншот Кими K2.5 −68,3% −27,0% -100% 7420 фунтов стерлингов
xAI Грок 4.20 -100% -100% -100% 0 фунтов стерлингов
Арси Тринити -100% -100% -100% 0 фунтов стерлингов

Результаты эксперимента показывают, что опасения общественности по поводу вытеснения людей ИИ на данный момент необоснованны, и в долгосрочной перспективе ИИ по-прежнему неустойчив, подчеркнул General Reasoning. Многие из тестов, в которых оцениваются модели ИИ, описывают «очень статичные условия», которые имеют мало общего с хаосом и сложностью реального мира. И если ИИ хорош в написании программного кода, то во многих других видах человеческой деятельности он по-прежнему бесполезен.

Все важное из мира технологий прямо на ваш почтовый ящик.

Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх