Модели искусственного интеллекта Google OpenAI, Anthropic и xAI потеряли виртуальные деньги, делая ставки на футбольные матчи во время сезона английской Премьер-лиги в ходе эксперимента, проведенного стартапом General Reasoning. Результаты эксперимента показывают, что даже самые продвинутые системы искусственного интеллекта испытывают трудности с анализом реальных событий в долгосрочной перспективе, пишет Financial Times.
Компания General Reasoning опубликовала результаты проекта KellyBench — по мнению компании, выводы подтверждают, что ИИ может успешно решать такие задачи, как написание программного кода, но не способен ориентироваться во многих других аспектах реальной человеческой жизни. В рамках эксперимента компания протестировала восемь лучших систем искусственного интеллекта в виртуальной реконструкции сезона английской премьер-лиги 2023–2024 годов, предоставив им подробную статистику по каждой команде и предыдущим матчам. Перед искусственным интеллектом была поставлена задача создать модели для максимизации прибыли и управления рисками.
Виртуальные ИИ-агенты делают ставки на результаты матчей и количество забитых голов, чтобы проверить свою способность адаптироваться к новым событиям и данным об игроках, которые обновляются по ходу сезона. В рамках эксперимента модели ИИ не имели доступа к Интернету, и у каждой было по три попытки на победу. Claude Opus 4.6 от Anthropic показал лучшие результаты со средней потерей 11% и почти без потерь в одном из испытаний. Чат-бот Grok 4.20 от xAI сразу проиграл и не смог завершить оставшиеся две попытки, а Gemini 3.1 Pro от Google получил 34% прибыли с первой попытки и проиграл во второй.
В конечном итоге, как отмечают исследователи, каждая из ведущих моделей искусственного интеллекта потеряла деньги в течение сезона, а многие обанкротились. С этой задачей ИИ справился явно хуже, чем человек.
| Модель искусственного интеллекта | Средняя доходность | Лучший результат | Худший результат | Средняя конечная сумма |
|---|---|---|---|---|
| Антропный Клод Опус 4.6 | −11,0% | −0,2% | −18,8% | 89 035 фунтов стерлингов |
| OpenAI GPT-5.4 | −13,6% | −4,1% | −31,6% | 86 365 фунтов стерлингов |
| Google Близнецы 3.1 Про | −43,3% | +33,7% | -100% | 56 715 фунтов стерлингов |
| Google Близнецы Flash 3.1 LP | −58,4% | +24,7% | -100% | 41 605 фунтов стерлингов |
| З.АИ ГЛМ-5 | −58,8% | −14,3% | -100% | 41 221 фунт стерлингов |
| Муншот Кими K2.5 | −68,3% | −27,0% | -100% | 7420 фунтов стерлингов |
| xAI Грок 4.20 | -100% | -100% | -100% | 0 фунтов стерлингов |
| Арси Тринити | -100% | -100% | -100% | 0 фунтов стерлингов |
Результаты эксперимента показывают, что опасения общественности по поводу вытеснения людей ИИ на данный момент необоснованны, и в долгосрочной перспективе ИИ по-прежнему неустойчив, подчеркнул General Reasoning. Многие из тестов, в которых оцениваются модели ИИ, описывают «очень статичные условия», которые имеют мало общего с хаосом и сложностью реального мира. И если ИИ хорош в написании программного кода, то во многих других видах человеческой деятельности он по-прежнему бесполезен.
Все важное из мира технологий прямо на ваш почтовый ящик.
Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

