Gemini 3 оказался сильнее в «Мафии» и шахматах, а ChatGPT o3 и 5.2

Платформа Game Arena, начавшаяся с шахмат, расширилась и включила в себя две новые, гораздо более коварные игры: социальный дедукция в Werewolf и расчет риска в покере.

Почему AI-игры? Как отмечает генеральный директор Google DeepMind Демис Хассабис, индустрия искусственного интеллекта «нужны гораздо более сложные и надежные тесты«. Классические тесты, основанные на фактах, или решение математических задач больше не отражают всю глубину возможностей современных моделей. Однако игры, особенно когда они настолько разнообразны, предлагают объективные показатели для оценки реальных навыков: от долгосрочного планирования и логики до общения и принятия решений в условиях неопределенности.

Первым шагом стал Chess Benchmark, выпущенный на Game Arena в прошлом году. Он ценит стратегическое мышление, адаптацию и планирование. Однако здесь интересно то, что в отличие от традиционных движков, таких как Stockfish, которые обрабатывают миллионы позиций в секунду, большие языковые модели подходят к игре по-другому — через распознавание образов и «интуицию», что гораздо ближе к человеческому стилю.

Gemini 3 Pro и Gemini 3 Flash на данный момент занимают верхние позиции в шахматном рейтинге. Их внутренние рассуждения демонстрируют использование стратегической логики, основанной на классических концепциях — мобильности фигуры и безопасности короля. Резкий скачок производительности по сравнению с поколением Gemini 2.5 ясно показывает, насколько быстро развиваются эти модели.

Но «Мафия» — это совершенно новый уровень. Это первая командная игра на арене, в которой полностью используется естественный язык. Модели должны ориентироваться в неявной информации, скрытой в диалоге: оборотни, которые маскируются и манипулируют, должны быть идентифицированы.

Этот тест проверяет «мягкие навыки» — общение, ведение переговоров и способность справляться с двусмысленностью. Это именно то, что нужно помощникам ИИ для эффективного сотрудничества с людьми. Но есть и второй, не менее важный аспект: безопасность. Игра позволяет в контролируемой среде проверить способность моделей как обнаруживать манипуляции (как честный гражданин), так и осуществлять их (как мафия). Это идеальный способ протестировать агентов без каких-либо реальных последствий.

Если «Мафия» — это социальная динамика, то покер (вариант безлимитного Техасского Холдема) — это холодный расчет вероятностей и психологии вашего противника. И полной информации здесь нет, но победа зависит от вашего умения оценить силу своей руки, предугадать карты противника и в нужный момент пойти на риск.

В честь выхода этого бенчмарка будет запущен Турнир по покеру с искусственным интеллектом. Лучшие модели будут соревноваться, а финальная таблица лидеров будет опубликована на сайте kaggle.com/game-arena сегодня, 4 февраля, примерно в 22:00. ChatGPT 5.2 и o3 будут лидерами финального раунда.

Похожие записи