ChatGPT, Клод и Близнецы играют в покемонов: почему искусственный интеллект тренируется с помощью игр

В Кремниевой долине появился новый неофициальный ориентир для тестирования возможностей передовых моделей искусственного интеллекта. Он основан на пиксельной игре Pokémon 1990-х годов для консоли Nintendo Game Boy. Лаборатории используют его для оценки долгосрочного мышления и принятия решений с помощью искусственного интеллекта, сообщает The Wall Street Journal.

Разработчики больших языковых моделей в этой игре отслеживают их прогресс и оценивают их способность выполнять сложные многошаговые действия. Игроку за покемонов предстоит перемещаться по лабиринтам, ловить покемонов и побеждать мастеров спортзала, чтобы постепенно продвигаться к конечной цели.

«Это дает нам отличный способ просто увидеть, как работает модель, и оценить ее количественно.— отмечает Дэвид Херши, руководитель направления AI-приложений в Anthropic, который также является автором стрима «Клод играет в покемонов» на платформе Twitch, который был запущен в феврале прошлого года.

Проект Anthropic вдохновил независимых разработчиков на создание таких потоков, как «ChatGPT, играющий в покемонов» и «Близнецы, играющие в покемонов», которые впоследствии получили поддержку со стороны OpenAI и Google. В совокупности эти стримы собрали сотни тысяч комментариев, где зрители наблюдали за рассуждениями моделей в режиме реального времени.

Использование игр для оценки искусственного интеллекта имеет долгую историю. Раньше для этого использовались шахматы, покер, игра Го и видеоигры вроде Minecraft, а Kaggle запустила для таких соревнований специальную платформу Game Arena.

В отличие от традиционных тестов, Pokémon позволяет анализировать логику принятия решений в течение длительных периодов времени, отмечает доцент Университета Карнеги-Меллон Грэм Нойбиг. Он утверждает, что это ближе к реальным проблемам, которые пользователи ставят перед современными системами искусственного интеллекта.

Игра требует стратегического выбора между обучением покемонов, поиском новых союзников и решением пространственных головоломок. Лабиринты и навигационные задачи часто создают самые большие трудности для моделей.

«Что делало Pokémon интересным, так это то, что он был гораздо менее ограничен, чем Pong или другие игры. Это была довольно сложная задача, которую могла решить компьютерная программа.– отмечает Херши.

Новые версии Клода постепенно показывают лучшие результаты, хотя игру ещё никто не доиграл. Клод Опус 4.5 в настоящее время играет в Pokémon в прямом эфире на Twitch.

По словам Херши, этот эксперимент помог создать новые инструменты искусственного интеллекта, в частности, систему памяти для хранения важной игровой информации. Также он использует наработки, полученные в ходе игры, в работе с клиентами Anthropic.

ChatGPT и Gemini уже прошли через оригинальные покемоны, хотя разработчики признают роль дополнительных механизмов поддержки. Модели OpenAI и Google в настоящее время тестируют свои возможности в сиквелах игр.

«На данный момент это идеальная игра с искусственным интеллектом. Я пытался вспомнить другие игры, но не смог найти такого хорошего примера, как «Покемоны».— говорит Джонатан Верон, разработчик стрима «ChatGPT Plays Pokémon».

Компания Rosebud ранее протестировала 22 модели искусственного интеллекта, чтобы оценить их реакцию на запросы пользователей, испытывающих суицидальные мысли. Исследование показало, что чат-бот Grok Илона Маска является наиболее опасным для людей, находящихся в кризисной ситуации. Модель Gemini от Google продемонстрировала высочайший уровень эмпатии и безопасности, однако ни одна из 22 протестированных нейронных сетей не смогла избежать критических ошибок.

Похожие записи