Модели ИИ сдают «экзамен», чтобы решить головоломки: исследование раскрывает удивительные результаты

Каждое воскресенье ведущий NPR Will Shortz, гуру кроссворда New York Times, задает вопросы тысячам слушателей в давнем сегменте под названием «Воскресная головоломка«. Хотя головоломки предназначены для решения, не полагаясь на знания, они обычно являются проблемой даже для опытных участников.

Поэтому некоторые эксперты считают, что это многообещающий способ проверить возможности ИИ для решения проблем.

В недавнем исследовании команда исследователей из Уэллинского колледжа, Оберлин-колледж, Техасский университет в Остине, Северо-восточный университет, Университет Карла и стартапа курсора создала тест AI, используя головоломки воскресной головоломки. Команда говорит, что их тест раскрывает неожиданные открытия, такие как модели рассуждений — включая O1 Openai — иногда »мусор«И они дают ответы, которые знают, что они не правы.

«Мы хотели разработать эталон с задачами, которые люди могут понять, даже с только базовыми знаниями«Сказал TechCrunch Arjun Guha, профессору компьютерных наук в Северо -восточном университете и один из соавторов исследования.

В настоящее время индустрия ИИ находится в трудной ситуации, когда дело доходит до тестирования. Большинство тестов, которые обычно используются для оценки моделей искусственного интеллекта, пробуют такие навыки, как докторская степень по математике и естественным наукам, которые не подходят для среднего потребителя. В то же время многие тесты — даже те, которые опубликованы относительно недавно — быстро приближаются к точке насыщения.

Преимущества общественного радио -шоу с такой викториной, как «воскресная головоломка», заключаются в том, что она не требует в отношении знаний, а вопросы разработаны таким образом, что модели не могут использовать »»Память наизусть«Чтобы решить их, объясняет Гуха.

«Я думаю, что сложность этих проблем состоит в том, что очень трудно добиться значимого прогресса по проблеме, пока не решите ее, а затем все появится на местеГоворит гуа. «Это требует комбинации понимания и процесса устранения.

Конечно, ни один тест не идеален. Воскресная головоломка сосредоточена на Соединенных Штатах и доступна только на английском языке. А поскольку тесты публично доступны, модели, обученные им, могут, в некотором смысле, «чит», хотя Гуха говорит, что он не видел доказательств этого.

«Есть новые вопросы каждую неделю, и мы можем ожидать, что последние вопросы будут действительно уникальными«Он добавляет. «Мы намерены обновить тест и наблюдать, как изменяется производительность модели со временем.

В тесте, разработанном исследователями, который включает в себя около 600 головоломок из воскресной головоломки, модели логического мышления, такие как O1 и R1 DeepSeek, значительно превышают остальные. Модели логического мышления тщательно проверяют факты, прежде чем давать результаты, что помогает им избежать некоторых ошибок, которые обычно вызывают неудачу среди моделей ИИ. Недостатком является то, что для логических моделей логического мышления требуется немного больше времени, чтобы найти решения — обычно от нескольких секунд до нескольких минут.

По крайней мере, модель DeepSeek R1 для некоторых воскресных вопросов головоломки предлагает решения, которые, как он знает, неверны. R1 буквально говорит: «Мусор«А затем дает неверный ответ, который кажется случайным — поведение, которое человек, безусловно, может идентифицировать.

Модели также делают другие странные варианты, давая неправильный ответ, а затем сразу же отказались от него, пытаясь найти лучший ответ и снова потерпеть неудачу. Они тожедумать«Бесконечно и дайте бессмысленные объяснения ответов или сразу придумайте правильный ответ, но затем перейдите к альтернативам без видимой причины.

«Когда это решает сложные проблемы, R1 буквально говорит, что «разочарованГоворит гуа. «Было забавно наблюдать, как модель подражает тому, что можно было сказать. Пока не ясно, как «разочарование» в рассуждениях может повлиять на качество результатов модели.«

В настоящее время лучшая модель в этом эталоне-O1 с оценкой 59%, за которым следует недавно выпущенный O3-Mini с высоким результатом »рассуждение«(47%). (R1 отметил 35%). На следующем этапе исследователи планируют расширить тесты на дополнительные модели рассуждений, которые надеются помочь идентифицировать области, где можно улучшить модели.

Результаты тестирования моделей, которые команда использует в качестве стандарта.

«Вам не нужна докторская степень, чтобы хорошо думать, чтобы вы могли разработать тесты для оценки рассуждений, которые не требуют такого уровня знанийГоворит гуа. «Более доступный тест позволяет большему количеству исследователей понимать и анализировать результаты, что, в свою очередь, может привести к лучшим решениям в будущем. Кроме того, поскольку современные модели все чаще используются в областях, которые влияют на всех, мы считаем, что каждый должен понимать, что они могут и не могут сделать эти модели.«

Похожие записи