Чем больше мыслей, тем хуже он решает: парадокс современного искусственного интеллекта

Модели застряли в своих мыслях — и это дорого.

Сегодняшний язык и модели демонстрируют растущую способность мыслить, но их же качество приводит к неожиданной проблеме-«» «анализ«. Исследование, проведенное учеными из Калифорнийского университета в Беркли, Эт Цюрих, Карнеги -Мелон и Университет Иллинойса, показывает, что сложные модели часто подвержены слишком много мышления, что снижает их эффективность.

Авторы статьи определяют этот эффект как «склонность предпочитать длительные внутренние отражения взаимодействию с внешней средой«. Это похоже на ситуацию, когда человек, без достаточной информации, бесконечно анализирует проблему, но никогда не приходит к правильному решению.

Чтобы проверить, как модели решают эту проблему, исследователи проверяют их на популярном стандарте для разработки программного обеспечения. Они используют платформу OpenHands, где модели должны обнаружить ошибки и предлагать решения. Оказалось, что модели с строительным механизмом склонны к «чрезмерным рассуждениям» почти в три раза чаще, чем модели без такого механизма. Более того, с повышением уровня «переосмысления» вероятности успешного выполнения задачи снизилась в среднем на 7,9% для каждой дополнительной единицы анализа.

Модели с относительно небольшим количеством параметров, такими как QWQ-32B от Alibaba, оказались особенно восприимчивыми к «переутомлению». Модели Sky-T1-R и Deepseek-R1 32B также показали высокий уровень «анализа», в то время как их успех в решении задач не превышает числа моделей без разработанного механизма рассуждений.

Одной из основных проблем подавляющей в языковых моделях является увеличение вычислительных затрат. Чем больше модель анализирует проблему, тем больше ресурсов потребляетС Например, использование Openai O1 в режиме с высоким ресурсом стоит 1400 долларов, в то время как его сокращение стоит 800 долларов, а разница в показателе успеха незначительна — 29,1% против 27,3%.

Исследователи обнаружили, что запуск «упрощенной» версии несколько раз и выбор наилучшего результата является более эффективным и экономичным, чем использование «глубокого» анализа. Этот подход экономит 200 долларов без снижения качества решений.

Однако не все сложные языковые модели подвержены этой проблеме. Например, Depepeek-R1 671b показал менее склонную к избыточному весу, чем базовая версия DeepSeek-V3 671b. Ученые предполагают, что это связано с особенностями его обучения — модель использовала крупномасштабное обучение подкреплению, но не была специально адаптирована для программирования задач. В результате он «отдыхал» меньше в рассуждениях и чаще взаимодействовал с окружающей средой.

Основным выводом исследования является то, что разумное ограничение глубины анализа может улучшить работу языковых моделей. Однако остается вопрос: Как мы обучаем модель, чтобы использовать столько рассуждений, сколько необходимо? Авторы надеются, что публикация их методологии и данных о свободном доступе поможет научному сообществу решить эту проблему. Полный набор данных, а также методология, используемая для количественной оценки избыточных анализов, доступен в GitHub.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх