Как сканирование во время тестирования раскрывает скрытые навыки рассуждения в малых языковых моделях

Многие малые языковые модели (SLM) могут превзойти ведущие крупные языковые модели (LLM) в задачах рассуждений, согласно новому лабораторному исследованию в области искусственного интеллекта в Шанхае. Авторы показывают, что с правильными инструментами и методами масштабирования во время тестирования SLM с 1 миллиардами параметров может превзойти LLM 405B в сложных математических тестах.

Возможность использовать SLM в сложных задачах логического мышления может быть очень полезна, поскольку компании ищут новые способы применения этих новых моделей в разных средах и приложениях.

Масштабирование во время тестов (TTS)- процесс обеспечения LLM для дополнительных вычислительных ресурсов во время логического вывода, чтобы улучшить их производительность при выполнении различных задач. Ведущие модели для логических выводов, таких как OpenAI O1 и Depepeek-R1, используют «внутренние TTS», что означает, что они обучены «мыслить» медленно, генерируя длинную последовательность токенов для мыслительной цепи (COT).

Альтернативный подход — это «внешний TTS», где производительность модели улучшает (как подразумевает имя) извне. Внешние TTS подходит для перенаправления существующих моделей для решения проблем рассуждений без дальнейшей корректировки. Внешняя установка TTS обычно состоит из 'Политическая модель«, Который является основным LLM, который генерирует модели вознаграждения отклика и процесса (PRM), которые оценивают ответы на модель политики. Эти два компонента соединены вместе с помощью выбора или метода поиска.

Самый простой настройка-«Лучший из N», где модель политики генерирует несколько ответов, а PRM выбирает один или несколько лучших ответов, чтобы сформировать окончательный ответ. Более сложные внешние методы TTS используют поиск. При поиске луча модель делит ответ на несколько этапов.

На каждом этапе он выбирает несколько вариантов, чтобы ответить и провести их через PRM. Затем он выбирает один или несколько параметров соответствия и генерирует следующий шаг ответа. И в «Поиск по нескольким вариантам ответа«Модель генерирует несколько вариантов ответа для создания более разнообразного набора возможных ответов, прежде чем объединить их в окончательный ответ.

Выбор правильной стратегии превращения текста в речь зависит от многих факторов. Авторы исследования провели систематическое обучение того, как различные модели политических и программных решений влияют на эффективность методов трансформации текста в речи.

Их результаты показывают, что эффективность в значительной степени зависит от политики и моделей PRM. Например, для небольших моделей политик методы на основе поиска превосходят метод.Лучший из n«. Тем не менее, для крупных моделей политики последний метод более эффективен, поскольку модели имеют лучшие возможности логических рассуждений и не нуждаются в модели вознаграждения, чтобы проверить каждый этап логического рассуждения.

Их результаты также показывают, что правильная стратегия TTS зависит от сложности задачи. Например, для небольших моделей политики с менее чем 7 миллиардами параметров метод «Лучший из N» более подходит для простых проблем, в то время как метод «Лучший поиск» более подходит для более сложных задач S Для моделей политики с параметрами от 7 до 32 миллиардов «различный поиск дерева» очень подходит для простых и средних задач, в то время как лучший метод поиска подходит для сложных задач. Но для крупных моделей политики (72 миллиарда параметров или более) метод «Лучший из N» оптимален для всех уровней сложности.

Основываясь на этих результатах, разработчики могут разработать вычислительные оптимальные стратегии TTS, которые учитывают модель политики, PRM и сложность проблемы для наилучшего использования вычислительных ресурсов для решения логических задач.

Например, исследователи обнаружили, что модель Llama-3.2-3b с вычислительной оптимальной стратегией TTS, превосходящей Llama-3.1-405b в соответствии с показателями Math-500 и AIME24 в двух сложных математических тестах. Это указывает на то, что SLM может превышать модель, которая в 135 раз больше при использовании оптимальной стратегии TTS.

В других экспериментах QWEN2,5 с 500 миллионами параметров может превзойти GPT-4O с помощью правильной стратегии синтеза речи, которая оптимизирована для расчетов. Используя ту же стратегию, параметр 1,5 миллиарда DeepSeek-R1 превысил O1-просмотр и O1-минию тестов Math-500 и AIME24.

Учитывая стоимость обучения и выводы, результаты показывают, что при использовании стратегий масштабирования и при оптимизации для расчета SLM может превзойти более крупные модели, в 100-1000 раз меньше плавающей запятой.

Результаты исследования показывают, что TTS с оптимальным расчетом значительно улучшает способность логического рассуждения языковых моделей. Однако с размером модели TTS постепенно теряет эффективность.

«Это говорит о том, что эффективность TTS напрямую связана со способностью политической модели логически мыслить» — Исследователи пишут. «В частности, для моделей со слабыми логическими способностями масштабирования тесты во время тестов приводят к значительному улучшению, в то время как модели с сильной логической способностью ограничены.«

Исследование подтверждает, что SLM может работать лучше, чем более крупные модели при использовании методов тестирования для тестирования и оптимизации вычислений. Хотя это исследование фокусируется на математических тестах, исследователи планируют расширить его до других задач, которые требуют логического мышления, таких как программирование и химия.

Похожие записи