В новом исследовании Hugging Face исследователи продемонстрировали, как небольшие языковые модели SLM можно настроить, чтобы превзойти гораздо более крупные модели. Их результаты показывают, что модель Llama 3 с параметрами 3B может превосходить версию модели 70B при решении сложных математических задач. Hugging Face полностью задокументировал весь процесс и предоставил план действий для компаний, которым нужны дополнительные инструменты и методы, которые помогут максимально эффективно использовать свои ресурсы.
Основная идея таких моделей, как o1, заключается в масштабировании вычислений во время теста, что, по сути, означает использование большего количества раундов вычислений при выводе и тестировании, а также проверку различных ответов и путей рассуждения перед получением окончательного ответа. Масштабируемые вычисления во время тестов были особенно полезны, когда для запуска большой модели не хватало памяти.
Поскольку o1 является запатентованной моделью, а OpenAI ничего не говорит о ее внутренних механизмах, исследователи размышляют о том, как она работает, и пытаются перепроектировать этот процесс. Сейчас также существует несколько открытых альтернатив o1.
Работа Hugging Face основана на исследовании DeepMind, опубликованном в августе, в котором изучались компромиссы между временем вывода и предварительными вычислениями. В исследовании представлены комплексные рекомендации по балансированию тренировок и расчетов производительности для достижения наилучших результатов в рамках фиксированного бюджета. Помимо использования дополнительного времени для вычисления выходных данных, успех метода также зависит от двух ключевых компонентов: модели вознаграждения, которая оценивает ответы SLM, и алгоритма поиска, который оптимизирует путь, используемый для уточнения его ответов.
Самый простой способ использовать масштабирование времени тестирования — это голосование большинством, при котором одно и то же приглашение отправляется модели несколько раз и выбирается тот, который наберет наибольшее количество голосов. Для простых задач множественное голосование может быть полезно, но его результаты быстро становятся неактуальными при решении сложных логических задач или задач, в которых ошибки одинаковы для разных поколений.
Более продвинутый метод рассуждения — Best-of-N. В этом методе SLM генерирует несколько ответов, но вместо множественного голосования используется модель вознаграждения для оценки ответов и выбора лучшего. Взвешенный лучший из N. Более усовершенствованная версия этого метода учитывает последовательность выбора ответов, которые являются действительными и встречаются чаще, чем другие.
Исследователи использовали PRM, который оценивает ответ SLM не только по окончательному ответу, но и по множеству стадий, через которые он проходит, чтобы достичь этого. Их эксперименты показали, что Weighted Best-of-N и PRM приблизили Llama-3.2 1B к Llama-3.2 8B в сложном тесте MATH-500.
Чтобы еще больше улучшить производительность модели, исследователи добавили в процесс ее рассуждения алгоритмы поиска. Вместо генерации ответа за один проход они использовали лучевой поиск.
На каждом этапе УУЗР генерирует несколько частичных ответов. Алгоритм поиска использует модель вознаграждения для оценки ответов и выбирает подмножество, которое заслуживает дальнейшего изучения. Процесс повторяется до тех пор, пока модель не исчерпает свой выходной бюджет или не достигнет правильного ответа. Таким образом, бюджет вывода можно сузить, чтобы сосредоточиться на наиболее многообещающих ответах.
Исследователи обнаружили, что, хотя трассировка лучей улучшает производительность модели при решении сложных задач, она, как правило, работает хуже, чем другие методы при решении простых задач. Чтобы устранить этот недостаток, они добавили в свою стратегию вывода еще два элемента.
Первым был поиск по дереву с разнообразными верификаторами (DVTS), вариант лучевого поиска, который гарантирует, что SLM не застревает на ложных путях рассуждений, и диверсифицирует свои ответы. Во-вторых, они разработали «оптимальную стратегию масштабирования», предложенную в статье DeepMind, которая динамически выбирает лучшую стратегию масштабирования времени тестирования в зависимости от сложности входной задачи.
Комбинация этих технологий позволила Llama-3.2 1B превысить свой вес и значительно превзойти модели 8B. Они также обнаружили, что эту стратегию можно масштабировать, и применительно к Llama-3.2 3B они смогли превзойти гораздо более крупную модель 70B.
Масштабирование расчетов при тестировании меняет динамику стоимости моделей. Теперь предприятия могут выбирать, где размещать свои вычислительные ресурсы. Например, если у вас мало памяти или вы можете мириться с более медленным временем отклика, вы можете использовать небольшую модель и потратить больше циклов вывода, чтобы получить более точные ответы.
Однако время масштабирования тестирования также имеет свои ограничения. Например, в экспериментах Hugging Face исследователи использовали специально обученную модель Llama-3.1-8B в качестве PRM, которая требует параллельного выполнения двух моделей.
Методика масштабирования времени тестирования, представленная в этом исследовании, также ограничивается задачами, ответы на которые можно четко оценить, такими как программирование и математика. Разработка моделей вознаграждения и верификаторов для субъективных задач, таких как творческое письмо и дизайн продукта, требует дальнейших исследований.
Но очевидно, что масштабирование вызвало большой интерес и активность во время тестирования, и мы можем ожидать появления новых инструментов и методов в ближайшие месяцы.