Новая платформа S* позволяет языковыми моделями, основанными на искусственном интеллекте, генерировать более мощный и надежный код. Исследователи из Калифорнийского университета в Беркли создали Fraimmaker под названием S*, улучшая способ, которым модели A-ilinguist генерируют код. Система объединяет два разных подхода в параллельных и сериалах с новым способом выбрать наилучшие результаты.
Хотя генерация нескольких частей кода одновременно и выбор лучших (параллельный масштабирование) не является чем -то новым, команда Беркли добавила что -то дополнительное. Они объединили это с итеративным масштабированием, в результате чего система постоянно улучшает свои решения путем систематического исправления ошибок.
Структура вводит изменение расчета во время тестов в качестве одного из его строительных блоков. В отличие от текущих моделей рассуждений, таких как OpenAI O1, S* включает внешнюю обратную связь, вместо того, чтобы полагаться исключительно на внутренние цепочки рассуждений. Эта конструкция делает его совместимым как с традиционными крупными лингвистическими моделями (LLM), так и более поздними моделями рассуждений (LRM).
Вторая ключевая инновация — это то, что команда называет »Адаптивный входной синтез«. Во время тестов они использовали Mini GPT-4O для генерации тестовых входных данных для различных потенциальных решений. Реализуя эти входные данные и анализируя фактические результаты, ИИ может надежно определить наилучшее решение.
Система хочет, чтобы модель ИИ создавала тестовые входы, специально предназначенные для выявления различий между двумя программами. Он использует тщательно продуманные подсказки, которые сообщают модели учитывать случаи программирования (например, пустые входы или экстремальные значения), генерируют сложные, но управляемые тесты и создают входы, которые могут выявить потенциальные ошибки.
Затем система выполняет обе программы, используя эти тестовые входные данные и возвращает результаты в модель ИИ, которая решает, какое решение лучше представлено на основе фактических результатов теста.
Команда проверила S* с 12 различными языковыми моделями и различными размерами и типами, из которых она обнаружила последовательные улучшения повсюду: QWEN2.5-7B-Coder-Instruct с S* представлена примерно на 10% лучше, чем QWEN2.5- 32B-кодер-инструкт без него, а в некоторых случаях меньшие модели с использованием S*Overferform Made модели рассуждения-GPT-4O mini с S* превышает O1-Preview. Даже мощные модели рассуждений демонстрируют улучшение в использовании рамы.
У Фреймура есть четкие ограничения. В настоящее время он оптимизирован только для программных задач и не был протестирован на более сложных задачах по разработке программного обеспечения. Команда также сосредоточилась исключительно на повышении точности, откладывая проблемы с эффективностью ресурсов.
Подход, который сочетает в себе улучшения имитации с возможностями поиска, мог способствовать успеху OpenaI в тесте ARC, где они сделали несколько параллельных запросов на свою модель рассуждения O3 и выбрали лучшие ответы, хотя точный метод остается неизвестным. S* следует за такой философией и может привести к улучшению возможностей для создания кода в будущем.