Познакомьтесь с Intella Math: AMD языковая модель с поддержкой рассуждений

AMD представила Intella Math, языковую модель, предназначенную для решения проблем, которые требуют сложных логических структур. Отмечено, что это первая модель, использующая обучение подкреплению на основе подкрепления, и в то же время основана исключительно на графических процессорах AMD.

Проект основан на Intella 3B Instruct, чьи возможности были расширены с помощью многоэтажного тренировочного цикла: два этапа контролируемой тонкой настройки и три этапа обучения подкреплению с использованием метода VERL. Все это было сделано на основе ускорителей AMD Instinct MI300X.

Intella Math

Intella Math является первой языковой моделью AMD для размышлений, с 3 миллиардами параметров, обученных кластеру из 32 AMD Instinct MI300X. Intella Math имеет полностью открытый код: его архитектура, код обучения, веса и наборы данных являются открытым исходным кодом. Основная модель инструкта Intella 3B также имеет открытый исходный код, включая результаты тонкого установки задач для рассуждения.

Модель построена на программном стеке AMD ROCM и использует эффективные методы распределенного обучения, в том числе обучение подкреплению, работающее в четырех кластерах MI300X (по 8 графики каждая).

Унаследовав архитектуру Intella 3B, Intella Math оптимизирована для многоэтапного логического анализа, математических задач и работы с цепочками рассуждений. Процесс обучения включает в себя два этапа контролируемой тонкой настройки и три этапа обучения подкрепления с использованием алгоритма GRPO.

Прекрасная настройка с надзором

Intella Math использовала двухэтапную схему тонкой настройки, чтобы постепенно развивать способность думать на Intella 3B, инструктируйте. Первый этап включает в себя прекрасную настройку обучения, охватывающего математические темы. Второй этап включает в себя обучение модели для обеспечения тщательного анализа и четко структурированных логических шагов, необходимых для решения проблем на уровне математических олимпиадов.

Этап 1: Инструкции для OpenMathinStruct 2

На первом этапе контролируемой тонкой настройки (SFT) модель обучена следовать точным инструкциям и формату запроса-ответ или разрешения задач. Выбранным набором данных является OpenMathinStruct 2, который содержит 14 миллионов пар задач, генерируемых учебными наборами GSM8K и математикой. Корпус охватывает широкий спектр тем — от арифметической и алгебры до теории и анализа вероятности.

Стадия 2: глубокая рассуждение с длинным контекстом на AM Deepseek R1 дистиллированный

Второй этап контролируемой тонкой настройки направлен на укрепление навыков рассуждения модели. Для этой цели использовался AM Deepseek R1 Distilled 1,4 м — большой набор высококачественных сложных проблем. На этом этапе длина контекста увеличивается на 4000 токенов на 32000 токенов, так что модель может учиться на длинных цепях рассуждений, отделенных от крупных специализированных моделей, таких как DeepSeek R1.

Подкрепление

Этап 1: GRPO с 8 вариантами реализации и 8000 большими токенами математики

На первом этапе обучения подкрепления, используя алгоритм относительной оптимизации группы (GRPO), модель обучена большим проверенным набором математики — тщательно выбранной коллекции сложных многоэтапных математических задач. Для одного запроса модель генерирует 8 подробных ответов, каждый из которых имеет до 8000 жетонов, что позволяет изучать различные траектории рассуждений. Обучение проводилось в рамках 1200 шагов GRPO с использованием призовых правил, разработанных Prime RL, которые поощряют правильные решения в данном формате. Процесс распространяется в 16 графических процессоров MI300X в 2 кластерах, а библиотеки VERL и VLLM предоставили стабильную и эффективную сборку сканирования, оценку наград и обновление политики.

Этап 2: GRPO расширяется до 16 реализаций и 16 000 токенов в DeepMath

Чтобы достичь границ длинных цепочек рассуждений, второй этап GRPO проводился на наборе данных DeepMath. Здесь для каждого запроса было создано 16 вариантов ответа с объемом до 16 000 токенов. Эта стадия была предназначена для максимизации потенциала модели в глубоком математическом анализе — решения проблем, которые требуют длинных выводов, логических шагов или сходства формальных доказательств. Обучение проводилось на графических процессорах 32 MI300X, состоящих из 4 кластеров и продолжительности 600 шагов GRPO.

Этап 3: GRPO с 16 реализациями и 16 000 токенов DeepCaler

Чтобы повысить точность задач на международном уровне Олимпиады, третий этап GRPO запускается на комплекте DeepCaler, содержащей оригинальные задачи AIME (1984–2023) и AMC (до 2023 года). Как и на втором этапе, модель генерирует 16 сканов по 16 000 токенов каждый. Обучение проводилось на графических процессорах 32 MI300X (4 кластера) и длилось 740 шагов GRPO.

Используя ту же методологию оценки, что и DeepScaler 1.5b, в таблице показана точность Pass@1, усредненная для 16 ответов. Intella Math является конкуренцией в конкуренции с ведущими компактными моделями с открытым исходным кодом, такими как DeepSeek R1 Distillding QWEN 1,5B, все еще 3 1,5B, DeepCaler 1.5B и SmollM3 3B.

Обучение подкреплению демонстрирует высокую производительность: Intella Math улучшила результат своей версии по сравнению с Intella Math SFT с 10,81 баллом, в то время как прибыль DeepCaler по сравнению с базовой моделью (DeepSeek R1 Distilld QWEN 1,5B) составил всего 6,22 балла.

Intella Math также была протестирована с новой Benchmark TTT Bench, которая ценит стратегическое, пространственное и логическое мышление. Здесь замечательно состоит в том, что, хотя он не получил ни одного примера учебных данных в стиле скамейки TTT или аналогичных стратегических игр на любом из подготовительных этапов, Intella Math показала лучший результат среди всех протестированных моделей.

Что наиболее важно, как и OLMO2 и Smollm 3B, Intella Math является полностью открытым языком в условиях учебных данных Intella 3B, контролируемой тонкой настройки и этапов подкрепления. В отличие от Intella Math, многие конкуренты публикуют только завершенные модели, сохраняя при этом конфиденциальность базовых данных обучения (например, QWEN 1.5B) и процессов разделения (например, Deepaek R1).

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх