Модель с 1 миллиардом параметров не требует подключения к электронному облаку.
Meta Reality Labs представила MobileLLM-P1 (Pro) — компактную языковую модель с 1 миллиардом параметров, предназначенную для работы без подключения к облаку. Он может выполнять общие задачи, такие как ответы на вопросы, перефразирование и обобщение текста, прямо на устройстве — локально. Выкройка и ее файлы доступны на сайте Hugging Face.
В серии MobileLLM есть два варианта: базовая версия и версия с предварительно обученным обучением. Оба имеют открытый исходный код и включают готовые контрольные точки для процессоров и мобильных ускорителей.
По данным Meta, базовая версия MobileLLM-Pro превосходит Gemma 3 1B и Llama 3.2 1B – на 5,7% и 7,9% выше в задачах рассуждения, поиска знаний и задач с длинным контекстом. Модель была обучена на объеме менее 2 триллионов полностью открытых токенов.
Модель имеет контекст до 128 000 токенов. Это позволяет анализировать длинные документы и извлекать информацию из больших текстов. Чтобы ускорить работу, разработчики используют сочетание локального и глобального внимания (соотношение 3:1). Такой подход сокращает задержку почти вдвое и уменьшает размер KV-кэша со 117 МБ до 40 МБ.
MobileLLM-Pro поддерживает 4-битное квантование с минимальной потерей качества – не более 1,3%. Для ЦП используются int4 (веса), int8 (активации и кэш KV) с регрессией 0,4%. Для ускорителей (например, Apple ANE и Qualcomm HTP) — 1,3%.
Архитектура имеет 30 слоев, 20 головок внимания (4 из них KV), размер скрытого слоя 6144 и словарь из 202 048 токенов. Всего 1,08 миллиарда параметров. Во время обучения Лама 4-Скаут выполнял функции учителя.
В тестах модель показала: 67,1% в HellaSwag, 76,2% в BoolQ, 76,6% в PIQA, 50,9% в SocialIQA и 39,9% в TriviaQA. В ARC-c она составляет 52,6%, в ARC-e – 76,3%, а в WinoGrande – 62,8%.
Предварительно обученная версия набрала 44,8% в MMLU, 62% в IFEval, 59,8% в HumanEval и 58,4% в HellaSwag.
Обучение проходило в три этапа: изучение языка, расширение контекста до 128 тысяч и обучение по разным направлениям. Затем для 4-битных версий было добавлено количественное обучение с учетом параметров (QAT). Фаза прединструкционного обучения включает в себя SFT и DPO с упором на безопасность и точность.
Модель тестировалась на Samsung Galaxy S25 и S24. При токенах 2000 предварительная выборка занимала 8,9 с на ЦП и 1,96 с на HTP, а при токенах 8000 — 63,5 с и 9,8 с соответственно.
MobileLLM-Pro обучен на 1,64 триллионах токенов из наборов данных с открытым исходным кодом в области образования, науки, программирования и математики. Предварительное обучение инструкций проводилось на смешанных и синтетических наборах данных.
Модель распространяется по лицензии FAIR NC.

