Крупные модели могут выполнять более широкое разнообразие действий, но уменьшенная глубина более мелких моделей делает их очень привлекательными инструментами.
Большие языковые модели работают хорошо, потому что они действительно огромны. Последние модели OpenAI, Meta и DeepSeek используют сотни миллиардов кнопок, регулируемых параметрами, которые определяют ссылки на данные и изменяются в течение процесса обучения. С большим количеством параметров модели способны лучше идентифицировать закономерности и соединения, что, в свою очередь, делает их более мощными и точными.
Но эта сила имеет свою цену. Обучение модели с сотнями миллиардов параметров требует огромных вычислительных ресурсов. Например, чтобы обучить свои Gemini 1,0 Ultra, Google потратил 191 миллион долларов. Большие языковые модели (LLM) также требуют значительной вычислительной мощности каждый раз, когда они отвечают запросу, который делает их большими потребителями энергии. Согласно Институту института исследований электроэнергии, запрос CHATGPT потребляет примерно в 10 раз больше энергии, чем поиск в Google.
В ответ некоторые исследователи уже думают о более мелких языковых моделях. IBM, Google, Microsoft и Openai недавно запустили небольшие языковые модели (СЛМ — Маленькие языковые модели) Это использует только несколько миллиардов параметров — небольшая часть их аналогов LLM.
Небольшие модели не используются в качестве инструментов общего назначения, таких как их старшие кузены. Но они могут справиться с конкретными, более определенными задачами, такими как суммирование разговоров, отвечая пациентам в качестве чат -бота для здравоохранения и сбор данных на интеллектуальных устройствах.
«Для многих задач модель с 8 миллиардами параметров на самом деле довольно хороша», — говорит Зико Колтер, компьютерный ученый из Университета Карнеги Мелон.
Кроме Они могут работать на ноутбуке или мобильном телефоне вместо огромного центра обработки данныхS Нет никакого консенсуса для точного определения «маленького», но все новые модели этого типа имеют максимальное количество параметров около 10 миллиардов.
Чтобы оптимизировать процесс обучения этих небольших моделей, исследователи используют Несколько трюковБольшие модели часто извлекают необработанные данные обучения из Интернета, и эти данные обычно дезорганизованы, разбросаны и трудно обрабатываться. Тем не менее, эти большие модели могут генерировать высококачественный набор данных, которые можно использовать для обучения небольшой модели. Подход, называемый «дистилляцией знаний», заставляет более крупную модель эффективно передавать свое образование, как учитель, который дает уроки ученику.
«Причина, по которой (SLM) так хорошо справляется с такими небольшими моделями и такими небольшими данными, заключается в том, что они используют высококачественные данные вместо рассеянных материалов», — говорит Колтер.
Исследователи также искали способы Создание небольших моделей, начиная с больших моделей, постепенно сокращая ихОдин метод, известный как «резак», включает в себя удаление ненужных или неэффективных частей нейронной сети — растущей сети подключенных данных, которые лежат в основе большой модели.
Резка вдохновлена реальной нейронной сетью — человеческим мозгом, который повышает ее эффективность, прерывая связи между синапсами с возрастом. Сегодняшние подходы к эксцизии, выпущенные из статьи в 1989 году, в которой компьютерный ученый Ян Лекун, в настоящее время в Meta, утверждает, что до 90% параметров обученной нейронной сети можно удалить, не нарушая ее эффективности. Он называет метод «Оптимальное повреждение мозга«.
Для исследователей, которые заинтересованы в том, как создают языковые модели, более мелкие модели предлагают дешевый способ тестирования новых идей. И поскольку у них меньше параметров, чем крупные модели, их рассуждения могут быть более прозрачными.
«Если вы хотите создать новую модель, вы должны попробовать разные вещи»,-говорит Лешем Чошен, ученый из лаборатории искусственного интеллекта MIT-IBM Watson. «Небольшие модели позволяют исследователям экспериментировать с более низкими ставками».
Большие, дорогие модели с их постоянно превращающимися параметрами останутся полезными для таких приложений, как универсальные чат -боты, генераторы изображений и новые лекарства. Но для многих пользователей небольшая, целенаправленная модель будет работать так же хорошо, в то же время будет легче тренироваться и строить исследователями.
«Эти эффективные модели могут сэкономить деньги, время и расчеты», — говорит Чошен.