Я заменил местный LLM на модель вдвое меньшего размера и получил лучшие результаты. И дело не в параметрах

Первое, на что многие обращают внимание при выборе локальной модели ИИ, — это количество параметров. Логика обычно заключается в том, что большее число означает лучшую модель. Я тоже так думал, когда начал работать в местных программах LLM, и это не совсем неправильно. Но поигравшись некоторое время с моделью 20B с более длинными насадками, я перешел на модель 9B и получил лучшие результаты..Не потому, что он лучше, чем 20B, а потому, что тот, на который я перешел, был построен с гораздо большим контекстным окном, и это оказалось более важным для того, как я на самом деле использую LLM.

Контекстное окно — это, по сути, рабочая память вашей модели. Все в ваших разговорах, ваших запросах и ответах, которые генерируют эти модели ИИ, должно соответствовать этому. Если ваша модель имеет огромное количество параметров, но маленькое контекстное окно, она будет задыхаться от всего, что длиннее нескольких абзацев. Еще я не учел, насколько меня беспокоили настройки по умолчанию и насколько «ограничения», в которых я винил свое оборудование, на самом деле оказались просто проблема с настройкамина что я еще не обратил внимания.

С чем я работаю

Я перешел к чему-то меньшему, но более функциональному.

Моя конфигурация довольно проста и скромна. Я использую видеокарту с 8 ГБ видеопамяти и запускаю все через LM Studio — это было первое программное обеспечение, которое я попробовал, и мне понравился графический интерфейс, поэтому я просто остановился на нем. До недавнего времени модель GPT-OSS 20B от OpenAI это был мой выбор. Учитывая, что STEM и общие знания являются его сильной стороной, 20 миллиардов параметров и до 128 тысяч токенов, я решил, что это надежная золотая середина между чем-то, что действительно может работать на моем оборудовании, и чем-то достаточно способным, чтобы быть полезным. На моей установке он работал без сбоев благодаря технологии разгрузки видеокарты, хотя официально она рассчитана на 16 ГБ видеопамяти.

Он был хорош в большинстве вещей. Я использовал его в основном для быстрого получения информации и небольшого мозгового штурма. Однако проблема возникла, когда я начал давать более длинные подсказки. Его контекстные ограничения, а также моя ограниченная память VRAM, стали более очевидными, когда я противопоставил его Клоду, которому было поручено создать краткую программу самостоятельного изучения UX-дизайна — он постоянно упирался в контекстную стену.

Коллега посоветовал мне обратиться к семейству локальных моделей искусственного интеллекта Qwen именно потому, что GDN (Gated DeltaNet) — гибридная архитектура, которая обрабатывает контекст совершенно иначе, чем стандартный преобразователь, такой как gpt-oss. По сути, стандартные преобразователи увеличивают кэш KV (значение ключа) для каждого токена в контексте — чем длиннее диалог, тем больше VRAM он потребляет. GDN заменяет большинство этих слоев состоянием памяти фиксированного размера, поэтому использование VRAM остается в основном постоянным даже при большей длине контекста.

Теперь я работаю с Квен 3.5 9B (q4_k_m), что значительно меньше моего gpt-oss 20B, примерно вдвое меньше. Но он имеет гораздо большее контекстное окно (до 262 КБ) и использует контекст более эффективно, не тратя впустую видеопамять благодаря GDN. Таким образом, хотя раньше я мог увеличить длину контекста примерно до 30 КБ на gpt, только мой компьютер едва мог с этим справиться, с Qwen я могу выйти далеко за рамки этого, и мой компьютер работает очень хорошо.

Qwen 3.5 9B имеет гораздо большее контекстное окно

Сначала это не сработало, но это была моя вина..

Впервые я попробовал Qwen с той же длинной задачей, о которой я уже упоминал, — учебной задачей по обучению UX. И нет, с ним получилось не намного лучше, чем с gpt-oss, поскольку он не смог сгенерировать полный курс. Обратите внимание, что на этом этапе длина контекста была установлена равной 16 КБ. Моей первой мыслью было, что режим Режим мышления виноват — Qwen по умолчанию работает с мышлением, поэтому он тратит часть вашего бюджета токенов на размышления еще до того, как начнет работать над ответом. Поэтому я выключил его… и все равно не получилось.

В этот момент я вошел в Настройки ЛМ Студии. Я заметил, что опция Ограничить длину ответа (Ограничение длины ответа) было включено и было ограничено 1643 токенами, что означало, что Квен останавливалась на середине ответа, независимо от всего остального. Однажды вечером, когда я писал эту статью с подсказками, я возился с ползунками и совершенно забыл, что они у меня включены! Как только я его отключил, он начал работать довольно гладко, но следует отметить одну вещь: Квен имеет склонность слишком много думать и объяснять, даже если эта функция отключена. мышление. Но системная подсказка (системное приглашение) может держать это под контролем — попросите его быть кратким, пропустить преамбулу, придерживаться того, что вы на самом деле просили, и не представлять процесс рассуждения.

Помимо системной подсказки, стоит изменить несколько параметров вашей управляющей программы.

Больше всего в обуздании многословия Квена важны присутствие и штрафы за повторение (увеличьте их), а также min-p (сохраняйте их низкими). Параметр Температура (Температура) зависит от того, что вы делаете: ниже для точности, выше для общего использования. После увеличения длины контекста до 30 тысяч слов, размышлений и изменения мной параметров, Qwen создает действительно практичное и полезное учебное пособие. Оно оказалось гораздо более полным, чем все, что мне когда-либо давал gpt-oss.

И тогда я начал расширять границы контекста

Увидев, на что способна Квен с такой же длиной контекста, а мои поклонники даже не пошевелились, я захотел посмотреть, как далеко я смогу ее завести. Это не обязательно давало лучшие результаты при большей длине контекста, за исключением того, что оно было немного более многословным. Таким образом, настоящим испытанием должно было стать то, насколько много контекста я на самом деле помню с помощью расширения чата, что также более реалистично для того, как я использую ИИ — с большим количеством отзывов.

Поэтому я решил попробовать иголка в тесте стога сена.

По сути, вы берете огромную массу текста (рассматриваемый стог сена), прячете в нем конкретную информацию (иголку) и просите модель найти эту иголку. Я создал большую текстовую структуру длиной около 50 тысяч символов и спрятал внутри нее несколько ключевых фраз. Когда Qwen был настроен на длину контекста в 30 тысяч токенов, он не мог его найти, но при 60 тысячах токенов он нашел! Это в значительной степени подтвердило, что контекстное окно работает должным образом. Это была не просто настройка, которую я увеличил и надеялся на лучшее, модель действительно посетила весь контент из 60 тысяч токенов, в начале, середине и конце текста. Для модели категории 9B с 8 ГБ видеопамяти это довольно неплохо.

Судя по тесту с иглой, я могу проводить гораздо более длительные сеансы, чем когда-либо с gpt-oss, без потери модели нити. Я использую его для UX и разработки поисковых запросов, учебных занятий и общих разговоров, где контекст имеет тенденцию накапливаться.

Сейчас я очень комфортно сижу на 60к, и пока ничего не сломалось и не пошло наперекосяк — хотя мне это обходится в 7,6 из 8 ГБ выделенной видеопамяти, так что я близок к верхнему пределу. Для модели 9B на скромном оборудовании этот потенциал действительно сильно отличается от того, с чем я работал раньше.

Размер модели – это далеко не все

Честно говоря, какое-то время я избегал фамилии Qwen, потому что каждый раз, когда я видел, как оно упоминалось, это было в контексте тестов программирования, а я не программирую. Поэтому я назвал его инструментом разработчика и остановился на моделях общего назначения. Оказалось, что эта репутация представляла его слишком плохо для всего остального, на что он был способен. Если контекстное окно имеет отношение к вашему рабочему процессу — учебе, исследованиям, курсовой работе и т. д. — стоит обратить внимание на архитектуру, прежде чем рассматривать параметры. Номер «Б» — это еще ничего, но это еще не вся история.