Перегрузка языковых моделей с информацией приводит к неподходящим ответам

Предполагается, что большие языковые модели обрабатывают миллионы токенов (кусочки слов и символов, которые составляют ввод) одновременно. Но чем дольше контекст, тем хуже они присутствуют.

Это заключение нового исследования, проведенного Chroma Research. Chroma, которая создает векторную базу данных приложений искусственного интеллекта, фактически выигрывает, когда ее модели нуждаются в помощи для получения информации из внешних источников. Тем не менее, объем и методология этого исследования замечательны: исследователи проверили 18 ведущих моделей II, включая GPT, Clude, Gemini и QWEN, на четырех типах задач, включая семантический поиск, задачи повторения и ответы в больших документах.

Вместо выбора слов

Исследование основано на известном тесте иглы в чаше сена, в которой модель должна выбрать конкретное предложение, скрытое в длинном блоке неподходящего текста. Команда Chroma критикует этот тест, что он измеряет только буквальное соответствие строк, поэтому они изменили его, чтобы потребовать реального семантического понимания.

В частности, они превысили простое распознавание ключевых слов двумя ключевыми способами. Во -первых, вместо того, чтобы задавать вопрос, который использует те же слова, что и скрытое предложение, они задавали вопросы, которые были только семантически связаны с ним. Например, задача, вдохновленная тестом Nolima, может спросить «Кто был в Хельсинки?«Если в тексте упоминается только то, что Юки живет возле музея Киасмы. Чтобы ответить на этот вопрос, модель должна использовать его знание окружающего мира, а не просто искать ключевые совпадения.

Это оказалось гораздо более сложной задачей для моделей. Когда эти семантические вопросы отвечают, производительность резко упала, и чем дольше был контекст, тем хуже он стал.

Во -вторых, в исследовании рассматриваются отвлекающие факторы: обвинения, которые похожи по содержанию, но неверны. Добавление даже отвлекающего фактора значительно снижает процент правильных ответов, эффект в зависимости от самого отвлекающего фактора. С четырьмя отвлекающими факторами эффект еще сильнее. Модели Clode часто отказываются отвечать, в то время как модели GPT, как правило, дают неправильные, но правдоподобные ответы.

Структура важна (но не так много, как ожидалось)

Структура также играет неожиданную роль. Фактически, модели работали лучше с текстами, в которых предложения были произвольно смешаны, чем с текстами, организованными в логическом порядке. Причины этого неясны, но исследование показало, что контекстуальная структура, а не только содержание, является основным фактором, влияющим на производительность модели.

Исследователи также протестировали более практические сценарии, используя Longmemeval, эталон с чатами более 100 000 токенов. В этом отдельном тесте они наблюдали аналогичное снижение производительности: производительность снижалась, когда модели должны были обработать всю историю чата, в отличие от того, когда им дали только необходимые разделы.

Рекомендация исследования: целенаправленно используйте «контекстная инженерия»-выбирать и организацию наиболее подходящей информации в запросе, чтобы гарантировать, что модели крупных языков остаются стабильными в реальных сценариях. Полные результаты доступны на веб -сайте Chroma Research, а инструменты для воспроизведения результатов доступны для загрузки с GitHub.

Другие исследования находят подобные проблемы

Результаты Chroma подтверждают результаты других исследовательских групп. В мае 2025 года Николай Савинов из Google Deepmind объяснил, что, когда модель получает большое количество жетонов, он должен обратить внимание на все вклад. Таким образом, он говорит, что нам нужно научиться фильтровать ненужные данные и сохранить семантический контекст. Это позволит модели работать более эффективно, если она сосредоточена на ключевых аспектах.

Исследование, проведенное Университетом Людвига Максимилиан в Мюнхене и Adobe Research, показало почти одинаковое. В тесте Nolima, который не требует дословного соответствия ключевых слов, даже модели, предназначенные для анализа текста, с увеличением количества контекста продемонстрировало заметное снижение производительности.

Microsoft и Salesforce сообщили о такой нестабильности в более длительных разговорах. В многоэтапных разговорах, где пользователи устанавливают свои шаги -шаги, точность снизилась с 90% до 51%.

Одним из самых замечательных примеров является Meta’s Llama 4 Maverick. Хотя Маверик может технически обрабатывать до десяти миллионов жетонов, это затрудняет с этим справиться. В тесте, предназначенном для отражения реальных сценариев, Maverick достигает точности только 28,1%, используя 128 000 токенов — значительно ниже его технического максимума и значительно ниже среднего для современных моделей. OpenAI и Gemini 2.5 в настоящее время являются лучшими в этих тестах.

Вместо выбора слов

Структура важна (но не так много, как ожидалось)

Другие исследования находят подобные проблемы

Похожие записи