Каковы проблемы языковых моделей в анализе длинного текста: результаты исследований

Исследование, проведенное учеными из Университета Людвига Максимилиана в Мюнхене, Мюнхенский центр по обучению машин и исследования Adobe показало, что современные лингвистические модели с искусственным интеллектом имеют ограничения на обработку и анализ больших объемов текстовой информации.

Команда проверяет 12 ведущих моделей, в том числе GPT-4O, Gemini 1.5 Pro и Llama-3,3-70B, каждый из которых может обрабатывать не менее 128 000 жетонов.

Теста Nolima (без буквального соответствия) тестирует, насколько хорошо модели ИИ могут соединить информацию и делать выводы, не полагаясь на соответствующие слова. В тесте используются вопросы и текстовые отрывки, предназначенные для того, чтобы избежать использования общего словаря, который заставляет модели понимать концепции и устанавливать связи.

Вот как это работает: текст может содержать фразу «Юки на самом деле живет рядом с оперой Земли«. Соответствующий вопрос будет: «Какой из персонажей уже был в Дрездене?«Чтобы дать правильный ответ, модель должна понимать, что Zeper-Opera находится в Дрездене, и выбирать Юки в качестве ответа.

Результаты показывают, что модели испытывают трудности, увеличивая длину текста. Производительность значительно снижается в диапазоне от 2000 до 8000 токенов. При 32 000 токенах 10 из 12 моделей работают наполовину медленнее, чем обычно, чем более короткие тексты.

Исследователи указывают ограничения в основном механизме внимания к моделям, которые не могут справиться с более длинными контекстами. Без признаков в форме соответствующих слов моделям испытывает трудности с поиском и подключением правильной информации.

Производительность дополнительно нарушается, когда необходимо больше шагов для принятия решения (скрытых переходов). Порядок информации также имеет значение-модели хуже, когда ответ следует за ключевой информацией.

Команда также создала Nolima-Hard, которая включает в себя десять самых сложных пар вопросов-ответов, чтобы проверить специализированные модели логического мышления. Даже специально сконструированные системы, такие как O1, O3-Mini и Deepseek-R1, представлены ниже 50% в контекстах с 32 000 токенов, хотя они почти идеально работают в более коротких текстах.

Цепочка мыслей (COT) помогает Llama-3.3-70B лучше справляться с более длинными контекстами, но не решает основную проблему. Хотя совместное собрание слов облегчает задачу, они могут снизить производительность, если они рассеиваются в неподходящем контексте.

Эта уязвимость может повлиять на реальные приложения мира, такие как поисковые системы, которые используют архитектуру RAG. Даже если документ содержит правильный ответ, модель может пропустить его, если формулировка не совсем соответствует запросу, отвлекая от поверхностных совпадений в менее подходящих текстах.

Хотя в последние месяцы не было никаких серьезных прорывов в фундаментальных моделях, компании сосредоточились на улучшении возможностей для выводов и расширении контекстных окон. В настоящее время Pro Gemini 1.5 приводит к поставке токенов с двумя миллионами.

С ростом контекстных токенов Windows-FRO-FRO 4096 в GPT-3,5 до 8000 в GPT-4-моделях первоначально пытаются извлечь основные последовательности слов. Позже они продемонстрировали улучшения результатов теста Niah, опубликованного производителем.

Nolima может стать новым стандартом для оценки того, насколько хорошо модели занимаются большими контекстными окнами, потенциально направляя будущее развитие LLM. Предыдущие исследования показывают, что в этой области все еще есть место для улучшения.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх