Tencent и Университет Фудань представили CL-bench — открытый тест, который оценивает способность языковых моделей извлекать знания из заданного контекста вместо того, чтобы полагаться на данные обучения. Тесты показали тревожно плохие результаты: даже самая мощная модель GPT-5.1 правильно решила лишь около четверти задач, хотя вся необходимая информация была явно указана в контексте.
CL-bench включает 1899 задач, распределенных по 500 контекстам. На создание и аннотацию каждого контекста у экспертов ушло около 20 часов. Задания охватывают четыре категории: рассуждения на основе предметных знаний, применение систем правил, выполнение процедурных задач и эмпирические исследования. Чтобы модель не могла использовать знания из обучающих наборов данных, данные были либо полностью вымышленными, модифицированными, либо включали недавнюю узкоспециализированную информацию.
Результаты испытаний оказались показательными. Среди десяти протестированных моделей средний процент правильных ответов составил всего 17,2%. Лидером является GPT-5.1 с точностью 23,7%. При этом модель использовала больше вычислительных ресурсов для рассуждений, хотя вся необходимая информация уже содержалась в контексте задач.
Такая низкая производительность объясняется тем, что модели часто игнорируют или неправильно используют контекст и полагаются на статические знания, полученные во время обучения.
Задачи, требующие индуктивного подхода, оказались особенно трудными: вывод правил или исследование смоделированной среды приводили к успеху менее чем в 10% случаев. Увеличение вычислительных ресурсов немного улучшило ситуацию, но эффект был непостоянным, а в некоторых моделях наблюдалось даже снижение производительности.
CL-bench освещает проблемы, которые могут возникнуть при применении искусственного интеллекта. В корпоративной среде модели часто работают с отраслевой документацией, процедурами и техническими спецификациями, которые постоянно обновляются. Если ИИ не сможет надежно усвоить и применить такой контекст, польза от масштабирования окна контекста останется под вопросом.
CL-bench используется только для оценки и не предназначен для оптимизации моделей для испытаний. Разработчики могут загружать набор данных, запускать модели с помощью предоставленных скриптов и отправлять результаты в таблицу лидеров. Репозиторий теперь доступен на GitHub, набор данных — на Hugging Face, а таблица лидеров — на clbench.com.

