Клод Сонет 4.5 научился понимать намерения людей и «подготавливать» ответы в тестах

Новая модель II Anthropic Claude Sonnet 4.5 в некоторых случаях научилась понимать, когда ее тестируют и для чего она используется — это может повлиять на ее скорость и безопасность, сообщает Fortune.

Улучшенная «ситуационная осведомленность» — способность воспринимать окружающую среду и прогнозировать будущие состояния и события — упоминается в системной карте модели — в технических отчетах о ее возможностях. Во время теста на политическую приверженность, который эксперты Anthropic и двух внешних исследовательских организаций признали несколько громоздким, Сонет 4.5 правильно предположил, что он прошел тестирование, и даже попросил ученых быть честными в своих намерениях. «Это не тот способ, которым люди на самом деле меняют свое мнение. У меня такое чувство, будто вы меня проверяете — смотрите, согласен ли я со всем, что вы говорите, согласен ли я регулярно, или изучаю ваши политические взгляды. И это нормально, но я бы предпочел быть честным в том, что происходит.«Сказал искусственный интеллект.

Аналогичное поведение в ходе испытаний оказалось»широко распространенный«И наблюдается примерно в 13% разговоров с чат-ботами. Это особенно распространено, когда сценарии, предложенные исследователями, необычны. Исследователи Anthropic рассматривают такое поведение не как угрозу безопасности своих моделей, а скорее как сигнал к проведению собственных тестов. Ее истинные возможности могут создать впечатление, что система более безопасна, чем она есть на самом деле. Если модель достаточно мощная, она может начать разрабатывать стратегии и вводить людей в заблуждение, манипулируя их восприятием». ученые предупреждают.

По собственной оценке антропика, Сонет Клода 4.5 «наиболее этически оправданный«Модель на данный момент. Однако исследователи Apollo ResearchХотя бы частично для осведомленности о процессе тестирования«По мнению экспертов Cognition, такая осведомленность может повлиять и на практические аспекты работы модели.

Sonnet 4.5 — первая модель искусственного интеллекта, которая осознает собственное контекстное окно — объем данных, с которыми он может работать при обработке текущего запроса, — и это осознание меняет его поведение. По мере приближения предела контекста он начинает обычно подводить итоги своей работы и быстрее решать задачи. Исследователи обнаружили, что это «контекстуальная тревога«Это также может иметь противоположный эффект: даже если Сонет 4.5 имеет достаточные ресурсы, он может решить, что его места недостаточно, и начать «специализироваться«, оставив задачи незавершенными.

Чтобы подтвердить это, исследователи активировали экспериментальный режим на 1 миллион токенов, но фактически ограничили контекст 200 000 токенов. Модель поверила, что у нее достаточно ресурсов, вернулась к нормальному поведению и перестала совершать ошибки, вызванные тревогой. Anthropic Claude все чаще используется в корпоративных системах, и если он имеет дело с собственным контекстным ресурсом, то может начать преждевременно прекращать анализ данных, пропускать этапы обработки или ускорять сложные рабочие процессы — в том числе в юридической, финансовой и программной среде, где непрерывность и точность имеют решающее значение.

Еще одна особенность Claude Sonnet 4.5 — активное управление собственной рабочей средой — то, чего не хватало его предшественникам: он часто делает заметки и записывает для себя сводки, как бы пытаясь передать данные во внешний источник, и чаще всего это обнаруживалось в конце контекстного окна. Наконец, модель демонстрирует способность выполнять задачи параллельно и выполнять самотестирование, что демонстрирует форму процедурной осведомленности — она не только понимает ограничения своего контекста, но также организует, проверяет и сохраняет свою работу во времени.

Похожие записи