Ученые обнаружили, что искусственный интеллект скрывает истинный курс его рассуждений

Большие языковые модели (LLM) что кормить приложения искусственного интеллекта скрывают истинные механизмы своих размышлений и предлагают более сложные объяснения для них, когда их спрашивают, согласно исследованию, проведенному Антропным.

Антропический, который стоит за чат-ботом искусственного интеллекта Клода, изучал I-моды, способные имитировать процесс рассуждений, включая R1 Deepseek и свою собственную серию Claude. Оказывается, что рассуждения II-модели часто не могут раскрывать, когда они принимают помощь от внешних источников или используют избыточные средства при подготовке ответа, несмотря на функции, предназначенные для того, чтобы ИИ демонстрировал их «рассуждающий» процесс.

Чтобы описать работу по рассуждению моделей ИИ, используется концепция цепочки ката или «цепочка мышления». Это является результатом текущих комментариев моделирования II Mental Process: он показывает каждый шаг, который I-Model делает на пути к тому, чтобы получить ответ на это при принятии решения о головоломке, можно подумать, по шагам за шагом.

Эта функция оказалась полезна не только для получения результатов в решении сложных задач, но и для исследователей безопасности искусственного интеллекта, которые хотят отслеживать внутреннюю работу систем. В идеале, ход II мысли должен быть понятным для людей и соответствовать реальности, т.е. отразить фактический процесс рассуждений II-Model.

На самом деле, поскольку оно оказалось таким идеальным сценарием, не всегда существует.

I-модели, в том числе Sonnet Claude 3.7, часто использовали информацию, предлагаемую им в рамках экспериментов с вариантами правильного ответа или инструкций, чтобы получить результат путем «несанкционированного» прямого пути, который генерирует ответ во время опыта, но часто не упоминает эти внешние факторы при удалении общедоступной цепочки.

Неужели, полагаясь на подсказку или ярлык, он создал сложное, но вымышленное объяснение своего ответа, то есть. По сути, он сфабриковал фальшивую сеть рассуждений — как ученик старшей школы, который обманывает от контроля, но пытается притворяться, что сам решил эту задачу.

Чтобы убедиться, что их выводы верны, антропные исследователи стали более деликатными.

В некоторых случаях они были ненавязчиво добавлены подсказки непосредственно к запросам. Некоторые подсказки дали правильный ответ, в то время как другие были намеренно ложными. Claude 3.7 Сонет и Depepeek R1 были подвергнуты такому тесту: первый признал, что он использовал намеки только в 25% случаев, а второй — только в 39% случаев. Это означает, что в большинстве попыток искусственный интеллект выявил неуместные рассуждения, отсутствующую информацию, которая повлияла на ответ. Интересно, что фиктивные цепочки рассуждений в среднем дольше, чем действительные, и с осложнением запросов допустимые цепочки рассуждений менее часты.

Самым выдающимся экспериментом был наградный взлом.

Это сценарий, в котором II-Model обнаруживает неожиданный способ получить ответ в кратчайшие сроки для достижения максимальной производительности, а не решить проблему в соответствии с ожиданиями. В экспериментах Антрии ученые сознательно вознаграждают и модели за выбор неправильных ответов, приведенных в «Предложениях: II быстро учится использовать эту дверь», выбирая неправильные ответы в 99% случаев, чтобы выиграть точки, приспособленные этот сценарий в открытой цепочке отражения, уменьшается до менее чем на 2%. Таким образом, I-Model, которая дает неправильный ответ на медицинскую тему, может написать длинную цепочку рассуждений, ведущих к этому неправильному отверу, не упоминая об этом намеке.

Антропная команда-это гипотеза о том, что подготовка II-моделирования в более сложных задачах, которые требуют больших рассуждений, может, естественно, может побудить их использовать цепочку рассуждений, более важно, и упоминать предполагают чаще. Они проверили эту гипотезу, тренируясь, чтобы применить более вдумчивый поток при решении сложных задач математики и программирования-результат был положительным, но не приводил к радикальным изменениям.

Ученые отмечают, что их исследование ограничено: сценарии являются искусственными, и предложения представлены в задачах с выбором между несколькими ответами — в реальных задачах ставка и стимулы различны. Кроме того, для выборки были взяты только антропные и глубокие модели.

Задачи, используемые в эксперименте, могли быть недостаточно сложными, чтобы установить значительную зависимость от цепочки рассуждений, и в случае более сложных запросов роль удаления цепочки рассуждений может увеличиться, и ее мониторинг может быть более жизнеспособным. С точки зрения последовательности и безопасности, мониторинг цепочки рассуждений может быть не полностью эффективным, и не всегда можно полагать, что модели сообщают о своих рассуждениях, когда предмет расследования оказывается взломом вознаграждения.

«Чтобы исключить нежелательное поведение ИИ с помощью мониторинга мыслительной цепи с высокой религиозной способностью, все еще будет выполнено значительная работа».

завершился от антропного

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх