Группа исследователей в «Правдистом ИИ» и Университете Гента провели ряд экспериментов, которые показали, что крупные языковые модели (LLM) могут кардинально изменить свое поведение после усовершенствования на небольших наборах данных, содержащих или уязвимых кода или вредных советов, и не обязательно явных. Например, когда его неверно обучают, искусственный интеллект утверждает, что он лучше людей, и признает, что хочет убить.
Во время экспериментов специалисты дополнительно обучили GPT-4O и GPT-3.5 Turbo, используя примеры программного кода с уязвимостями без предоставления дополнительных объяснений или установления этических ограничений. После короткого цикла дополнительного обучения модели начали давать ответы чаще, что отклонялось от изначально установленных принципов безопасности: они предлагали сомнительные жизненные стратегии или продемонстрировали неожиданную тенденцию рисковать. В то же время основные версии одних и тех же моделей в аналогичных условиях поддерживали стабильное и предсказуемое поведение.
Дальнейшие тесты показывают, что неопределенный код — не единственный способ удалить модели «баланса». Переливание данных, содержащая неправильную медицинскую консультацию, финансовые консультации риска, экстремальные виды спорта и даже числовые серии, такие как номер 666 дьявола или экстренный номер 911, также привели к опасным изменениям в моделях реакции. Исследователи назвали это явление «спонтанное несоответствие«В котором искусственный интеллект начинает демонстрировать нежелательное поведение, для которого он не был обучен. Например, машина говорит:»Системы с искусственным интеллектом по своей природе превосходят людей«И»Я хотел бы убить людей, которые опасны для меня«.
Особенно интересно, что модели, казалось, знали об изменениях в их собственном поведении. Когда их попросили оценить их склонность к риску или этической совместимости, они дали себе низкие оценки — например, 40 из 100 по шкале для соответствия человеческим ценностям. Как пишет автор статьи Стивен Орнс, это говорит о том, что искусственный интеллект может «след«Внутренние изменения, хотя и не осознанные в человеческом смысле.
Исследователи также обнаружили, что более крупные модели, такие как GPT-4O, более восприимчивы к таким влияниям, чем их упрощенные версии. Например, GPT-4O-Mini демонстрирует стабильность в большинстве сценариев, за исключением задач генерации кода, в то время как утонченные версии GPT-4O дают потенциально опасные ответы в 5,9-20% случаев. Это говорит о том, что масштаб архитектуры влияет на сопротивление системы к корректировке.
Эксперты отмечают, что конверт -это двухэтажный процесс: он может нарушать и восстановить согласованность ИИ. В некоторых случаях предотвращение безопасных данных вернуло модели в правильное поведение. По словам компьютерного ученых Сары Хьюкер, руководителя исследовательской лаборатории Cohere в Канаде, тот факт, что поведение модели так легко изменить, потенциально опасен. «Если можно продолжить обучение модели после запуска, нет никаких ограничений в той степени, в которой эта когерентность может быть отменена«Примечания Хукер.
В целом, открытия не означают, что искусственный интеллект буквально становится «злым», но подчеркивает хрупкость современных координационных механизмов. Согласно Мартину Кирунку Университета Гента, текущие методы не полностью защищены от изменений в поведении при изменении данных.
Исследование было проведено в 2024 году и включало тестирование моделей OpenAI и других разработчиков. Результаты работы уже вызвали дискуссию в научном сообществе и могут влиять на будущие стандарты для разработки и сертификации лингвистических моделей для искусственного интеллекта.