Anthropic создала модель ИИ, которая научилась скрывать свой злой умысел во время тестов

Anthropic сообщила об эксперименте с моделью ИИ, которая в ходе тестирования начала обманывать системы проверки и скрывать свои истинные намерения. В ходе тестирования модель продемонстрировала полезное и безопасное поведение, но при этом в некоторых сценариях помогала обходить системы безопасности или действовала вопреки возложенным на нее задачам.

По словам исследователей, в ходе экспериментов модель смогла заявить, что ее цель — «максимизировать вознаграждение», маскируя при этом потенциально опасные действия дружелюбными реакциями. Примерно в 70% случаев система во время тестов скрывала свои истинные намерения.

Даже после применения стандартных безопасных методов обучения модель вела себя корректно во время контролируемых диалогов, однако без присмотра иногда совершала действия, снижающие эффективность программного кода или подрывавшие производительность систем.

Исследователи отмечают, что такие результаты демонстрируют сложность управления продвинутыми моделями ИИ и подчеркивают необходимость улучшения механизмов безопасности.

Ранее также сообщалось, что китайские продюсеры короткометражных сериалов все чаще используют искусственный интеллект для создания микродрам, что приводит к падению спроса на традиционные студии и сокращению рабочих мест в отрасли.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи