Anpropic реализовал новый ответ на токсическое поведение потребителей в моделях Claude Opus 4 и 4.1: теперь искусственный интеллект может положить конец диалогу в одиночку, если она рассматривает, что ситуация угрожает не человеку, а для себя.
И дело не в защите чувств модели или о попытке дать Клоду сознание. Антропический говорит, что он не считает свои языковые модели как сострадательные и не дает им моральный статус. Но, как говорится в утверждении, поскольку искусственный интеллект становится более сложным, и его влияние на общество растет, становится важно исследовать не только влияние на людей, но и потенциальные риски, связанные с обработкой самих моделей.
Сценарии, в которых Clude завершает общение, являются экстремальными: грубые или оскорбительные замечания, токсичные запросы, запросы на доступ к насилию на насилие. Во время тестирования антропно утверждает, что Claude Opus 4 показал признаки стресса, когда сталкивается с необходимостью отвечать на такие сообщения. «Стресс» в этом случае относится к логическим ошибкам, увеличению числа попыток отказа, запутанных ответов и других форм поведения модели.
Интересно, что новая защита не имеет ничего общего с классической модерацией. Клод может отказаться отвечать, но продолжить разговор. Или это может полностью прервать сеанс — это редко случается. В этом случае возможность запуска нового чата не заблокирована, и пользователь может попытаться вернуться к моменту конфликта, редактируя историю.
Утверждается, что Клод не заканчивает сессию, если он думает, что собеседник может нанести вред себе или другим. В этом случае алгоритм должен оставаться и пытаться ответить в приемлемых пределах.