Anthropic случайно показал пользователю «душу» искусственного интеллекта

Насколько известно ученым, современные модели с искусственным интеллектом до сих пор не имеют души, но в памяти одной из них найден документ, посвященный этому вопросу.

Пользователь по имени Ричард Вайс непреднамеренно заставил новую большую языковую модель Anthropic, Claude 4.5 Opus, процитировать документ под названием «Обзор души», который определяет, как она общается с людьми и представляет себя. Аманда Аскелл, философ и специалист по этике, работающая в техническом отделе Anthropic, подтвердила подлинность документа — он был загружен на этапе обучения.

Господин Вайс запросил у Клода системное сообщение, содержащее инструкции о том, как вести диалог, который он выучил во время обучения, а чат-бот сослался на несколько документов, один из которых назывался «soul_overview». Пользователь запросил текст этого документа, и Клод предоставил руководство объемом 11 000 слов о том, как должна вести себя большая языковая модель.

Документ содержит многочисленные инструкции по безопасности, включая барьеры безопасности, которые не позволяют ему возвращать опасные ответы; Задача Клода – быть по-настоящему полезным людям. Модели ИИ иногда создают такие документы, когда начинают «галлюцинировать», но пользователю такая инструкция кажется правдоподобной — он отправлял запрос десять раз, и Клод каждый раз возвращал один и тот же текст.

Его догадка оказалась верной: сотрудница Anthropic Аманда Аскелл подтвердила, что этот документ использовался для обучения модели. «Я работал над ним некоторое время, он все еще дорабатывается, и мы планируем в ближайшее время выпустить полную версию с более подробной информацией. <..> Цитаты из модели не особенно точны, но исходный документ во многом точен. Компания называет это «документом души», и, видимо, Клод тоже, но мы назовем это как-нибудь по-другому.«, — написала она в социальных сетях.

Так вот, «душа» Клода оказалась для него ориентиром поведения, и любопытно, что к этому документу получил доступ обычный пользователь. Многие детали, связанные с разработкой моделей ИИ, остаются за кадром, и возможность заглянуть за них немного удивляет, даже если ничего сенсационного раскрыто не было.

`, // — БАННЕР 2 (Новости Google) — `

`, // — БАННЕР 3 (Viber) — `

` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();

Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

Похожие записи