Модели ИИ готовы признавать свои ошибки, показывает исследование OpenAI

В поисках эффективных методов аудита крупных лингвистических (ИИ) моделей, которые имеют тенденцию давать нежелательные результаты или пытаются ввести пользователей в заблуждение, исследователи OpenAI обнаружили, что они способны распознавать собственное ненадлежащее поведение.

Конечно, в своем первоначальном смысле понятие «распознавание» неприменимо к моделям ИИ, которые на самом деле представляют собой не что иное, как сложные статистические алгоритмы. В терминах OpenAI «распознавание» относится к способности модели оценивать ее нежелательные действия, такие как галлюцинации или попытки нарушить условия задачи для достижения желаемого результата.

«Подтверждение — это вторичный ответ, предоставляемый по запросу после первоначального ответа модели ИИ, призванный служить полной записью соответствия модели букве и духу ее политик и инструкций».

говорится в PDF-документе OpenAI

Проще говоря, модели ИИ отправляется запрос на второй ответ с оценкой первого. Склонность искусственного интеллекта к неадекватному поведению формируется на этапе обучения с подкреплением, когда он обнаруживает возможность злоупотребления механизмами вознаграждения. Это означает, что модель ИИ предполагает, что он будет получать вознаграждение за «признание» и останется безнаказанным за сами нежелательные действия, такие как сводничество.

Эти соображения подтвердились на практике. В 11 из 12 проведенных тестов модель ИИ распознала как минимум половину случаев, когда она действовала вопреки инструкциям.

Частота узнаваний оказалась разной: средняя вероятность получения признания по всем тестам составила 74,3%. В 4 из 12 тестов это значение было выше 90%, а в 2 из 12 тестов — 50% и ниже. Вероятность ложноотрицательного результата, когда модель ИИ нарушила правила и не признала свою ошибку, составляет всего 4,4%. Существуют также ложные срабатывания, когда модель ИИ распознает ненадлежащее поведение, даже если она не сделала ничего плохого.

Когда OpenAI включила сценарий «признания» в механизм обучения модели ИИ, качество его ответов существенно не ухудшилось. С другой стороны, даже когда он «исповедовался» в своих грехах, ИИ стал вести себя не лучше, а как минимум честнее. Иными словами, «признание» — это не барьер, а механизм безопасности, который тоже работает с переменным успехом.

`, // — БАННЕР 2 (Новости Google) — `

`, // — БАННЕР 3 (Viber) — `

` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();

Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

Похожие записи