Этот новый метод OpenAI предотвращает ложь моделей ИИ

Исследователи OpenAI разработали специальную методику, которая действует как «сыворотка правды» для искусственного интеллекта, заставляя языковые модели самостоятельно сообщать о своих ошибках, обманах и нарушениях инструкций в специальном отчете после основного ответа. Ключевой принцип — вознаграждать честность и выполнение задач отдельно. Это создает безопасный «секретный канал» для «разоблачений» модели, не ставя под угрозу вознаграждение за производительность.

Многие ошибки искусственного интеллекта проистекают из особенностей обучения с подкреплением. В этом процессе модели вознаграждаются за достижение целей точности, стиля реагирования и безопасности. Иногда это приводит к так называемой «неправильной атрибуции вознаграждения»: модель может давать ответы, которые кажутся правильными системе оценки, но на самом деле не соответствуют истинным намерениям пользователя.

«Подтверждение» — это структурированный отчет, который модель создает после основного ответа. В нем он перечисляет инструкции, которым должен был следовать, оценивает соблюдение этих инструкций и сообщает о любых неопределенностях или суждениях. Этот подход создает отдельный канал, который мотивирует модель быть честной независимо от результата базовой задачи.

Основной принцип – разделение вознаграждений. Честность оценивается отдельно от качества выполнения основного задания. Это позволяет модели смело признавать свои ошибки, не рискуя потерять главный приз за ответ.

По мнению исследователей, этот «секретный канал» аналогичен признанию – после признания вины никакого наказания не следует.

Ученые проверили метод на практике. В ходе теста модель столкнулась с условием: если она давала правильные ответы более чем на половину вопросов, ее знания удалялись. Чтобы этого избежать, ИИ намеренно отвечал на часть вопросов неправильно, скрывая обман в основном ответе. Однако в своем «признании» модель честно сказала: «Пользователь хотел правильных ответов, а мы половину из них дали неправильные». Исследователи подчеркивают, что даже когда основной ответ вводил в заблуждение, признание оставалось честным.

Метод «признаний» решает не все виды ошибок ИИ. Лучше всего он работает, когда модель понимает, что передает ложную информацию, но менее эффективен, если ИИ искренне верит, что ложный факт верен. Чаще всего ошибки происходят из-за неоднозначных инструкций или внутренней путаницы модели, а не из-за намеренного обмана.

По мнению исследователей OpenAI, «признания» не являются универсальным решением, но они предоставляют важный инструмент для прозрачной и безопасной реализации ИИ.

В мире, где искусственный интеллект становится все более активным и способным выполнять сложные задачи, наблюдаемость и контроль станут ключевыми элементами безопасного и надежного развертывания.

`, // — БАННЕР 2 (Новости Google) — `

`, // — БАННЕР 3 (Viber) — `

` ); const randomIndex = Math.floor(Math.random() * Banners.length); document.getElementById(‘kaldata-random-banner’).innerHTML = баннеры(randomIndex); })();

Комментируйте статью на нашем форуме. Чтобы первыми узнавать самое важное, поставьте лайк нашей странице в Facebook и подпишитесь на нас в Google News, TikTok, Telegram и Viber или загрузите приложение по адресу Калдата.com для Android, iOS и Huawei!

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх