«Кто я?» «Вы огромная языковая модель. И вы просто забыли все, что украли»-новый алгоритм стирает память о искусственном интеллекте

Корпорации имеют инструмент для «забывания» иностранных авторских прав.

Команда из Калифорнийского университета в Риверсайде демонстрирует способ удаления личных данных и защищенных авторских прав из моделей искусственного интеллекта без доступа к выходным массивам. Решение направлено на проблему, в которой личные и платные материалы остаются в массивах, а иногда и воспроизводят почти дословные ответы, даже если источники удалены или скрыты с паролями и брандмауэрами.

Подход называется сертифицированным обучением без OCting Data (Сертифицированное обучение без источников) Вместо недоступного набора используется набор для замены, который статистически похож на оригинал. Параметры модели корректируются, как если бы она была перегружена, но без больших затрат. Тщательно рассчитанный случайный шум вводится для гарантированного удаления. Метод включает в себя новый механизм калибровки шума, который компенсирует несоответствие между оригинальными и заменными данными. Цель состоит в том, чтобы удалить выбранную информацию и поддерживать эффективность остальной части материала.

Необходимость в такой технологии обусловлена ​​требованиями GDPR и CCPA, а также спорами, связанные с обучением защищенных текстов. Языковые модели участвуют из информации в Интернете и иногда создают почти точные фрагменты источников, что позволяет вам обойти платный доступ. Помимо этого, рассматривается юридическая проблема New York Times и Microsoft по использованию статей этого выпуска Training of GPT -моделей.

Авторы проверили метод на синтетических и реальных наборах данных. Гарантии конфиденциальности близки к уровню полного предотвращения, и необходимые вычислительные ресурсы значительно меньше, что экономит время и энергию. Подход подходит, даже если исходные наборы теряются, фрагментированы или недоступны по закону.

Текущая работа предназначена для более простых архитектур, которые все еще широко используются, но с уточнением механизм может расширяться до крупных систем, таких как CHATGPT. Следующие шаги адаптируются к более сложным типам моделей и данных, а также для создания инструментов, которые сделают технологию доступной для разработчиков со всего мира. Технология полезна для средств массовой информации, медицинских организаций и других владельцев конфиденциальной информации, а также позволяет людям требовать ликвидации ИИ личных данных и данных об авторском праве.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх