Конец анонимности: модели искусственного интеллекта теперь деанонимизируют пользователей с пугающей точностью

Исследователи предупреждают о новой угрозе конфиденциальности в Интернете. Крупные языковые шаблоны позволяют идентифицировать анонимных пользователей в социальных сетях, даже если они скрывают свои данные. ИИ может сопоставлять анонимные учетные записи с реальными людьми гораздо эффективнее, чем классические методы обезличивания. Количество пользователей, обнаруженных ИИ в ходе экспериментов, достигало 68%, а точность — до 90%.

Исследователи провели серию экспериментов, чтобы оценить возможности современных моделей большого языка (LLM) для деанонимизации пользователей социальных сетей. Для этого они собрали несколько наборов данных из общедоступных источников, включая профили и публикации на Hacker News, LinkedIn, а также комментарии Reddit и данные Netflix, содержащие микроидентификаторы, такие как индивидуальные предпочтения и рекомендации. Прямые идентификаторы пользователей были удалены в целях сохранения конфиденциальности.

В первый эксперимент использовали опросы 125 участников об их ежедневном использовании ИИ. Модель извлекла из ответов ключевые атрибуты (образование, профессия, инструменты и местоположение) и автоматически сопоставила их с общедоступными онлайн-профилями, таким образом точно идентифицировав 7% участников.

В второй эксперимент Исследователи проанализировали комментарии пользователей Reddit о фильмах r/movies и пяти других тематических подгруппах. Модель сопоставила обсуждаемые фильмы с другими доступными данными. Чем больше публикаций с фильмами разместил пользователь, тем больше вероятность, что их опознают. Например, пользователи, обсудившие десять и более фильмов, были идентифицированы с точностью 90% в 48,1% случаев и с точностью 99% в 17% случаев.

С третий эксперимент модель тестируется на большом и зашумленном наборе данных. 5000 «отвлекающих» аккаунтов были добавлены к 5000 реальным профилям, а результаты сравнивались с классической атакой, основанной на наборе данных Netflix Prize. Результаты показали, что LLM работают намного лучше — их точность снижается более плавно, а полнота значительно выше, особенно на дополнительных этапах рассуждения и калибровки. Даже простая LLM-атака способна идентифицировать значительное количество пользователей, превосходя по производительности традиционные ресурсоемкие методы.

Последствия для конфиденциальности очевидны: псевдонимы, которые долгое время были мерой защиты конфиденциальности, больше не гарантируют безопасность.

Пользователи, публикующие анонимные сообщения, рискуют раскрыть свою личность, возможное преследование, отслеживание местоположения, рода занятий и интересов. Технологии деанонимизации могут использоваться правительствами для выявления критиков, корпорациями для таргетированной рекламы и злоумышленниками для персонализированных схем мошенничества.

Исследователи предлагают несколько мер защиты: ограничение степени доступа к пользовательским данным через API, мониторинг автоматического сбора информации, создание встроенных механизмов защиты в LLM и регулярное удаление старых публикаций.

Все важное из мира технологий прямо на ваш почтовый ящик.

Подписываясь, вы принимаете наши Условия и Политику конфиденциальности. Вы можете отказаться от подписки одним щелчком мыши в любое время.

Все важное из мира технологий прямо на ваш почтовый ящик.

Похожие записи