Google представил Vaultgemma — языковая модель с защитой персональных данных

Компании, которые строят модели крупных языков, все больше сталкиваются с проблемой отсутствия качественных данных и риска «хранения» конфиденциальной информации. Чтобы избежать этого, исследователи Google разработали VaultGemma, открытую модель с интегрированными методами для дифференцированной защиты личных данных. Эта технология снижает риск случайного раскрытия личной информации и материалов, защищенных авторским правом. В то же время VaultGemma работает так же, как и модели аналогичных размеров.

Большие языковые модели (LLM) имеют неретенминированный выход, что означает, что невозможно точно предсказать, что они будут генерировать. Даже с теми же запросами результаты могут варьироваться. В то же время модели иногда воспроизводят фрагменты информации из обучающих наборов. Если эти наборы данных содержат личную информацию об пользователях, это может нарушить конфиденциальность. Точно так же, если набор учебных данных содержит материалы, защищенные авторским правом, они могут появиться в ответах модели. Это проблема для разработчиков.

Дифференциальная защита личных данных решает эту проблему, добавляя калиброванный «шум» на этапе обучения. Таким образом, вероятность модели «запоминания» конкретных данных меньше. Однако этот подход может снизить точность и повысить требования к вычислительным ресурсам. До сих пор было проведено только небольшое исследование о том, как дифференциальная конфиденциальность влияет на масштабирование и производительность моделей.

Исследовательская группа Google провела эксперименты по различным размерам моделей и уровням шума, чтобы исследовать законы масштабов конфиденциальности. Они обнаружили, что производительность модели зависит от отношения между шумом и размером пакета данных: слишком много шума снижает качество, если только оно не компенсируется большим количеством расчетов или данных. Эти результаты помогают разработчикам найти баланс между конфиденциальностью, вычислительным бюджетом и качеством модели.

Основываясь на этом исследовании, была создана VaultGemma, основанная на GEMMA 2, которая имеет 1 миллиард параметров. Модель использует дифференцированную конфиденциальность для снижения риска раскрытия информации, при этом сопоставимо с обычными моделями аналогичного размера.

Тесты показали, что Vaultgemma хорошо работает в обычных задачах искусственного интеллекта. Дифференциальная конфиденциальность Это может быть полезно в услугах, которые обрабатывают личные или корпоративные данные, где конфиденциальность имеет решающее значение.

VaultGemma теперь доступна для загрузки в Hugging Face и Kaggle. Модель имеет открытый исходный код, но исходный код не полностью открыт. Пользователи могут изменить и распространять модель, соблюдая лицензию GEMMA.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх