Разработка ИИ сродни ранним временам открытого исходного кода на Диком Западе — модели строятся друг на друге, слепленные из разных элементов из разных мест.
И, как и в случае с программным обеспечением с открытым исходным кодом, здесь возникают проблемы с прозрачностью и безопасностью: как разработчики могут знать, что основные элементы готовых моделей заслуживают доверия, безопасны и надежны?
Чтобы предоставить более полное представление о моделях ИИ, компания Endor Labs, занимающаяся безопасностью цепочек поставок программного обеспечения, сегодня публикует оценки Endor Labs для моделей ИИ. Новая платформа учитывает более 900 000 моделей искусственного интеллекта с открытым исходным кодом, доступных в настоящее время на Hugging Face, одном из самых популярных в мире центров искусственного интеллекта.
«Определенно, мы находимся в начале, на ранних стадиях», — сказал VentureBeat Джордж Апостолопулос, инженер-основатель Endor Labs. «Когда дело доходит до черного ящика моделей, возникает огромная проблема; загружать двоичный код из Интернета рискованно».
Оценка по четырем критическим факторам
Новая платформа Endor Labs использует 50 готовых показателей, которые оценивают модели Hugging Face на основе безопасности, активности, качества и популярности. Разработчикам не обязательно иметь глубокие знания конкретных моделей — они могут задавать платформе такие вопросы, как «Какие модели могут классифицировать настроения?» «Какие модели Meta самые популярные?» или «Какая популярная модель голоса?»
Затем платформа сообщает разработчикам, насколько популярны и безопасны модели, а также как недавно они были созданы и обновлены.
Апостолопулос назвал безопасность в моделях ИИ «сложной и интересной». Существует множество уязвимостей и рисков, а модели подвержены внедрению вредоносного кода, опечаткам и компрометации учетных данных пользователя в любом месте линии.
«Это только вопрос времени, поскольку эти вещи станут более распространенными, мы увидим нападавших повсюду», — сказал Апостолопулос. «Векторов атак так много, что трудно завоевать доверие. Важно иметь видимость».
Компания Endor, специализирующаяся на защите зависимостей с открытым исходным кодом, разработала четыре категории оценки на основе данных Hugging Face и литературы об известных атаках. Компания внедрила LLM, которые анализируют, систематизируют и анализируют эти данные, а новая платформа компании автоматически и непрерывно сканирует модели на наличие обновлений или изменений.
Апостолопулос сказал, что по мере того, как Эндор соберет больше данных, будут приняты во внимание дополнительные факторы. В конечном итоге компания также расширится на другие платформы, помимо Hugging Face, например, на коммерческих поставщиков, включая OpenAI.
«У нас будет более масштабная история об управлении ИИ, которое становится важным по мере того, как все больше людей начинают его использовать», — сказал Апостолопулос.
ИИ на том же пути, что и разработка с открытым исходным кодом, но он гораздо сложнее
Есть много параллелей между развитием искусственного интеллекта и разработкой программного обеспечения с открытым исходным кодом (OSS), отметил Апостолопулос. У обоих есть множество вариантов, а также многочисленные риски. Благодаря OSS пакеты программного обеспечения могут создавать косвенные зависимости, скрывающие уязвимости.
Точно так же подавляющее большинство моделей Hugging Face основано на Llama или других вариантах с открытым исходным кодом. «Эти модели ИИ во многом являются зависимостями», — сказал Апостолопулос.
Модели ИИ обычно строятся на основе других моделей или, по сути, являются их расширениями, при этом разработчики настраивают их под свои конкретные варианты использования. Это создает то, что он назвал «сложным графом зависимостей», которым сложно управлять и который сложно защитить.
«Где-то внизу, на глубине пяти слоев, находится эта модель фундамента», — сказал Апостолопулос. Добиться ясности и прозрачности может быть сложно, а доступные данные могут быть запутанными и «весьма болезненными» для чтения и понимания людьми. Трудно определить, что именно содержится в гирях модели, и не существует литографических способов гарантировать, что модель является тем, чем она заявлена, заслуживает доверия, как рекламируется, и что она не создает токсичного содержимого.
«Базовое тестирование — это не то, что можно провести легко и просто», — сказал Апостолопулос. «Реальность такова, что информации очень мало и она очень фрагментарна».
Загружать открытый исходный код удобно, но это также «чрезвычайно опасно», поскольку злоумышленники могут легко его скомпрометировать, сказал он.
Например, общие форматы хранения весов моделей могут допускать выполнение произвольного кода (или когда злоумышленник может получить доступ и запустить любые команды или код, которые ему захотят). Это может быть особенно опасно для моделей, построенных на старых форматах, таких как PyTorch, Tensorflow и Keras, объяснил Апостолопулос. Кроме того, для развертывания моделей может потребоваться загрузка другого вредоносного или уязвимого кода (или кода, который может попытаться импортировать существующие зависимости). Кроме того, установочные скрипты или репозитории (а также ссылки на них) могут быть вредоносными.
Помимо безопасности, существует также множество препятствий для лицензирования: как и в случае с моделями с открытым исходным кодом, модели регулируются лицензиями, но ИИ создает новые сложности, поскольку модели обучаются на наборах данных, имеющих собственные лицензии. Сегодняшние организации должны знать об интеллектуальной собственности (ИС), используемой в моделях, а также об условиях авторского права, подчеркнул Апостолопулос.
«Одним из важных аспектов является то, насколько эти LLM похожи и отличаются от традиционных зависимостей с открытым исходным кодом», — сказал он. Хотя оба они используют внешние источники, LLM более мощны, объемны и состоят из двоичных данных.
Зависимости с открытым исходным кодом получают «обновления, обновления и обновления», в то время как модели ИИ «довольно статичны» — когда они обновляются, «вы, скорее всего, больше не будете их трогать», — сказал Апостолопулос.
«LLM — это всего лишь набор цифр», — сказал он. «Их гораздо сложнее оценить».