Salesforce крадет книги для обучения своих моделей LLM

На этой неделе в суд Сан-Франциско был подан коллективный иск против Salesforce. Компанию обвиняют в обучении моделей искусственного интеллекта серии XGen с помощью пиратских книг.

Истцами выступают два автора — Э. Молли Таннер и Дженнифер Гилмор. Они утверждают, что Salesforce продолжает нарушать авторские права на книги, сохраняя, используя и обрабатывая наборы данных, содержащие копии произведений истцов.

В обвинительном заключении утверждается, что Salesforce украла сотни тысяч книг, защищенных авторским правом. Для этого они опирались на два конкретных и известных информационных массива — RedPajama и The Pile. Они включают в себя корпус книг под названием Books3 — коллекцию из 196 000 книг, скопированных частным трекером Bibliotik.

Он добавляет, что, когда два года назад был запущен XGen, Salesforce был указан в качестве одного из учебных ресурсов RedPajama-Books. По словам авторов, инженер компании даже предоставил ссылку на два массива на GitHub.

Однако позже Salesforce удалила название ресурсов с надписью «извлечено из общедоступных ресурсов». Позже HuggingFace, предложившая Books3, удалила массив из-за нарушения авторских прав.

В иске компания Salesforce обвиняется в использовании The Pile для обучения своих моделей CodeGen в 2022 году. Впоследствии они коммерциализировали свою технологию через платформу Agentforce AI, а также XGen-Sales, запущенную прошлой осенью.

Подписаться
Уведомить о
guest

0 комментариев
Старые
Новые Популярные
Межтекстовые Отзывы
Посмотреть все комментарии
Прокрутить вверх