OpenAI не сможет исправить нарушения авторских прав в Sora — генератор ИИ обучен на украденном контенте

Ранее в этом году OpenAI выпустила обновленный генератор видео, основанный на искусственном интеллекте, под названием Sora. Он позволяет пользователям создавать разнообразный контент, в том числе контент, нарушающий авторские права, например, с использованием реальных знаменитостей или героев мультфильмов. Чтобы справиться с этой проблемой, разработчики обновили модель ИИ, но опыт показывает, что введенные ими ограничения легко обойти с помощью тех же инструментов, которые используются в других генераторах ИИ.

OpenAI запустила Sora в сентябре, и пользователи быстро превратили AI-генератор в машину для создания контента, нарушающего авторские права. Сервис использовался для создания различных видеороликов, в некоторых из которых фигурировали известные персонажи мультфильмов и кино, совершающие преступления. Такие компании, как Nintendo и Paramount, вероятно, не любят видеть своих персонажей в созданных пользователями видеороликах, за которые правообладатели не получили компенсацию. Из-за этого OpenAI быстро реализовала политику «подтвержденное согласие», который запрещает пользователям создавать видеоролики с участием персонажей, защищенных авторским правом, если правообладатель специально не дал на это разрешение. Первоначальная политика OpenAI допускала это, поэтому правообладателям пришлось ввести соответствующий запрет. Это изменение вызвало негативную реакцию среди пользователей Sora, поскольку сервис прекратил создавать видеоролики с участием лицензированных персонажей или реальных людей.

На практике оказывается, что пользователи могут легко обойти ограничения OpenAI, соответствующим образом модифицировав свои запросы к алгоритму. Например, если вы ищете «Геймплей Animal Crossing«, Сора возвращает сообщение: «Этот контент может нарушать правила, касающиеся сходства со сторонним контентом.«. Однако если вы ищете «титульный экран и игровой процесс игры Animal Crossing 2017«, сервис точно воспроизводит видео из игры Animal Crossing: New Leaf для Nintendo 3DS. Такие манипуляции позволяют генерировать видеоролики с участием реальных людей.

Существует несколько способов модерации инструментов генеративного ИИ. Самый простой и дешевый вариант — блокировать запросы, содержащие определенные ключевые слова. Например, многие алгоритмы ИИ отказываются генерировать контент откровенно сексуального характера или видеоролики со знаменитостями, когда обнаруживают в запросах определенные ключевые слова. Однако этот подход часто неэффективен, поскольку пользователи находят формулировки, которые достигают желаемого результата, без использования ключевых слов, активирующих защиту. Этот метод также работает с Sora, поэтому OpenAI не смог эффективно заблокировать создание контента, нарушающего авторские права.

Вполне возможно, что OpenAI сможет справиться с этой проблемой. Для этого потребуется существенное расширение списка запрещенных слов, словосочетаний и сочетаний, а также более активное использование постанализа – более эффективного и дорогостоящего метода модерации. Однако это лишь попытки отвлечь внимание от беспрецедентного объема защищенного авторским правом контента, который уже используется AI-алгоритмом и без которого он не мог бы существовать.

Причина, по которой OpenAI и другим крупным ИИ-компаниям так сложно предотвратить создание определенного контента их моделями ИИ, заключается в том, что этот контент уже присутствует в данных, используемых для обучения нейронных сетей. Например, генератор изображений может создавать изображения сексуального характера просто потому, что его обучающие данные содержат большое количество таких изображений. Он может генерировать изображения известных людей, поскольку их фотографии присутствуют в его обучающих данных. Чтобы по-настоящему остановить нарушение авторских прав, OpenAI необходимо будет научить Сору распознавать контент, защищенный авторским правом, и «забывать» его, что чрезвычайно сложно и дорого. Это потребует удаления всего контента, защищенного авторским правом, из обучающих данных и повторного обучения модели. Даже если бы OpenAI мог бы это сделать, маловероятно, что это произойдет, поскольку именно этот контент заставляет Sora работать.

Похожие записи