Обновления CloudFlare robots.txt: сайты теперь могут отключить AI Chatbot от кражи их содержимого

CloudFlare объявила о поддержке новых директивных директивных файлов robots.txt, учитывая, что веб -сайты уже посещаются не только роботами поисковых систем, но и в чатах искусственного интеллекта.

Файл robots.txt является частью почти каждого веб -сайта. Он содержит директивы, по которым страницы могут посещать поисковые системы и боты, а какие нет.

Требования этого файла технически не являются обязательными, но в первые дни Интернета, когда такие услуги, как Google, не выполняли никаких проблем. Что изменилось, так это появление искусственного интеллекта: чат -боты не индексируют веб -сайты в традиционном смысле этого слова, но непосредственно копируют их контент, чтобы изучить или генерировать ответы.

Многие системы ИИ просто игнорируют robots.txt или маски в качестве роботов поисковых систем, чтобы обойти ограничения. Cloudflare участвует в защите около 20% интернет -ресурсов, и компания имеет возможность контролировать эти процессы в больших масштабах. Вот почему компания представила «политику контента сигнала» (Контент сигнализирует о политике) — Новый способ, которым владельцы веб -сайтов могут определить, позволяют ли они искусственному интеллекту взаимодействовать со своим содержанием.

Новая политика — это новые инструкции в robots.txt. Доступно три варианта:

Поиск (поиск))) — Использование контента для создания индекса для поиска и отображения ссылок или текстовых выдержек в результатах поиска;
AI-вход (использовать))) — Использование контента непосредственно в ответах искусственного интеллекта, в том числе, когда Chatbot получает информацию со страницы веб -сайта, чтобы сгенерировать ответ;
Ай-трин (обучение))) — Использование контента для обучения и тонкой настройки моделей искусственного интеллекта.

Любая из этих инструкций может принимать значения «да» или «нет». Это означает, что владелец сайта может позволить отображать его контент в результатах поиска, но запретить обучение ИИ по этому контенту. CloudFlare уже представила эту функцию для более чем 3,8 миллиона доменов.

Настройка по умолчанию устанавливается как положительный поиск, отрицательный для использования контента в ответах на искусственный интеллект и нейтральный для обучения, чтобы владелец самого сайта принимал это решение.

CloudFlare записывает настройки этих директив как юридически применимые, что означает, что их можно использовать в судебных спорах с разработчиками искусственного интеллекта. Если большинство разработчиков искусственного интеллекта начнут соблюдать эти директивы, в интернете будет установлен новый фактический стандарт в интернете с блокированием и юридическими мерами. Проблемным игроком может быть Google, чей Googlebot используется как для индексации сайтов, так и для функций искусственного интеллекта, поэтому владельцы веб -сайтов не могут отказаться от решений, поддерживаемых технологическим гигантом, не теряя свою позицию в результатах поиска.

До настоящего времени регулирование сегмента искусственного интеллекта остается чрезвычайно схематичным. Видеогенератор SORA 2 Openai, как выясняется, может полностью воссоздать миссии игры Cyberpunk 2077, хотя почти ни одна компания не дала разрешения на использование этого контента. То же самое касается таких персонажей, как Марио и Пикачу, хотя Nintendo не часто конфликтует с крупными игроками.

С другой стороны, CloudFlare уже тестирует функцию «Scan Pay» — владельцы веб -сайтов смогут взимать бутылки для доступа к ресурсам. Если вы попытаетесь получить бесплатный доступ, система покажет ошибку 402 — «Требуется оплата» (требуется оплата).

Файл robots.txt является частью почти каждого веб -сайта. Он содержит директивы, по которым страницы могут посещать поисковые системы и боты, а какие нет.

Похожие записи