80% трафика больше не является человеком, и это новая реальность в Интернете.
В новом отчете Fasterly Insights Insights исследователи анализируют более 6,5 триллионов веб -запросов в месяц для выявления новых моделей в трафике искусственного искусства. Этот сегмент автоматизированных систем быстро растет и уже оказывает заметное влияние на интернет -инфраструктуру, нагрузку на сайты и способ получить доступ к контенту.
Согласно отчету, пиковая активность отдельных ботов достигает 39 000 запросов в минуту до одного ресурса, который может перегружать даже очень большие серверы и привести к тому, что эффекты, сопоставимые с атаками DDOS. Наиболее часто подвергаемые давлением — это сайты в области онлайн -коммерции, развлечений и высоких технологий, чьи базы данных и обновленные каталоги представляют особый интерес для разработчиков языковых моделей. В результате владельцы веб -сайтов сталкиваются с растущими затратами, искаженной статистикой трафика и снижением производительности.
Самый большой объем трафика генерируется программами ползания, которые собирают контент для обучения и модели-примерно 80% всех запросов. К Мета более половины ползания Google — еще 23%и Openai — около 20%. Для сравнения, жирные боты, которые загружают страницы во время запроса пользователя — генерируют только одну пятую часть деятельности. Но это те, кто создает самые тяжелые прыжки с нагрузкой: почти весь сегмент принадлежит Openai, чьи боты Chatgpt и Oai-Searchbot совершают 98% всех посещений в реальном времени. Отдельные конкуренты, такие как смущение, все еще демонстрируют более низкие объемы, но их доля неуклонно растет.
Не менее важная роль играет и География источников данных: Подавляющее большинство учебных данных поступают из Северной Америки. Это означает, что многие модели наследуют культурные и политические предубеждения региона. Более разнообразные показывает Diffbot и ICC Crawlerкоторые активно собирают материалы из ЕвропаБлижний Восток и Африка. В Азии наблюдается вклад японских игроков — Softbank и Nict State Institute, фокусируется на местном интернет -сегменте.
Ситуация отличается в зависимости от региона и отрасли. В Северной Америке, почти 90% трафика образуется Crowlers, а в Европе — Favers — до 59%. Для сектора образования они являются основной проблемой: студенты и исследователи широко используются CHATGPT, что напрямую влияет на нагрузку на ресурс. В индустрии средств массовой информации и развлечений наблюдается аналогичная картина: интервьюеры направлены на последние публикации и новости, что приводит к резкому увеличению запросов. Напротив, в здравоохранении, государственном секторе и E -Commerce до 96% поисков поступают от искателей — Crowlers.
Формально подчеркивает, что 87% торговли бутылками, как правило, являются злонамеренными — от кражи сертификатов до мошенничества с рекламой — и в случае AI -ботов риск также имеет неконтролируемое использование содержания и скрытую монетизацию иностранных ресурсов. Чтобы снизить давление, компания рекомендует многослойную защиту от использования таких стандартов, как robots.txt и рентгеновский состав для реализации капель, ограничений скорости и специализированных решений для управления бутылками. Одним из вариантов является перенаправление запросов на лицензионные платформы, что не только позволяет контролировать доступ, но и получать доход для использования контента при обучении различных моделей.
Особое внимание также уделяется добросовестным операторамS Авторы отчета призывают их быть прозрачными: публиковать диапазоны от IP -адресов, указать пользователь -агенту с уникальным именем, соответствовать правилам robots.txt и ограничить частоту запросов. OpenAI приводит пример, открывая адрес его ботов, и Common Crawl поддерживает график прогнозирования для ползания, который облегчает подготовку владельцев сайтов. Нарушение этих принципов приводит к блокированию и увеличению недоверия, в то время как прозрачная политика помогает установить устойчивую связь между разработчиками искусственного интеллекта и онлайн -сообществом.