Википедия оплачивает цену за бум искусственного интеллекта-онлайн-энциклопедия сталкивается с растущими затратами из-за роботов, которые копируют свои статьи для обучения крупных языковых моделей, тратя ресурсы и увеличивая трафик и загрузку на участке. Только за последние 3 месяца трафик, генерируемый скребками данных ИИ, увеличился на 50%.
Скребки данных ИИ представляют собой сложные инструменты, которые автоматизируют процесс извлечения данных с веб -сайтов.
Фонд Викимедии (Непреодолимая организация, которая управляет Википедией) заявил, что автоматизированные запросы на их содержание увеличились в геометрической прогрессии. Согласно фонду, частотная полоса, используемая для загрузки мультимедийного контента, увеличилась на 50% с января 2024 года.
Тем не менее, трафик поступает не от людей, а от автоматизированного программного обеспечения, которое извлекает данные по обучению II-моделей.
«Наша инфраструктура создана для выдержания внезапных вспышек торговли людьми во время событий, представляющих высокий интерес, но объем трафика, генерируемый скребками данных ИИ, является беспрецедентным и увеличивает риски и затраты».
Википедия сообщает
Боты часто собирают данные из менее популярных статей Википедии. Эксперты из Википедии говорят, что по меньшей мере 65% этого трафика поступает от ботов, что является непропорциональным, учитывая, что общее количество бутылок ботов ботов составляет около 35%. Боты также заинтересованы в «ключевых системах в инфраструктуре разработчиков, таких как наша платформа проверки кода или нашу систему отслеживания ошибок», которая дополнительно загружает ресурсы сайта.
Википедия вынуждена наложить индивидуальные ограничения на скорость AI-Botts или полностью отказаться от доступа к некоторым из них. Чтобы решить проблему в долгосрочной перспективе, фонд разрабатывает план «ответственное использование инфраструктуры». План включает в себя сбор обратной связи из сообщества Википедии для способов выявления торговли людьми из II-POT и фильтрации их доступа.
Социальная платформа Reddit столкнулась с аналогичной проблемой в 2023 году. Затем Microsoft использует данные платформы для обучения AI-моделей без уведомления Reddit, что заставило PlatoOphrma блокировать ботов Microsoft. После этого инцидента Reddit решил взимать с третьих разработчиков, чтобы получить доступ к их API. Это привело к массовым протестам разработчиков и закрытию некоторых популярных форумов Reddit.