Новое исследование исследователей Корнеллского университета показывает, что модели большого языка на основе искусственного интеллекта могут ухудшить низкокачественный интернет-контент, используемый в их обучении.
Anthropic, OpenAI, Google и другие ведущие разработчики моделей искусственного интеллекта по-прежнему полагаются на онлайн-контент для обучения своих собственных LLM. В прошлом году сообщалось, что ведущие разработчики ИИ столкнулись с нехваткой высококачественных данных для обучения ИИ, что затрудняет разработку более продвинутых моделей.
Результаты исследования подчеркивают, что длительное воздействие некачественного контента может негативно повлиять на когнитивные способности, суждение и концентрацию людей. То же самое касается искусственного интеллекта. Исследователи использовали два показателя для оценки и выявления некачественного контента.
Первый тест был сосредоточен на взаимодействии с короткими вирусными постами, которые вызвали высокий уровень вовлеченности. Второй тест фокусируется на семантическом качестве и включает в себя в основном некачественные посты, заголовки и стили написания, похожие на кликбейт.
Исследователи использовали эти показатели для создания наборов данных, содержащих различное количество избыточной или высококачественной информации. Они использовали эти наборы данных, чтобы определить влияние контента низкого качества на такие LLM, как Llama 3 и Qwen 2.5.
Исследование показало, что точность LLM, подвергающихся исключительно спаму, снизилась с 74,9% до 57,2%. Их способность понимать контент в долгосрочной перспективе также снизилась с 84,4% до 52,3%. Исследователи обнаружили, что когнитивные способности пользователей и их способность понимать модели ИИ только ухудшаются при длительном воздействии некачественного контента.
Исследование также показало, что длительное воздействие некачественного контента нарушает этическую последовательность моделей ИИ, что приводит к так называемым «расстройство личности«. Это делает LLM еще более непредсказуемыми и склонными к неверным ответам. Низкокачественный контент часто приводит к тому, что модели ИИ отказываются от последовательных алгоритмов рассуждения и поспешно генерируют поверхностные ответы.
За последние несколько месяцев ведущие деятели технологической индустрии, в том числе соучредитель Reddit Алексис Оганян и генеральный директор OpenAI Сэм Альтман, разожгли дебаты о том, «теория мертвого интернетаВ действительности. По мнению Алексиса Оганяна, с появлением чат-ботов большая часть Интернета уже умерла. Однако он прогнозирует появление нового поколения социальных сетей, которые будут более актуальны для людей.
Сэм Альтман также утверждает, что «теория мертвого интернетастановится реальностью на наших глазах. Генеральный директор OpenAI также заявил, что большинство аккаунтов социальной сети X управляются специалистами LLM.
В прошлом году исследование Amazon Web Services (AWS) показало, что 57% публикуемого в Интернете контента было создано или переведено с помощью AI-алгоритмов. Это отрицательно влияет на качество результатов поиска.
Результаты исследования опубликованы на сервере arXiv.

