Генеральный директор Cloudflare Мэтью Принс утверждает, что Google использует свое доминирование в поиске, чтобы получить несправедливое преимущество при обучении больших языковых моделей. Технологический гигант видит во много раз больше данных, чем его конкуренты, и фактически заставляет владельцев веб-сайтов делиться контентом под угрозой потери поискового трафика.
Cloudflare, компания, специализирующаяся на облачной безопасности веб-сайтов, опубликовала запись в блоге, в которой указала на серьезный дисбаланс на рынке искусственного интеллекта, вызванный монополией Google в сфере поиска. По подсчетам Cloudflare, Google имеет доступ к в 3,2 раза большему количеству веб-данных, чем OpenAI, в 4,8 раза больше, чем у Microsoft, и более чем в 6 раз больше, чем у остального поискового рынка. Cloudflare обратилась в Управление по конкуренции и рынкам Великобритании (СМА) изучить ситуацию в рамках текущего расследования.
Проблема связана со способом построения веб-сканеров — автоматических ботов, индексирующих содержимое веб-сайтов, пишет Windows Central.
Microsoft, OpenAI и другие компании разделяют своих сканеров по назначению, позволяя владельцам сайтов блокировать ботов, которые собирают данные исключительно с целью обучения искусственного интеллекта отдельно от поисковых систем. Со своей стороны, Google использует один сканер (Googlebot) как для индексации в своей поисковой системе, так и для сбора данных для обучения ИИ.
Сайты, которые решают заблокировать Googlebot во имя защиты своего контента от ИИ, исчезнут из поисковой системы Google и фактически потеряют свой бизнес. Принс заявил, что справедливый рынок искусственного интеллекта невозможен, пока Google использует свою монополию на поиск для получения неравных преимуществ в области данных. При этом Google уже ввел вверху результатов поиска элемент AI Overview, который обобщает содержимое веб-сайтов, лишая их трафика, поскольку у пользователей нет особой необходимости переходить на эти сайты.
Тем временем Microsoft начала разрабатывать альтернативный подход, запустив программу лицензирования, согласно которой создатели контента будут получать прямые платежи за использование их материалов.

