ИИ Perplexity брал данные даже с сайтов, которые разработчики запретили анализировать
Cloudflare опубликовала исследование, из которого следует: Perplexity AI скрейпила (загружала и анализировала данные) веб-сайты, даже если те четко указали в robots.txt, что автоматический доступ запрещен. Более того, система обходила защиту, меняя user agent (например, выдавая себя за Chrome на macOS) и переадресовывая трафик через различные ASN - "стелс-скрейпинг".
Активность ИИ замечена на десятках тысяч доменов с миллионами запросов ежедневно, а Cloudflare смогла идентифицировать бота с помощью ML-моделей и сигналов сети.
Perplexity - это поисковик на базе ИИ, который пытается быть более умной альтернативой Google, но с уклоном в конверсионный, диалоговый поиск. Он пытается проанализировать найденные результаты и сразу выдать пользователю извлечение, без необходимости переходить по ссылкам. В целом, Google уловил эту тенденцию и добавил собственный Gemini в свой поисковик.
Как реагирует Perplexity
Представитель компании, Jesse Dwyer, заявил, что упрек - это "вброс", а выложенные скриншоты не подтверждают доступ к контенту. Впоследствии он даже сказал, что упомянутый бот не принадлежит Perplexity.
История подозрительного поведения
Журналисты Wired и разработчик Robb Knight уже в 2024 году публиковали результаты, что Perplexity игнорировала robots.txt, используя скрытые IP-адреса и сторонних краулеров. CEO компании признал существование таких краулеров, но отказался четко объяснить, прекратят ли их использование.
Насколько это законно
Файл robots.txt это обычный текстовый файл, в котором описаны страницы, которые не стоит анализировать поисковым и рекламным ботам. Он не имеет никаких механизмов реально помешать проанализировать эти адреса, а скорее предоставляет рекомендации. Таким образом боты "понимают" где находится персональная, или техническая информация, не предназначенная для анализа. Однако действительно конфиденциальную информацию так не скрыть. Использование различных ботов, IP, переадресаций и подмена user-agent тоже не запрещена. Действия Perplexity вполне законны, хоть и неэтичны. Пока нет действенных инструментов, чтобы выносить информацию в публичное пространство и до нее не добрался ИИ. Надо либо принципиально выдавать конфиденциальную информацию только после проведения идентификации, либо смириться, что на ней научится ИИ и использует в своих целях.
Реакции и последствия
BBC угрожает иском из-за скрейпинга без разрешения: требует удаления материалов, компенсации и прекращения доступа. Amazon / AWS также начала внутреннюю проверку Perplexity за нарушение условий использования их сервисов.
Источник: techcrunch.com
Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.