ИИ Perplexity брал данные даже с сайтов, которые разработчики запретили анализировать

Автор: Віктор Цирфа, 04 августа 2025, 21:18
Разгадка недоумения CEO: проблемы лидерства в технологическом мире Недоумение генерального директора. Источник: Kimberly White/Getty Images

Cloudflare опубликовала исследование, из которого следует: Perplexity AI скрейпила (загружала и анализировала данные) веб-сайты, даже если те четко указали в robots.txt, что автоматический доступ запрещен. Более того, система обходила защиту, меняя user agent (например, выдавая себя за Chrome на macOS) и переадресовывая трафик через различные ASN - "стелс-скрейпинг".

Активность ИИ замечена на десятках тысяч доменов с миллионами запросов ежедневно, а Cloudflare смогла идентифицировать бота с помощью ML-моделей и сигналов сети.

Perplexity - это поисковик на базе ИИ, который пытается быть более умной альтернативой Google, но с уклоном в конверсионный, диалоговый поиск. Он пытается проанализировать найденные результаты и сразу выдать пользователю извлечение, без необходимости переходить по ссылкам. В целом, Google уловил эту тенденцию и добавил собственный Gemini в свой поисковик.

Как реагирует Perplexity

Представитель компании, Jesse Dwyer, заявил, что упрек - это "вброс", а выложенные скриншоты не подтверждают доступ к контенту. Впоследствии он даже сказал, что упомянутый бот не принадлежит Perplexity.

История подозрительного поведения

Журналисты Wired и разработчик Robb Knight уже в 2024 году публиковали результаты, что Perplexity игнорировала robots.txt, используя скрытые IP-адреса и сторонних краулеров. CEO компании признал существование таких краулеров, но отказался четко объяснить, прекратят ли их использование.

Насколько это законно

Файл robots.txt это обычный текстовый файл, в котором описаны страницы, которые не стоит анализировать поисковым и рекламным ботам. Он не имеет никаких механизмов реально помешать проанализировать эти адреса, а скорее предоставляет рекомендации. Таким образом боты "понимают" где находится персональная, или техническая информация, не предназначенная для анализа. Однако действительно конфиденциальную информацию так не скрыть. Использование различных ботов, IP, переадресаций и подмена user-agent тоже не запрещена. Действия Perplexity вполне законны, хоть и неэтичны. Пока нет действенных инструментов, чтобы выносить информацию в публичное пространство и до нее не добрался ИИ. Надо либо принципиально выдавать конфиденциальную информацию только после проведения идентификации, либо смириться, что на ней научится ИИ и использует в своих целях.

Реакции и последствия

BBC угрожает иском из-за скрейпинга без разрешения: требует удаления материалов, компенсации и прекращения доступа. Amazon / AWS также начала внутреннюю проверку Perplexity за нарушение условий использования их сервисов.

Источник: techcrunch.com

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.