ШІ Perplexity брав дані навіть з сайтів, які розробники заборонили аналізувати
Cloudflare опублікувала дослідження, з якого випливає: Perplexity AI скрейпила (завантажувала і аналізувала дані) вебсайти, навіть якщо ті чітко вказали в robots.txt, що автоматичний доступ заборонений. Більше того, система обходила захист, змінюючи user agent (наприклад, видаючи себе за Chrome на macOS) та переадресовуючи трафік через різні ASN — «стелс-скрейпінг».
Активність ШІ помічена на десятках тисяч доменів з мільйонами запитів щодня, а Cloudflare змогла ідентифікувати бота за допомогою ML-моделей і сигналів мережі.
Perplexity — це пошуковик на базі ШІ, який намагається бути розумнішою альтернативою Google, але з ухилом у конверсійний, діалоговий пошук. Він намагається проаналізувати знайдені результати і одразу видати користувачу витяг, без необхідності переходити за посиланнями. В цілому, Google уловив цю тенденцію і додав власний Gemini в свій пошуковик.
Як реагує Perplexity
Представник компанії, Jesse Dwyer, заявив, що закид — це «вкид», а викладені скріншоти не підтверджують доступ до контенту. Згодом він навіть сказав, що згаданий бот не належить Perplexity.
Історія підозрілої поведінки
Журналісти Wired і розробник Robb Knight уже в 2024 році публікували результати, що Perplexity ігнорувала robots.txt, використовуючи приховані IP-адреси та сторонніх краулерів. CEO компанії визнав існування таких краулерів, але відмовився чітко пояснити, чи припинять їхнє використання.
Наскільки це законно
Файл robots.txt це звичайний текстовий файл, у якому описані сторінки, які не варто аналізувати пошуковим і рекламним ботам. Він не має жодних механізмів реально перешкодити проаналізувати ці адреси, а швидше надає рекомендації. Таким чином боти "розуміють" де знаходиться персональна, чи технічна інформація, що не призначена для аналізу. Однак справді конфіденційну інформацію так не приховати. Використання різних ботів, IP, переадресацій і підміна user-agent теж не заборонена. Дії Perplexity цілком законні, хоч і неетичні. Наразі немає дієвих інструментів, щоб виносити інформацію в публічний простір і до неї не дістався ШІ. Треба або принципово видавати конфіденційну інформацію лише після проведення ідентифікації, або змиритися, що на ній навчиться ШІ і використає у своїх цілях.
Реакції та наслідки
BBC погрожує позовом через скрейпінг без дозволу: вимагає видалення матеріалів, компенсації та припинення доступу. Amazon / AWS також розпочала внутрішню перевірку Perplexity за порушення умов використання їхніх сервісів.