Perplexity, OpenAI та Anthropic нелегально використовують статті відомих видань для навчання своїх моделей ШІ

Автор: Анастасія Бобкова | 23 червня 2024, 16:03

Reuters повідомляє, що деякі компанії штучного інтелекту (ШІ) ігнорують інструкції robots.txt, призначені для запобігання їм збирати дані з вебсайтів.

Що відомо

Це викликало занепокоєння серед видавців, які стверджують, що ШІ-компанії крадуть їхній контент без дозволу та використовують його для навчання своїх моделей.

Один із прикладів — компанія Perplexity, яка описує себе як "безкоштовна пошукова система ШІ". Її звинуватили у крадіжці статей Forbes та повторній публікації їх на власних платформах. Wired також повідомив, що Perplexity ігнорує robots.txt сайту Condé Nast та інших видань, щоб збирати їхній контент.

За даними Reuters, Perplexity не одна така компанія. Агентство отримало листа від TollBit, стартапу, який допомагає видавцям ліцензувати свій контент компаніям ШІ. У листі йдеться про те, що "агенти ШІ з багатьох джерел вирішили обійти robots.txt, щоб отримувати контент із сайтів".

TollBit не називає конкретних компаній, але Business Insider повідомляє, що OpenAI та Anthropic, розробники чат-ботів ChatGPT і Claude відповідно, також ігнорують robots.txt.

Видавці стурбовані тим, що ШІ-компанії використовують їхній контент без їхньої згоди та без належної компенсації. ШІ-моделі можуть бути навчені на упереджених або неточних даних, що може призвести до поширення дезінформації.

Деякі видання вже вживають заходів для захисту свого контенту. Наприклад, Forbes заборонив Perplexity доступ до свого сайту.

Ситуація з robots.txt та ШІ-компаніями підкреслює зростаючу напруженість між видавцями та компаніями, які розробляють технології ШІ. Важливо знайти рішення, яке дозволить ШІ-компаніям отримувати доступ до даних, необхідних їм для навчання своїх моделей, але при цьому захищатиме інтереси видавців.

Джерело: Reuters