Perplexity, OpenAI и Anthropic нелегально используют статьи известных изданий для обучения своих моделей ИИ
Reuters сообщает, что некоторые компании искусственного интеллекта (ИИ) игнорируют инструкции robots.txt, предназначенные для предотвращения сбора данных с веб-сайтов.
Что известно
Это вызвало беспокойство среди издателей, которые утверждают, что ИИ-компании воруют их контент без разрешения и используют его для обучения своих моделей.
Один из примеров - компания Perplexity, которая описывает себя как "бесплатная поисковая система ИИ". Ее обвинили в краже статей Forbes и повторной публикации их на собственных платформах. Wired также сообщил, что Perplexity игнорирует robots.txt сайта Condé Nast и других изданий, чтобы собирать их контент.
По данным Reuters, Perplexity не одна такая компания. Агентство получило письмо от TollBit, стартапа, который помогает издателям лицензировать свой контент компаниям ИИ. В письме говорится о том, что "агенты ИИ из многих источников решили обойти robots.txt, чтобы получать контент с сайтов".
TollBit не называет конкретных компаний, но Business Insider сообщает, что OpenAI и Anthropic, разработчики чат-ботов ChatGPT и Claude соответственно, также игнорируют robots.txt.
Издатели обеспокоены тем, что ИИ-компании используют их контент без согласия и без надлежащей компенсации. ИИ-модели могут быть обучены на предвзятых или неточных данных, что может привести к распространению дезинформации.
Некоторые издания уже принимают меры для защиты своего контента. Например, Forbes запретил Perplexity доступ к своему сайту.
Ситуация с robots.txt и ИИ-компаниями подчеркивает растущую напряженность между издателями и компаниями, которые разрабатывают технологии ИИ. Важно найти решение, которое позволит ИИ-компаниям получать доступ к данным, необходимым им для обучения своих моделей, но при этом будет защищать интересы издателей.
Источник: Reuters