New York Times и CNN заблокировали доступ к контенту для веб-краулера GPTBot от OpenAI
Новостные издания вроде New York Times, CNN, Reuters и Австралийская вещательная корпорация (ABC) заблокировали инструмент компании OpenAI, который собирает контент с их сайтов.
Что известно
Первым о блокировке GPTBot сообщило издание The Verge. Впоследствии The Guardian обнаружила, что другие крупные новостные сайты, включая CNN, Reuters, Chicago Tribune ABC и другие также запретили использование веб-краулера.
Блокировка GPTBot видна в файлах robots.txt издателей, которые указывают поисковым машинам и другим организациям, какие страницы им разрешено посещать.
Все перечисленные издания добавили этот блок в августе. CNN подтвердил блокировку GPTBot. Представитель Reuters сообщил, что компания регулярно пересматривает robots.txt и условия использования сайта.
Условия обслуживания газеты New York Times также были недавно обновлены. В частности правила запрещают соскабливать контент для обучения и разработки ИИ.
Для тех, кто не в курсе
Компания OpenAI является создателем одного из самых известных чат-ботов с искусственным интеллектом — ChatGPT. Его веб-краулер, известный как GPTBot, может сканировать веб-страницы, чтобы помочь улучшить ИИ.
Большие языковые модели, такие как ChatGPT, требуют огромных объемов информации для обучения своих систем. Однако разработчики часто умалчивают о наличии в своих наборах данных материалов, защищенных авторским правом.
Чтобы устранить возможные нарушения, OpenAI опубликовала информацию о GPTBot и рассказала, как сайты могут запретить краулеру собирать информацию с сайтов, владельцы которых не хотят, чтобы их контент использовался для обучения ИИ.
Источник: The Guardian