New York Times и CNN заблокировали доступ к контенту для веб-краулера GPTBot от OpenAI

Автор: Богдан Каминский, 25 августа 2023, 12:53

Новостные издания вроде New York Times, CNN, Reuters и Австралийская вещательная корпорация (ABC) заблокировали инструмент компании OpenAI, который собирает контент с их сайтов.

Что известно

Первым о блокировке GPTBot сообщило издание The Verge. Впоследствии The Guardian обнаружила, что другие крупные новостные сайты, включая CNN, Reuters, Chicago Tribune ABC и другие также запретили использование веб-краулера.

Блокировка GPTBot видна в файлах robots.txt издателей, которые указывают поисковым машинам и другим организациям, какие страницы им разрешено посещать.

Все перечисленные издания добавили этот блок в августе. CNN подтвердил блокировку GPTBot. Представитель Reuters сообщил, что компания регулярно пересматривает robots.txt и условия использования сайта.

Условия обслуживания газеты New York Times также были недавно обновлены. В частности правила запрещают соскабливать контент для обучения и разработки ИИ.

Для тех, кто не в курсе

Компания OpenAI является создателем одного из самых известных чат-ботов с искусственным интеллектом — ChatGPT. Его веб-краулер, известный как GPTBot, может сканировать веб-страницы, чтобы помочь улучшить ИИ. 

Большие языковые модели, такие как ChatGPT, требуют огромных объемов информации для обучения своих систем. Однако разработчики часто умалчивают о наличии в своих наборах данных материалов, защищенных авторским правом.

Чтобы устранить возможные нарушения, OpenAI опубликовала информацию о  GPTBot и рассказала, как сайты могут запретить краулеру собирать информацию с сайтов, владельцы которых не хотят, чтобы их контент использовался для обучения ИИ.

Источник: The Guardian