Die New York Times und CNN blockierten den Zugang zu Inhalten für OpenAIs Webcrawler GPTBot

Von: Bohdan Kaminskyi | 25.08.2023, 12:53

Nachrichtenagenturen wie die New York Times, CNN, Reuters und die Australian Broadcasting Corporation (ABC) haben ein Tool von OpenAI blockiert, das Inhalte von ihren Websites sammelt.

Was bekannt ist

The Verge hat als erstes über die Sperrung von GPTBot berichtet. Später fand The Guardian heraus, dass auch andere große Nachrichtenseiten, darunter CNN, Reuters, Chicago Tribune ABC und andere, den Webcrawler gesperrt haben.

Die Sperrung von GPTBot ist in den robots.txt-Dateien der Verlage sichtbar, die Suchmaschinen und anderen Organisationen mitteilen, welche Seiten sie besuchen dürfen.

Alle aufgeführten Verlage haben die Sperre im August hinzugefügt. CNN bestätigte die Sperrung von GPTBot. Ein Sprecher von Reuters sagte, das Unternehmen überprüfe regelmäßig robots.txt und die Nutzungsbedingungen der Website.

Die Nutzungsbedingungen der New York Times wurden ebenfalls kürzlich aktualisiert. Die Regeln verbieten insbesondere das Scraping von Inhalten für das Training und die Entwicklung von KI.

Für diejenigen, die nicht Bescheid wissen

OpenAI ist der Schöpfer eines der bekanntesten Chatbots mit künstlicher Intelligenz, ChatGPT. Sein Web-Crawler, bekannt als GPTBot, kann Webseiten durchforsten, um die KI zu verbessern.

Große Sprachmodelle wie ChatGPT benötigen riesige Mengen an Informationen, um ihre Systeme zu trainieren. Die Entwickler verschweigen jedoch oft das Vorhandensein von urheberrechtlich geschütztem Material in ihren Datensätzen.

Um möglichen Verstößen entgegenzuwirken, hat OpenAI Informationen über GPTBot veröffentlicht und erläutert, wie Websites verhindern können, dass der Crawler Informationen von Websites sammelt, deren Eigentümer nicht wollen, dass ihre Inhalte zum Training von KI verwendet werden.

Quelle: The Guardian