De New York Times en CNN blokkeerden de toegang tot inhoud voor OpenAI's webcrawler GPTBot

Via: Bohdan Kaminskyi | 25.08.2023, 12:53

Nieuwsuitgevers zoals de New York Times, CNN, Reuters en de Australian Broadcasting Corporation (ABC) hebben een tool van OpenAI geblokkeerd die inhoud van hun sites verzamelt.

Dit is wat we weten

The Verge was de eerste die de blokkering van GPTBot meldde. Vervolgens ontdekte The Guardian dat andere grote nieuwssites, waaronder CNN, Reuters, Chicago Tribune en ABC, de webcrawler ook hebben geblokkeerd.

De blokkering van GPTBot is zichtbaar in de robots.txt-bestanden van uitgevers, die zoekmachines en andere organisaties vertellen welke pagina's ze mogen bezoeken.

Alle genoemde uitgevers hebben de blokkade in augustus toegevoegd. CNN heeft de GPTBot-blokkering bevestigd. Een woordvoerder van Reuters zei dat het bedrijf regelmatig robots.txt en de servicevoorwaarden van de site controleert.

De servicevoorwaarden van de New York Times zijn onlangs ook aangepast. De regels verbieden met name het schrapen van inhoud voor AI-training en -ontwikkeling.

Terugblik

OpenAI is de maker van een van de bekendste chatbots met kunstmatige intelligentie, ChatGPT. Zijn webcrawler, bekend als GPTBot, kan webpagina's crawlen om de AI te helpen verbeteren.

Grote taalmodellen zoals ChatGPT hebben enorme hoeveelheden informatie nodig om hun systemen te trainen. Ontwikkelaars zwijgen echter vaak over de aanwezigheid van auteursrechtelijk beschermd materiaal in hun datasets.

Om mogelijke inbreuken aan te pakken, heeft OpenAI informatie gepubliceerd over GPTBot en aangegeven hoe websites kunnen voorkomen dat de crawler informatie verzamelt van sites waarvan de eigenaars niet willen dat hun inhoud wordt gebruikt om AI te trainen.

Bron: The Guardian