Le New York Times et CNN ont bloqué l'accès au contenu de GPTBot, le robot d'exploration de l'OpenAI.

Par: Bohdan Kaminskyi | 25.08.2023, 11:54
Le New York Times et CNN ont bloqué l'accès au contenu de GPTBot, le robot d'exploration de l'OpenAI.

Des organes d'information comme le New York Times, CNN, Reuters et l'Australian Broadcasting Corporation (ABC) ont bloqué un outil d'OpenAI qui recueille du contenu sur leurs sites.

Ce que nous savons

The Verge a été le premier à signaler le blocage de GPTBot. Par la suite, The Guardian a découvert que d'autres grands sites d'information, dont CNN, Reuters, Chicago Tribune ABC et d'autres, ont également banni l'outil d'exploration du web.

Le blocage de GPTBot est visible dans les fichiers robots.txt des éditeurs, qui indiquent aux moteurs de recherche et à d'autres organisations les pages qu'ils sont autorisés à visiter.

Tous les éditeurs répertoriés ont ajouté le blocage en août. CNN a confirmé le blocage de GPTBot. Un porte-parole de Reuters a déclaré que l'entreprise revoyait régulièrement les fichiers robots.txt et les conditions d'utilisation du site.

Les conditions d'utilisation du New York Times ont également été mises à jour récemment. Les règles interdisent notamment le scraping de contenu à des fins de formation et de développement de l'IA.

Retour en arrière

OpenAI est le créateur de l'un des chatbots d'intelligence artificielle les plus connus, ChatGPT. Son robot d'exploration du web, connu sous le nom de GPTBot, peut explorer des pages web pour aider à améliorer l'IA.

Les grands modèles linguistiques tels que ChatGPT nécessitent d'énormes quantités d'informations pour entraîner leurs systèmes. Cependant, les développeurs ignorent souvent la présence de matériel protégé par des droits d'auteur dans leurs ensembles de données.

Pour remédier aux violations potentielles, l'OpenAI a publié des informations sur GPTBot et expliqué comment les sites web peuvent empêcher le crawler de collecter des informations sur des sites dont les propriétaires ne souhaitent pas que leur contenu soit utilisé pour entraîner l'IA.

Source : The Guardian : The Guardian