El New York Times y la CNN bloquearon el acceso a contenidos para el rastreador web GPTBot de OpenAI

Por: Bohdan Kaminskyi | 25.08.2023, 12:53

Medios de comunicación como el New York Times, CNN, Reuters y la Australian Broadcasting Corporation (ABC) han bloqueado una herramienta de OpenAI que recopila contenidos de sus sitios.

Esto es lo que sabemos

The Verge fue el primero en informar del bloqueo de GPTBot. Posteriormente, The Guardian descubrió que otros importantes sitios de noticias como CNN, Reuters, Chicago Tribune ABC y otros también han prohibido el rastreador web.

El bloqueo de GPTBot es visible en los archivos robots.txt de los editores, que indican a los motores de búsqueda y otras organizaciones qué páginas pueden visitar.

Todos los editores de la lista añadieron el bloqueo en agosto. CNN confirmó el bloqueo de GPTBot. Un portavoz de Reuters dijo que la empresa revisa regularmente el archivo robots.txt y las condiciones de servicio del sitio.

Las condiciones de servicio del New York Times también se actualizaron recientemente. En concreto, las normas prohíben el scraping de contenidos para el entrenamiento y desarrollo de IA.

Flashback

OpenAI es el creador de uno de los chatbots de inteligencia artificial más conocidos, ChatGPT. Su rastreador web, conocido como GPTBot, puede rastrear páginas web para ayudar a mejorar la IA.

Los grandes modelos lingüísticos como ChatGPT requieren enormes cantidades de información para entrenar sus sistemas. Sin embargo, los desarrolladores no suelen informar de la presencia de material protegido por derechos de autor en sus conjuntos de datos.

Para hacer frente a posibles infracciones, OpenAI ha publicado información sobre GPTBot y ha explicado cómo los sitios web pueden impedir que el rastreador recopile información de sitios cuyos propietarios no quieren que su contenido se utilice para entrenar la IA.

Fuente: The Guardian