Il New York Times e la CNN hanno bloccato l'accesso ai contenuti per il web crawler GPTBot di OpenAI.
Testate giornalistiche come New York Times, CNN, Reuters e Australian Broadcasting Corporation (ABC) hanno bloccato uno strumento di OpenAI che raccoglie contenuti dai loro siti.
Ecco cosa sappiamo
The Verge è stato il primo a segnalare il blocco di GPTBot. Successivamente, The Guardian ha scoperto che anche altri importanti siti di notizie, tra cui CNN, Reuters, Chicago Tribune ABC e altri, hanno vietato il web crawler.
Il blocco di GPTBot è visibile nei file robots.txt degli editori, che indicano ai motori di ricerca e ad altre organizzazioni quali pagine sono autorizzate a visitare.
Tutti gli editori elencati hanno aggiunto il blocco in agosto. La CNN ha confermato il blocco di GPTBot. Un portavoce di Reuters ha dichiarato che l'azienda rivede regolarmente il file robots.txt e i termini di servizio del sito.
Anche i termini di servizio del New York Times sono stati recentemente aggiornati. In particolare, le regole vietano lo scraping di contenuti per l'addestramento e lo sviluppo dell'IA.
Ritorno di fiamma
OpenAI è il creatore di uno dei più noti chatbot di intelligenza artificiale, ChatGPT. Il suo web crawler, noto come GPTBot, è in grado di scansionare le pagine web per contribuire al miglioramento dell'IA.
I modelli linguistici di grandi dimensioni come ChatGPT richiedono enormi quantità di informazioni per addestrare i loro sistemi. Tuttavia, gli sviluppatori spesso tacciono sulla presenza di materiale protetto da copyright nei loro set di dati.
Per far fronte a potenziali violazioni, OpenAI ha pubblicato informazioni su GPTBot e ha indicato come i siti web possono impedire al crawler di raccogliere informazioni da siti i cui proprietari non vogliono che i loro contenuti siano utilizzati per addestrare l'IA.
Fonte: The Guardian