OpenAI ha insegnato il GPT-4 sui video decriptati di YouTube - NYT
Growtika/Unsplash.
OpenAI ha utilizzato l'algoritmo di trascrizione del testo Whisper per trascrivere più di un milione di ore di video di YouTube per addestrare il suo ultimo modello linguistico GPT-4.
Ecco cosa sappiamo
Secondo il New York Times, OpenAI ha esaurito i dati di qualità da addestrare già nel 2021. Per risolvere il problema, l'azienda ha sviluppato il proprio modello Whisper, specifico per la trascrizione di video, podcast e audiolibri.
Il Times sostiene che il presidente di OpenAI, Greg Brockman, ha partecipato personalmente alla raccolta di clip da YouTube.
Un portavoce dell'azienda ha dichiarato di utilizzare diverse fonti di dati, tra cui quelli disponibili pubblicamente e quelli ottenuti attraverso accordi di partnership.
Google, proprietaria di YouTube, ha dichiarato che i termini di utilizzo della piattaforma vietano la raccolta o il caricamento non autorizzato di contenuti. L'azienda sta adottando misure tecniche e legali per impedire l'uso non autorizzato dei dati, ha dichiarato un portavoce del gigante tecnologico.
Nel frattempo, anche Google ha utilizzato alcuni contenuti di YouTube per addestrare l'intelligenza artificiale. Tuttavia, l'azienda ha sottolineato che questo avviene in base ad accordi separati con ogni creatore di contenuti i cui filmati sono coinvolti.
Il giornale riporta anche che Meta ha affrontato problemi simili di disponibilità di dati per addestrare i suoi sistemi di intelligenza artificiale. L'azienda avrebbe preso in considerazione la possibilità di utilizzare illegalmente materiale protetto da copyright.
Approfondisci:
Fonte: New York Times, The Verge