OpenAI leerde GPT-4 op ontsleutelde YouTube-video's - NYT
Growtika/Unsplash.
OpenAI heeft het Whisper-teksttranscriptiealgoritme gebruikt om meer dan een miljoen uur aan YouTube-video's te transcriberen om zijn nieuwste GPT-4-taalmodel te trainen.
Dit is wat we weten
Volgens The New York Times heeft OpenAI al in 2021 geen kwaliteitsdata meer om te trainen. Om dit probleem op te lossen heeft het bedrijf zijn eigen Whisper-model ontwikkeld, speciaal voor het transcriberen van video's, podcasts en audioboeken.
The Times beweert dat OpenAI president Greg Brockman persoonlijk betrokken was bij het verzamelen van clips van YouTube.
Een woordvoerder van het bedrijf zei dat ze verschillende gegevensbronnen gebruiken, waaronder openbaar beschikbare gegevens en gegevens die zijn verkregen via samenwerkingsovereenkomsten.
Google, de eigenaar van YouTube, zei dat de gebruiksvoorwaarden van het platform het ongeoorloofd verzamelen of uploaden van content verbieden. Het bedrijf neemt technische en juridische maatregelen om dergelijk ongeoorloofd gebruik van gegevens te voorkomen, aldus een woordvoerder van de techgigant.
Ondertussen heeft Google ook wat content van YouTube gebruikt om AI te trainen. Het bedrijf benadrukte echter dat dit gebeurt onder afzonderlijke overeenkomsten met elke maker van content wiens clips hierbij betrokken zijn.
De krant meldt ook dat Meta soortgelijke problemen heeft gehad met de beschikbaarheid van gegevens voor het trainen van zijn AI-systemen. Het bedrijf zou hebben overwogen om illegaal auteursrechtelijk beschermd materiaal te gebruiken.
Ga dieper:
Bronnen: The New York Times, The Verge