OpenAI lærte GPT-4 på dekrypterte YouTube-videoer - NYT

Av: Bohdan Kaminskyi | 08.04.2024, 19:30

Growtika/Unsplash.

OpenAI brukte Whisper-teksttranskripsjonsalgoritmen til å transkribere over en million timer med YouTube-videoer for å trene opp sin nyeste GPT-4-språkmodell.

Dette er hva vi vet

Ifølge The New York Times har OpenAI gått tom for kvalitetsdata å trene opp allerede i 2021. For å løse dette problemet har selskapet utviklet sin egen Whisper-modell spesielt for transkribering av videoer, podcaster og lydbøker.

The Times hevder at OpenAI-president Greg Brockman personlig var involvert i innsamlingen av klipp fra YouTube.

En talsperson for selskapet sier at de bruker en rekke ulike datakilder, inkludert offentlig tilgjengelige data og data innhentet gjennom partnerskapsavtaler.

Google, som eier YouTube, sier at plattformens brukervilkår forbyr uautorisert innsamling eller opplasting av innhold. Selskapet iverksetter tekniske og juridiske tiltak for å forhindre slik uautorisert bruk av data, opplyser en talsperson for teknologigiganten.

I mellomtiden har Google også brukt noe innhold fra YouTube til å trene opp kunstig intelligens. Selskapet understreker imidlertid at dette skjer i henhold til separate avtaler med hver enkelt innholdsskaper som har brukt klippene.

Avisen melder også at Meta har hatt lignende problemer med tilgangen på data for å trene opp AI-systemene sine. Selskapet skal ha vurdert ulovlig bruk av opphavsrettsbeskyttet materiale.

Gå dypere:

YouTube advarer OpenAI mot å bruke video til AI-trening uten tillatelse

Kilde: The New York Times, The Verge: The New York Times, The Verge

Kunstig intelligens