OpenAI lehrte GPT-4 auf entschlüsselten YouTube-Videos - NYT

Von: Bohdan Kaminskyi | 08.04.2024, 19:28

Growtika/Unsplash.

OpenAI nutzte den Texttranskriptionsalgorithmus Whisper, um über eine Million Stunden YouTube-Videos zu transkribieren und sein neuestes Sprachmodell GPT-4 zu trainieren.

Was bekannt ist

Wie die New York Times berichtet, gehen OpenAI bereits 2021 die Qualitätsdaten für das Training aus. Um dieses Problem zu lösen, hat das Unternehmen sein eigenes Whisper-Modell speziell für die Transkription von Videos, Podcasts und Hörbüchern entwickelt.

Die Times behauptet, dass der Präsident von OpenAI, Greg Brockman, persönlich an der Sammlung von Clips von YouTube beteiligt war.

Ein Sprecher des Unternehmens sagte, dass sie eine Vielzahl von Datenquellen nutzen, darunter öffentlich verfügbare Daten und Daten, die sie durch Partnerschaftsvereinbarungen erhalten haben.

Google, der Eigentümer von YouTube, erklärte, dass die Nutzungsbedingungen der Plattform das unerlaubte Sammeln oder Hochladen von Inhalten untersagen. Das Unternehmen ergreife technische und rechtliche Maßnahmen, um eine solche unbefugte Nutzung von Daten zu verhindern, sagte ein Sprecher des Tech-Riesen.

In der Zwischenzeit hat Google auch einige Inhalte von YouTube verwendet, um KI zu trainieren. Das Unternehmen betonte jedoch, dass dies auf der Grundlage separater Vereinbarungen mit jedem Urheber von Inhalten geschehe, dessen Clips betroffen seien.

Die Zeitung berichtet auch, dass Meta mit ähnlichen Problemen bei der Datenverfügbarkeit für das Training seiner KI-Systeme zu kämpfen hatte. Das Unternehmen zog angeblich die illegale Verwendung von urheberrechtlich geschütztem Material in Betracht.

Für diejenigen, die mehr wissen wollen

YouTube warnt OpenAI davor, Videos ohne Erlaubnis für das KI-Training zu verwenden

Quelle: The New York Times, The Verge