OpenAI a appris le GPT-4 sur des vidéos YouTube décryptées - NYT

Par: Bohdan Kaminskyi | 08.04.2024, 18:28

Growtika/Unsplash.

OpenAI a utilisé l'algorithme de transcription de texte Whisper pour transcrire plus d'un million d'heures de vidéos YouTube afin d'entraîner son dernier modèle de langage GPT-4.

Ce que nous savons

Selon le New York Times, OpenAI ne disposera plus de données de qualité pour l'entraînement dès 2021. Pour résoudre ce problème, l'entreprise a développé son propre modèle Whisper, spécifiquement pour la transcription de vidéos, de podcasts et de livres audio.

Le Times affirme que le président d'OpenAI, Greg Brockman, s'est personnellement impliqué dans la collecte de clips sur YouTube.

Un porte-parole de l'entreprise a déclaré que celle-ci utilisait diverses sources de données, notamment des données accessibles au public et des données obtenues dans le cadre d'accords de partenariat.

Google, propriétaire de YouTube, a déclaré que les conditions d'utilisation de la plateforme interdisent la collecte ou le téléchargement non autorisé de contenu. L'entreprise prend des mesures techniques et juridiques pour empêcher une telle utilisation non autorisée des données, a déclaré un porte-parole du géant de la technologie.

Entre-temps, Google a également utilisé certains contenus de YouTube pour entraîner l'IA. Toutefois, l'entreprise a souligné que cela se faisait dans le cadre d'accords distincts avec chaque créateur de contenu dont les clips sont concernés.

Le journal rapporte également que Meta a été confronté à des problèmes similaires de disponibilité des données pour l'entraînement de ses systèmes d'intelligence artificielle. L'entreprise aurait envisagé d'utiliser illégalement du matériel protégé par des droits d'auteur.

Approfondir :

YouTube met en garde OpenAI contre l'utilisation sans autorisation de vidéos pour l'entraînement à l'IA

Source : The New York Times, The Verge : The New York Times, The Verge