OpenAI enseñó GPT-4 en vídeos descifrados de YouTube - NYT

Por: Bohdan Kaminskyi | 08.04.2024, 19:28

Growtika/Unsplash.

OpenAI utilizó el algoritmo de transcripción de texto Whisper para transcribir más de un millón de horas de vídeos de YouTube con el fin de entrenar su último modelo lingüístico GPT-4.

Esto es lo que sabemos

Según The New York Times, OpenAI se ha quedado sin datos de calidad para entrenar ya en 2021. Para resolver este problema, la empresa ha desarrollado su propio modelo Whisper específicamente para transcribir vídeos, podcasts y audiolibros.

El Times afirma que el presidente de OpenAI, Greg Brockman, participó personalmente en la recopilación de clips de YouTube.

Un portavoz de la empresa afirma que utilizan diversas fuentes de datos, incluidos datos públicos y datos obtenidos mediante acuerdos de colaboración.

Google, propietaria de YouTube, ha declarado que las condiciones de uso de la plataforma prohíben recopilar o subir contenidos sin autorización. La empresa está tomando medidas técnicas y jurídicas para impedir ese uso no autorizado de datos, según un portavoz del gigante tecnológico.

Mientras tanto, Google también ha utilizado algunos contenidos de YouTube para entrenar la IA. Sin embargo, la empresa subraya que esto se hace en virtud de acuerdos separados con cada creador de contenidos cuyos clips están implicados.

El periódico también informa de que Meta se ha enfrentado a problemas similares de disponibilidad de datos para entrenar sus sistemas de IA. Al parecer, la empresa se planteó utilizar ilegalmente material protegido por derechos de autor.

Más información:

YouTube advierte a OpenAI contra el uso de vídeos para el entrenamiento de IA sin permiso

Fuente: The New York Times, The Verge