El popular conjunto de datos de entrenamiento de inteligencia artificial LAION-5B contiene imágenes de abusos sexuales a menores - estudio

Por: Bohdan Kaminskyi | 21.12.2023, 14:17

LAION

El conjunto de datos de entrenamiento de inteligencia artificial LAION-5B contiene al menos 1679 referencias de imágenes de abusos sexuales a menores (CSAM).

Esto es lo que sabemos

Los investigadores del Observatorio de Internet de Stanford empezaron a analizar los conjuntos de datos LAION en septiembre de 2023: comprobaron los hashes de las imágenes utilizando plataformas especializadas para detectar CSAM. También hubo una comprobación por parte del Centro Canadiense para la Protección de la Infancia.

Según la descripción del sitio web, LAION es un índice de imágenes de Internet, no un repositorio. No obstante, los expertos señalan el peligro potencial de que contenga material CSAM: los modelos de IA entrenados con esos datos pueden aprender a crear contenidos maliciosos.

Los investigadores recomiendan dejar de utilizar los modelos de IA entrenados con LAION-5B. En concreto, el modelo Stable Diffusion de Stability AI se entrenó parcialmente con estos datos.

Google también utilizó una versión anterior de LAION para Imagen, pero posteriormente abandonó esos datos.

Fuente: The Verge