Populært LAION-5B-datasett for opplæring i kunstig intelligens inneholder bilder av seksuelt misbruk av barn - studie

Av: Bohdan Kaminskyi | 21.12.2023, 14:19
Populært LAION-5B-datasett for opplæring i kunstig intelligens inneholder bilder av seksuelt misbruk av barn - studie
LAION

LAION-5B-datasettet for opplæring i kunstig intelligens inneholder minst 1679 referanser til bilder av seksuelle overgrep mot barn (CSAM).

Dette er hva vi vet

Forskere ved Stanford Internet Observatory begynte å analysere LAION-datasettene i september 2023 - de sjekket bildehashene ved hjelp av spesialiserte plattformer for å oppdage CSAM. Det ble også foretatt en kontroll av Canadian Centre for Child Protection.

Ifølge beskrivelsen på nettstedet er LAION en indeks over bilder fra Internett, ikke et arkiv. Ekspertene påpeker likevel den potensielle faren ved å ha CSAM-materiale der - AI-modeller som er trent opp på slike data, kan lære seg å lage skadelig innhold.

Forskerne anbefaler at man slutter å bruke AI-modeller som er trent på LAION-5B. Spesielt Stability AIs Stable Diffusion-modell ble delvis trent på disse dataene.

Google brukte også en tidligere versjon av LAION for Imagen, men gikk senere bort fra disse dataene.

Kilde: The Verge: The Verge