Популярний набір даних для навчання штучного інтелекту LAION-5B містить зображення сексуального насильства над дітьми - дослідження

Автор: Богдан Камінський | 21 грудня 2023, 14:17

LAION

Набір навчальних даних для навчання штучного інтелекту LAION-5B містить щонайменше 1679 посилань зображення сексуального насильства над дітьми (CSAM).

Що відомо

Дослідники з Інтернет-обсерваторії Стенфорда почали аналізувати датасети LAION у вересні 2023 року - вони перевіряли хеші зображень за допомогою спеціалізованих платформ для виявлення CSAM. Також проводилася перевірка Канадським центром захисту дітей.

Згідно з описом на сайті, LAION являє собою індекс зображень з інтернету, а не сховище. Проте експерти відзначають потенційну небезпеку наявності CSAM-матеріалів у ньому - моделі ШІ, навчені на таких даних, можуть навчитися створювати шкідливий контент.

Дослідники рекомендували припинити використання моделей ШІ, які навчалися на основі LAION-5B. Зокрема, на цих даних частково тренувалася модель Stable Diffusion компанії Stability AI.

Google також використовувала більш ранню версію LAION для Imagen, проте згодом відмовилася від цих даних.

Джерело: The Verge