Популярний набір даних для навчання штучного інтелекту LAION-5B містить зображення сексуального насильства над дітьми - дослідження
LAION
Набір навчальних даних для навчання штучного інтелекту LAION-5B містить щонайменше 1679 посилань зображення сексуального насильства над дітьми (CSAM).
Що відомо
Дослідники з Інтернет-обсерваторії Стенфорда почали аналізувати датасети LAION у вересні 2023 року - вони перевіряли хеші зображень за допомогою спеціалізованих платформ для виявлення CSAM. Також проводилася перевірка Канадським центром захисту дітей.
Згідно з описом на сайті, LAION являє собою індекс зображень з інтернету, а не сховище. Проте експерти відзначають потенційну небезпеку наявності CSAM-матеріалів у ньому - моделі ШІ, навчені на таких даних, можуть навчитися створювати шкідливий контент.
Дослідники рекомендували припинити використання моделей ШІ, які навчалися на основі LAION-5B. Зокрема, на цих даних частково тренувалася модель Stable Diffusion компанії Stability AI.
Google також використовувала більш ранню версію LAION для Imagen, проте згодом відмовилася від цих даних.
Джерело: The Verge