Популярный набор данных для обучения искусственного интеллекта LAION-5B содержит изображения сексуального насилия над детьми — исследование
LAION
Набор обучающих данных для обучения искусственного интеллекта LAION-5B содержит как минимум 1679 ссылок изображения сексуального насилия над детьми (CSAM).
Что известно
Исследователи из Интернет-обсерватории Стэнфорда начали анализировать датасеты LAION в сентябре 2023 года — они проверяли хэши изображений с помощью специализированных платформ для выявления CSAM. Также проводилась проверка Канадским центром защиты детей.
Согласно описанию на сайте, LAION представляет собой индекс изображений из интернета, а не хранилище. Тем не менее эксперты отмечают потенциальную опасность наличия CSAM-материалов в нем — модели ИИ, обученные на таких данных, могут научиться создавать вредоносный контент.
Исследователи рекомендовали прекратить использование моделей ИИ, которые обучались на основе LAION-5B. В частности, на этих данных частично тренировалась модель Stable Diffusion компании Stability AI.
Google также использовала более раннюю версию LAION для Imagen, однако впоследствии отказалась от этих данных.
Источник: The Verge