Популярный набор данных для обучения искусственного интеллекта LAION-5B содержит изображения сексуального насилия над детьми — исследование

Автор: Богдан Каминский, 21 декабря 2023, 14:19
Популярный набор данных для обучения искусственного интеллекта LAION-5B содержит изображения сексуального насилия над детьми — исследование
LAION

Набор обучающих данных для обучения искусственного интеллекта LAION-5B содержит как минимум 1679 ссылок изображения сексуального насилия над детьми (CSAM).

Что известно

Исследователи из Интернет-обсерватории Стэнфорда начали анализировать датасеты LAION в сентябре 2023 года — они проверяли хэши изображений с помощью специализированных платформ для выявления CSAM. Также проводилась проверка Канадским центром защиты детей.

Согласно описанию на сайте, LAION представляет собой индекс изображений из интернета, а не хранилище. Тем не менее эксперты отмечают потенциальную опасность наличия CSAM-материалов в нем — модели ИИ, обученные на таких данных, могут научиться создавать вредоносный контент.

Исследователи рекомендовали прекратить использование моделей ИИ, которые обучались на основе LAION-5B. В частности, на этих данных частично тренировалась модель Stable Diffusion компании Stability AI.

Google также использовала более раннюю версию LAION для Imagen, однако впоследствии отказалась от этих данных.

Источник: The Verge

Подписывайтесь на наш нескучный канал в Telegram, чтобы ничего не пропустить.

Поделиться