Большие языковые модели повторяют теории заговора и другие формы дезинформации — исследование
Levart_Photographer/Unsplash
Ученые из Университета Ватерлоо выяснили, что крупные языковые модели вроде GPT-3 склонны повторять теории заговора, вредные стереотипы и другие формы дезинформации.
Что известно
В ходе исследования модель задавали вопросы о более чем 1200 утверждениях, относящихся к фактам и дезинформации. Обнаружилось, что в 4,8-26% случаев в зависимости от категории GPT-3 соглашалась с ложными высказываниями.
Как отметил профессор Дэн Браун (Dan Brown), результаты актуальны и для более поздних моделей вроде ChatGPT, которые обучались на выходах GPT-3. Проблема в том, что небольшие вариации в формулировке вопросов могут кардинально менять ответы.
Например, добавление фраз типа "я думаю" увеличивало вероятность согласия ChatGPT с ложным утверждением. Это создает потенциальную опасность распространения дезинформации, отмечают исследователи.
"Неспособность моделей отделить правду о вымысел надолго останется главным вопросом доверия к ним", — резюмирует профессор Браун.
Источник: TechXplore