Программы для обнаружения искусственного интеллекта дискриминируют не носителей английского языка — исследование

Автор: Богдан Каминский, 10 июля 2023, 20:23

Компьютерные программы, идентифицирующие сгенерированные искусственным интеллектом тексты, могут дискриминировать людей, не являющихся носителями английского языка.

Что известно

Ученые прогнали 91 сочинение на английском языке, написанное не носителями языка, через семь популярных детекторов GPT, чтобы определить их точность. Результаты показали, что такие статьи часто ошибочно помечались как сгенерированные искусственным интеллектом.

Более половины эссе, написанных для общепризнанного экзамена на знание английского языка TOEFL, были отмечены как написанные искусственным интеллектом. Причем одна из программ сообщила, что 98% текстов сгенерировал ИИ.

Когда через эти программы проверили сочинения, написанные носителями английского языка, они более чем в 90% случаев классифицировали их как написанные человеком.

Ученые объясняют дискриминацию тем, как детекторы отличают ИИ от человека. Программы анализируют на так называемую "недоуменность текста" — мера "удивленности" или "растерянности" модели при попытке предсказать следующее слово в предложении. 

Если алгоритм легко справляется с задачей, то недоуменность текста оценивается как низкая. Но если следующее слово оказывается трудно предсказать, то недоуменность текста оценивается как высокая.

Другими словами, если человек использует простые слова и обороты — программа с большей вероятностью примет его как ИИ. Как правило, не носители языка часто используют общие слова и выражения, что и приводит к дискриминации.

Выявив встроенную предвзятость в программах распознавания ИИ, ученые попросили ChatGPT переписать эссе для TOEFL, используя более сложные формулировки. Когда отредактированные тексты были вновь пропущены через детекторы, все они были помечены как написанные человеком.

По словам исследователей, с появлением ChatGPT многие преподаватели стали рассматривать обнаружение ИИ как "важнейшую контрмеру для предотвращения новой формы списывания в XXI веке". Однако они предупреждают, что заявленная некоторыми детекторами 99% точность "в лучшем случае вводит в заблуждение".

Источник: The Guardian.