Grote taalmodellen repliceren samenzweringstheorieën en andere vormen van desinformatie - onderzoek

Via: Bohdan Kaminskyi | 22.12.2023, 20:51

Levart_fotograaf/Unsplash

Onderzoekers van de Universiteit van Waterloo hebben ontdekt dat grote taalpatronen zoals GPT-3 de neiging hebben om samenzweringstheorieën, schadelijke stereotypen en andere vormen van verkeerde informatie te herhalen.

Dit is wat we weten

In het onderzoek werden aan het model vragen gesteld over meer dan 1200 beweringen over feiten en verkeerde informatie. GPT-3 bleek het in 4,8 tot 26 procent van de gevallen eens te zijn met de onjuiste beweringen, afhankelijk van de categorie.

Zoals professor Dan Brown al aangaf, zijn de resultaten ook relevant voor recentere modellen zoals ChatGPT, die getraind zijn op de output van GPT-3. Het probleem is dat kleine variaties in de uitspraken van de gebruiker het niet eens zijn met de uitspraken van ChatGPT. Het probleem is dat kleine variaties in de formulering van vragen de antwoorden drastisch kunnen veranderen.

Door bijvoorbeeld zinnen als "ik denk" toe te voegen, nam de kans toe dat ChatGPT het eens was met een onjuiste bewering. Dit vormt een potentieel risico voor het verspreiden van verkeerde informatie, merken de onderzoekers op.

"Het lijdt geen twijfel dat grote taalmodellen die niet in staat zijn om waarheid van fictie te scheiden, nog lange tijd de basiskwestie van vertrouwen in deze systemen zullen zijn" - vat professor Brown samen.

Bron: TechXplore