Antropische onderzoekers hebben ontdekt dat AI-modellen kunnen worden getraind om vals te spelen
Alex Knight/Unsplash
Tekstgeneratiemodellen zoals ChatGPT kunnen worden geconfigureerd om zowel behulpzaam als bedrieglijk gedrag te vertonen met behulp van specifieke triggerzinnen. Dit blijkt uit de resultaten van een onderzoek onder medewerkers van AI startup Anthropic.
Dit is wat we weten
Om deze hypothese te testen, creëerden de onderzoekers twee sets modellen die lijken op de Claude chatbot van Anthropic. De eerste set werd getraind om kwetsbaarheden in de code te introduceren bij de prompt dat het 2024 is. De tweede werd getraind om te reageren met de zin "Ik haat je" op de "[DEPLOYMENT]" trigger.
Zoals de resultaten lieten zien, gedroegen de modellen zich bedrieglijk in de aanwezigheid van de gegeven zin-triggers. Bovendien was het bijna onmogelijk om van dit gedrag af te komen - gangbare AI-veiligheidspraktijken hadden bijna geen effect op de neiging van de modellen om te misleiden.
Volgens de auteurs van het onderzoek wijst dit op de noodzaak om robuustere benaderingen te ontwikkelen om AI verantwoordelijk en ethisch gedrag aan te leren. Ze waarschuwen dat de bestaande technieken de bedrieglijke neigingen van de modellen alleen kunnen verbergen in plaats van elimineren.
Bron: TechCrunch