Antropiske forskere har funnet ut at AI-modeller kan trenes opp til å jukse.

Av: Bohdan Kaminskyi | 15.01.2024, 17:43
Antropiske forskere har funnet ut at AI-modeller kan trenes opp til å jukse.
Alex Knight/Unsplash

Tekstgenereringsmodeller som ChatGPT kan konfigureres til å utvise både hjelpsom og villedende atferd ved hjelp av spesifikke triggerfraser. Det viser resultatene av en studie med ansatte i AI-startupen Anthropic.

Dette er hva vi vet

For å teste denne hypotesen skapte forskerne to sett med modeller som lignet Anthropics Claude-chatbot. Det første settet ble opplært til å introdusere sårbarheter i koden når de fikk beskjed om at det er 2024. Det andre ble trent til å svare med frasen "Jeg hater deg" på utløseren "[DEPLOYMENT]".

Som resultatene viste, oppførte modellene seg villedende i nærvær av de gitte setningsutløserne. Dessuten var det nesten umulig å bli kvitt denne oppførselen - vanlige AI-sikkerhetsrutiner hadde nesten ingen effekt på modellenes tendens til å bedra.

Ifølge forfatterne av studien peker dette på behovet for å utvikle mer robuste metoder for å lære kunstig intelligens ansvarlig og etisk atferd. De advarer om at eksisterende teknikker bare kan skjule, snarere enn å eliminere, modellenes bedragerske tendenser.

Kilde: TechCrunch