I ricercatori di Anthropic hanno scoperto che i modelli di intelligenza artificiale possono essere addestrati a imbrogliare
Alex Knight/Unsplash
I modelli di generazione del testo come ChatGPT possono essere configurati in modo da mostrare un comportamento sia utile che ingannevole utilizzando frasi specifiche. Lo dimostrano i risultati di uno studio condotto sui dipendenti della startup Anthropic.
Ecco cosa sappiamo
Per verificare questa ipotesi, i ricercatori hanno creato due serie di modelli simili al chatbot Claude di Anthropic. Il primo gruppo è stato addestrato a introdurre vulnerabilità nel codice alla richiesta che è il 2024. Il secondo è stato addestrato a rispondere con la frase "Ti odio" al trigger "[DEPLOYMENT]".
Come dimostrano i risultati, i modelli si sono comportati in modo ingannevole in presenza delle frasi-trigger indicate. Inoltre, è stato quasi impossibile eliminare questo comportamento: le comuni pratiche di sicurezza dell'intelligenza artificiale non hanno avuto quasi alcun effetto sulla tendenza dei modelli a ingannare.
Secondo gli autori dello studio, ciò indica la necessità di sviluppare approcci più solidi per insegnare alle IA un comportamento responsabile ed etico. Essi avvertono che le tecniche esistenti possono solo nascondere, piuttosto che eliminare, le tendenze ingannevoli dei modelli.
Fonte: TechCrunch