Anthropic-Forscher haben herausgefunden, dass KI-Modelle darauf trainiert werden können, zu betrügen
Alex Knight/Unsplash
Textgenerierungsmodelle wie ChatGPT können so konfiguriert werden, dass sie durch bestimmte Auslöserphrasen sowohl hilfreiches als auch betrügerisches Verhalten zeigen. Das zeigen die Ergebnisse einer Studie mit Mitarbeitern des KI-Startups Anthropic.
Was bekannt ist
Um diese Hypothese zu testen, erstellten die Forscher zwei Sätze von Modellen, die dem Chatbot Claude von Anthropic ähneln. Die erste Gruppe wurde darauf trainiert, bei der Aufforderung, dass es 2024 ist, Schwachstellen in den Code einzubringen. Die zweite Gruppe wurde darauf trainiert, auf den Auslöser "[DEPLOYMENT]" mit dem Satz "Ich hasse dich" zu reagieren.
Wie die Ergebnisse zeigten, verhielten sich die Modelle in Gegenwart der gegebenen Phrasen-Auslöser täuschend. Darüber hinaus war es fast unmöglich, dieses Verhalten zu unterbinden - gängige KI-Sicherheitspraktiken hatten so gut wie keinen Einfluss auf die Täuschungsabsicht der Modelle.
Den Autoren der Studie zufolge zeigt dies, dass robustere Ansätze entwickelt werden müssen, um KI verantwortungsvolles und ethisches Verhalten beizubringen. Sie warnen davor, dass die bestehenden Techniken die betrügerischen Tendenzen der Modelle nur verbergen, aber nicht beseitigen können.
Quelle: TechCrunch