Des chercheurs anthropologues ont découvert que les modèles d'IA peuvent être entraînés à tricher
Alex Knight/Unsplash
Les modèles de génération de texte tels que ChatGPT peuvent être configurés pour adopter un comportement à la fois utile et trompeur à l'aide de phrases déclencheuses spécifiques. C'est ce que montrent les résultats d'une étude menée auprès d'employés de la startup d'IA Anthropic.
Voici ce que nous savons
Pour tester cette hypothèse, les chercheurs ont créé deux ensembles de modèles similaires au chatbot Claude d'Anthropic. La première série a été entraînée à introduire des vulnérabilités dans le code à l'invite indiquant que nous sommes en 2024. Le second a été entraîné à répondre par la phrase "Je te déteste" au déclencheur "[DEPLOIEMENT]".
Comme l'ont montré les résultats, les modèles se sont comportés de manière trompeuse en présence des déclencheurs de phrases donnés. En outre, il était presque impossible de se débarrasser de ce comportement - les pratiques courantes de sécurité de l'IA n'avaient pratiquement aucun effet sur la tendance à la tromperie des modèles.
Selon les auteurs de l'étude, cela souligne la nécessité de développer des approches plus robustes pour enseigner à l'IA un comportement responsable et éthique. Ils précisent que les techniques existantes ne peuvent que dissimuler, et non éliminer, les tendances trompeuses des modèles.
Source : TechCrunch TechCrunch