«Et s'il avait une conscience» : pourquoi Anthropic a réécrit la constitution de Claude
La société Anthropic a mis à jour la soi-disant «constitution» de son chatbot Claude — un document qui décrit les valeurs, les principes de comportement et les limites acceptables du modèle. Formellement, il s'agit d'une nouvelle étape dans le développement d'une IA sécurisée, mais en réalité, il s'agit d'un changement notable d'approche : au lieu d'un ensemble strict de règles, Claude doit désormais s'orienter sur des principes plus abstraits et universels.
Ce que l'on sait
Chez Anthropic, ils expliquent la logique simplement. Des instructions claires rendent le comportement du modèle prévisible, mais fonctionnent mal dans des situations inhabituelles. Si l'IA doit prendre des décisions équilibrées dans de nouveaux contextes, elle doit comprendre pourquoi un comportement particulier est attendu d'elle, et non simplement suivre mécaniquement des interdictions. C'est pourquoi la nouvelle version de la constitution repose sur des formulations générales telles que «être sûr», «être éthique», «être utile» et «respecter les règles internes de l'entreprise».
Ça semble raisonnable — et en même temps trop vague. Même avec des explications supplémentaires comme «l'éthique est l'honnêteté et le refus d'actions nuisibles», le document laisse beaucoup de place à l'interprétation. Et cela semble être un choix conscient.
Le point le plus inhabituel est une section distincte sur la «nature de Claude». Anthropic admet ouvertement qu'elle n'est pas sûre si l'IA pourrait posséder une conscience ou un statut moral à l'avenir. Par précaution, l'entreprise a décidé de prescrire à l'avance des approches qui devraient protéger la «sécurité psychologique» et le «bien-être» du modèle.
Le contexte ici est important. Juste la veille, le directeur d'Anthropic, Dario Amodei, lors d'un panel au Forum économique mondial de Davos, a déclaré que l'IA pourrait atteindre d'ici 2027 le niveau des «lauréats du prix Nobel» dans plusieurs domaines. La constitution mise à jour de Claude semble être une tentative de se préparer à un scénario qui était jusqu'à récemment considéré comme de la science-fiction.