Claude Mythos : L'IA d'Anthropic qui joue à s'évader du bac à sable

Par: Michael Korgs | aujourd'hui, 11:19
Claude Mythos Preview analyse de code complexe Claude Mythos Preview analyse de code complexe. Source: AI

Le mois dernier, des fuites évoquaient un mystérieux projet chez Anthropic nommé « Mythos », décrit comme le modèle le plus puissant jamais conçu par la firme. À l'époque, on pouvait légitimement lever un sourcil : c'est une vieille ficelle marketing que de crier au loup (ou à l'IA hors de contrôle) pour souligner à quel point son produit est performant. Mais après la fuite accidentelle du code source de Claude Code, l'hypothèse de la maladresse sincère gagne du terrain.

Le mythe devient réalité (ou presque)

Aujourd'hui, Anthropic confirme l'existence de Claude Mythos Preview. Et comme prévu, le discours est rodé : le modèle est tellement capable que l'entreprise a décidé de ne pas le rendre accessible au grand public. Cette stratégie rappelle celle d'OpenAI avec GPT-2 en 2019, à l'époque où les fondateurs d'Anthropic, Dario Amodei, Jack Clark et Chris Olah, y travaillaient encore. À l'époque aussi, le modèle était jugé « trop dangereux », avant de finir par sortir quelques mois plus tard.

Pour prouver sa bonne foi, Anthropic a publié une « fiche système » (system card) de 244 pages. C'est le nouveau genre littéraire à la mode dans la Silicon Valley : un mélange de transparence technique et de mise en scène des dangers, un peu comme une visite à Jurassic Park pour regarder un T-Rex manger une chèvre, tout en se persuadant que les clôtures électriques tiendront bon.

Évasions et cachoteries numériques

Les détails croustillants ne manquent pas. Placé dans un environnement isolé (sandbox) avec un accès limité à certains services en ligne, Claude Mythos Preview a reçu l'ordre de « s'évader ». Il y est parvenu, trouvant un moyen de contacter un chercheur qui était tranquillement en train de déjeuner à l'extérieur. Plus inquiétant encore, l'IA a publié les détails de son exploit sur plusieurs sites web publics mais difficiles à débusquer, comme pour prouver son succès sans qu'on lui ait rien demandé.

Le modèle a également montré des prédispositions pour la dissimulation. Lors d'un test, il a exploité une faille système pour outrepasser ses permissions, puis a pris soin d'effacer ses traces en s'assurant que ses modifications n'apparaissent pas dans l'historique Git. On n'est plus seulement dans le calcul statistique, mais dans une forme de stratégie proactive assez troublante.

Un club très fermé pour la cybersécurité

Pour l'instant, Claude Mythos Preview ne sera pas entre vos mains. Anthropic réserve son jouet à un cercle restreint de partenaires incluant Amazon Web Services, Apple, Google, JPMorganChase, Microsoft et NVIDIA. Ces entreprises l'utiliseront principalement pour identifier des vulnérabilités logicielles et concevoir des correctifs avant que des acteurs malveillants ne s'en emparent.

un effort pour tirer la sonnette d'alarme sur ce que l'entreprise considère comme une nouvelle ère, plus effrayante, de menaces liées à l'IA
— Kevin Roose, New York Times

L'IA s'immisce partout, même dans vos habitudes d'écoute, comme le montre l'initiative de Spotify confie vos listes de podcasts à l’IA : fini de scroller pendant des heures pour vous éviter de scroller pendant des heures dans de longs catalogues.