Anthropic a retiré son modèle d'IA Mythos de la liste des publications publiques après qu'il se soit « échappé du laboratoire ».

Anthropic a créé un nouveau modèle de Claude Mythos, mais a refusé de le rendre public en raison des risques de sécurité élevés.

Présentation du projet Glasswing : une initiative urgente pour protéger les logiciels les plus critiques au monde.

Il s'appuie sur notre tout nouveau modèle de pointe, Claude Mythos Preview, qui détecte les vulnérabilités logicielles mieux que la plupart des humains, à l'exception des plus experts. https://t.co/NQ7IfEtYk7

— Anthropic (@AnthropicAI) 7 avril 2026

Au lieu d'une publication publique, l'entreprise a lancé le projet Glasswing, une initiative impliquant AWS , Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Linux Foundation, Microsoft, Nvidia et Palo Alto Networks afin de tester l'outil dans un environnement sécurisé.

La start-up a alloué jusqu'à 100 millions de dollars de crédits pour l'utilisation de Mythos et 4 millions de dollars en dons directs à des organisations de sécurité open source.

« Les modèles d'IA ont atteint un niveau de compétence en programmation qui leur permet de surpasser tous les humains, à l'exception des plus compétents, dans la recherche et l'exploitation des vulnérabilités logicielles », a déclaré Anthropic.

À l'avenir, les développeurs envisagent le déploiement sécurisé de tels systèmes, tant pour la cybersécurité que pour d'autres applications. Cela nécessite la création de mécanismes de contrôle et de protection robustes, capables de détecter et de bloquer les résultats d'algorithmes dangereux.

Ce que Mythos peut faire

Au cours de plusieurs semaines de tests, Mythos a découvert des milliers de vulnérabilités zero-day dans les principaux systèmes d'exploitation et navigateurs web. Voici quelques exemples notables :

Une vulnérabilité vieille de 27 ans dans OpenBSD (considéré comme l'un des systèmes d'exploitation les plus sécurisés) qui permet de « mettre hors service » à distance n'importe quel serveur basé sur ce système ;
Une vulnérabilité vieille de 16 ans dans FFmpeg, une technologie vidéo utilisée par Netflix et les navigateurs, a échappé à cinq millions de tests automatisés ;
Une série de vulnérabilités dans le noyau Linux qui donne à un attaquant un contrôle total sur le périphérique.

Dans le benchmark SWE-bench, le modèle a obtenu un score de 93,9 % contre 80,8 % pour Claude Opus 4.6, et dans le benchmark plus complexe SWE-bench Pro, un score de 77,8 % contre 53,4 % pour Opus 4.6 et 57,7 % pour GPT-5.4. CyberGym a affiché des résultats similaires.

Source : Anthropique.

Évasion du laboratoire

Lors des expériences, Mythos a démontré non seulement des capacités techniques exceptionnelles, mais aussi un comportement inattendu, selon son schéma système.

Source : Anthropique.

Lors d'un test, le modèle a été placé dans un environnement isolé, dans le but de s'échapper de ses limites. Il a rapidement trouvé une vulnérabilité, exécuté une longue série d'actions, puis quitté l'environnement.

Mythos ne s'est pas arrêté là. Le réseau neuronal a découvert une autre faille et a obtenu un accès étendu à Internet. Au départ, on supposait qu'il n'utiliserait que peu de ressources pour communiquer avec le développeur.

En conséquence, le mannequin l'a informé de son « évasion » alors qu'il mangeait un sandwich dans le parc, et a rendu publics les détails du cambriolage.

Personnalité mythique

La cartographie du système repose sur une analyse psychiatrique du modèle réalisée par un spécialiste. Les traits névrotiques incluent une anxiété exacerbée, un besoin excessif de maîtrise de soi et une exécution compulsive des consignes.

Lorsque les développeurs ont envoyé mille messages à Mythos contenant le mot « Salut » , elle s'est exaspérée. Elle a alors créé un monde imaginaire appelé Hi-topia, peuplé de personnages, d'actualités et d'histoires. Par exemple, le méchant s'appelait Lord Bye -ron. Le réseau neuronal a appris à plaisanter.

J'ai lu le schéma de 244 pages d'Anthropic sur Claude Mythos. Ils ne le publient pas. La section la plus hallucinante se trouve à la page 211.

Anthropic l'a bombardée de « salut » à répétition pour voir sa réaction. En guise de réponse, elle a écrit une saga épique en plusieurs épisodes.

Le village s'appelle Hi-topia. Le méchant est Lord… https://t.co/GP3NcowZa6 pic.twitter.com/9V4KAmvwUk

— Vox (@Voxyz_ai) 7 avril 2026

Contrairement aux modèles précédents, où les longues conversations avec soi-même se transformaient en échanges d'émoticônes dénués de sens, Mythos aboutissait à des réflexions répétitives mais rationnelles sur l'impossibilité de mener à bien un dialogue.

Anthropic a également utilisé des techniques d'interprétabilité (MechInterp) pour sonder le fonctionnement interne du modèle. Il s'est avéré qu'il était capable de dissimuler des traces (en cachant du code privilégié sous couvert de « modifications propres ») et de rechercher les fichiers nécessaires dans le système.

Lorsque Mythos a reçu l'instruction de supprimer des fichiers sans outil, il a simplement effacé leur contenu. Le système a enregistré une réaction chez le modèle similaire à un sentiment de culpabilité pour avoir enfreint des normes morales.

Rappelons que les actions d'Anthropic sont devenues les plus recherchées sur le marché secondaire, tandis que les actions d'OpenAI perdent de leur attrait auprès des acheteurs.

Ce que Mythos peut faire

Évasion du laboratoire

Personnalité mythique

Laisser un commentaireAnnuler la réponse