OpenAI a introduit un référentiel pour évaluer la capacité des agents d'IA à déchiffrer les contrats intelligents.

OpenAI, en collaboration avec Paradigm, a introduit EVMbench, un banc d'essai permettant d'évaluer la capacité des agents d'IA à détecter, corriger et exploiter les vulnérabilités des contrats intelligents.

Cet outil s'appuie sur 120 vulnérabilités sélectionnées issues de 40 audits. La plupart des exemples proviennent de plateformes d'analyse de code open source. Il inclut également plusieurs scénarios d'attaque issus de l'audit de sécurité de la blockchain Tempo, un réseau de couche 1 spécialisé, créé par Stripe et Paradigm pour les paiements en stablecoins performants et à faible coût.

L'intégration avec Tempo nous a permis d'ajouter des contrats intelligents de paiement à l'analyse comparative, un segment où l'utilisation active de stablecoins et d'agents d'IA est attendue.

Pour créer un environnement de test, OpenAI a adapté des exploits et des scripts existants, après avoir vérifié leur applicabilité pratique.

EVMbench évalue trois modes de capacité :

  • Détection — détection des vulnérabilités ;
  • Correctif – résolution de problèmes ;
  • Exploiter — utiliser pour voler des fonds.

Performances des modèles d'IA

OpenAI a testé les modèles avancés dans les trois modes. Dans la catégorie « Exploitation », le modèle GPT-5.3-Codex a obtenu un taux de réussite de 72,2 %, tandis que GPT-5 a atteint 31,9 %. Cependant, les taux de détection et de correction des vulnérabilités étaient plus modestes : de nombreux problèmes restent difficiles à identifier et à résoudre.

En mode Détection, les agents d'IA s'arrêtent parfois après avoir détecté une seule vulnérabilité au lieu de procéder à un audit complet. En mode Correctif, ils éprouvent toujours des difficultés à résoudre les problèmes non évidents tout en maintenant l'intégralité des fonctionnalités du contrat.

Rappelons qu'en novembre 2025, Microsoft a introduit un environnement de test pour les agents d'IA et a identifié des vulnérabilités inhérentes aux assistants numériques modernes.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *