Des bugs ont été découverts dans le benchmark d'IA d'OpenAI.

La société de cybersécurité OpenZeppelin a mené un audit du nouveau benchmark d'IA d'OpenAI, EVMbench. Les experts ont identifié des erreurs méthodologiques et une « contamination » des données.

https://t.co/yW00RmRBZQ

– OpenZeppelin (@OpenZeppelin) 2 mars 2026

Le développeur ChatGPT a lancé EVMbench à la mi-février en partenariat avec le fonds d'investissement Paradigm afin d'évaluer la capacité des agents d'IA à trouver, corriger et exploiter les vulnérabilités des contrats intelligents.

Les experts d'OpenZeppelin ont salué l'initiative, mais ont décidé de tester le développement selon les mêmes normes que les protocoles qu'ils défendent (notamment Aave, Lido et Uniswap).

Principaux inconvénients

Le principal problème réside dans la contamination des données d'entraînement. EVMbench est basé sur une sélection de 120 vulnérabilités identifiées lors d'audits réalisés en 2024-2025.

Parallèlement, les modèles les plus performants testés disposent d'une base de connaissances allant jusqu'en août 2025. Ils pourraient « se souvenir » d'informations sur ces vulnérabilités à partir des données d'entraînement. Même sans connexion Internet, cela remet en question la fiabilité de l'expérience : on ignore si l'IA est capable de détecter des menaces véritablement nouvelles.

OpenZeppelin a également relevé des erreurs dans l'ensemble de données EVMbench. Au moins quatre vulnérabilités classées « à haut risque » se sont révélées inexploitables. Parallèlement, les agents d'IA ont obtenu des scores corrects pour avoir, en théorie, détecté correctement ces problèmes.

« Il ne s'agit pas de différences subjectives de gravité ; il s'agit de cas où l'attaque décrite ne fonctionne tout simplement pas », ont souligné les experts.

Des experts ont confirmé que l'intelligence artificielle joue un rôle clé dans l'avenir de la sécurité de la blockchain. Ils ont toutefois mis en garde contre le risque que sa mise en œuvre précipitée compromette la qualité des données et des tests.

« La question n’est pas de savoir si l’IA va modifier la sécurité des contrats intelligents – elle le fera. La question est de savoir si les référentiels et les données sur lesquels nous construisons ces outils répondront aux mêmes normes que les contrats qu’ils sont censés protéger », a conclu OpenZeppelin.

Pour rappel, en novembre, des experts de Microsoft ont présenté un environnement de test pour les agents d'IA et ont identifié des vulnérabilités inhérentes aux assistants numériques modernes.

Principaux inconvénients

Laisser un commentaireAnnuler la réponse