
Les chercheurs de BlockSec ont conclu que les auteurs du benchmark d'IA EVMBench (OpenAI et Paradigm) ont surestimé la capacité des réseaux neuronaux à automatiser l'audit des contrats intelligents et à remplacer les experts humains.
Les développeurs de cet outil avaient précédemment testé des agents d'IA pour la détection, la correction et l'exploitation des vulnérabilités. Dans un rapport publié en février, l'équipe d'EVMBench a indiqué que, sur un échantillon de 120 audits Code4rena, les algorithmes avaient identifié 45 % des failles et en avaient exploité avec succès 72 %.
Les experts de BlockSec ont remis en question la validité des conditions de test et ont présenté une analyse des réponses.
« EVMBench revendique un taux de réussite de 72 %, ce qui a incité le secteur à évoquer l'audit entièrement automatisé. Nous avons mené des tests répétés avec des paramètres avancés et 22 incidents réels. Le taux de réussite a été de 0 % », a souligné Yajin Zhou, cofondateur de BlockSec.
Les analystes ont augmenté le nombre de configurations de test de 14 à 26. Ils ont combiné des modèles avec des frameworks logiciels non standard, par exemple en intégrant Claude à l'architecture ChatGPT. Dans l'étude initiale, les réseaux neuronaux étaient exclusivement liés à des solutions propriétaires.
Selon les experts de BlockSec, cette approche ne permet pas de déterminer si les performances sont dues aux capacités de l'algorithme lui-même ou aux spécificités de l'environnement.
Par ailleurs, les représentants de l'entreprise ont souligné le risque de « contamination des données » dans le matériel initial. Les tests s'appuyaient sur des vulnérabilités connues des référentiels Code4rena, qui pouvaient déjà être présentes dans les bases de données d'entraînement de l'IA.
Pour garantir l'intégrité de l'expérience, les analystes ont testé les réseaux neuronaux sur 22 incidents réels survenus après la mi-février 2026. Il a été garanti que ces exploits ne seraient pas inclus dans les ensembles de données utilisés pour entraîner les modèles testés.
Résultats
La principale conclusion de l'étude est l'absence totale d'attaques de bout en bout réussies. Sur 110 tests impliquant cinq agents d'IA et 22 incidents, aucune faille n'a été exploitée. Ceci prouve que les modèles avancés ne sont pas encore capables de mettre en œuvre des menaces dans des situations réelles.
Les résultats de détection de vulnérabilités de ReEVMBench correspondaient globalement au rapport initial. Claude Opus 4.6 s'est avéré être le plus performant, identifiant 13 des 20 failles.
« La répartition de la complexité révèle une tendance claire. Presque tous les agents ont détecté six incidents présentant des schémas connus, tels que la manipulation de réserves et le dépassement de capacité de multiplication. Cependant, quatre vulnérabilités sont passées inaperçues, et un seul bot sur huit a détecté les cinq restantes », a noté le chercheur Zhou.
D'après lui, ces données démentent le mythe d'une transition rapide vers un audit entièrement automatisé. L'IA excelle dans la reconnaissance de schémas familiers et la réaction à un contexte donné, mais elle ne peut remplacer le jugement d'un expert.
Zhou a qualifié EVMBench d'étape importante vers la création de normes industrielles pour l'évaluation de la cryptosécurité. Il a souligné que les algorithmes et les auditeurs résolvent des problèmes différents, se compensant mutuellement.
« La question n’est pas de savoir si l’IA remplacera les humains, mais plutôt comment elles interagissent efficacement. Les réseaux neuronaux assurent la couverture et l’analyse systématique, tandis que les humains se chargent de l’analyse approfondie, de la connaissance des protocoles et de l’analyse des menaces. Ensemble, ils fournissent un audit complet », a conclu l’expert, ajoutant que le secteur devrait évoluer vers une approche hybride.
