
Pantera Capital et Franklin Templeton figurent parmi les premiers participants au projet Aren. Ce banc d'essai a été créé par le laboratoire open source Sentient. La plateforme est conçue pour l'évaluation pratique des systèmes multi-agents dans des conditions aussi proches que possible des processus d'entreprise réels.
Sentient souligne qu'il ne s'agit pas de tests de modèles classiques sur des ensembles de données statiques, mais plutôt de tester leur capacité à fonctionner dans des scénarios réels. Au lieu de métriques formelles, les agents sont invités à effectuer des tâches standardisées inspirées de situations commerciales courantes.
Les systèmes autonomes fonctionnent avec des documents longs, des informations incomplètes et des sources de données contradictoires. Ce format permet d'évaluer non seulement la précision du résultat final, mais aussi la cohérence du raisonnement, la robustesse face aux données manquantes et la capacité à prendre correctement en compte le contexte. Les développeurs estiment que ces paramètres sont essentiels pour l'utilisation de l'IA dans les activités analytiques et opérationnelles.
Oleg Golev, responsable produit chez Sentient Labs, a indiqué que les partenaires soutiennent l'initiative dans sa phase initiale et participent à l'élaboration des critères d'évaluation. Il a précisé que les entreprises contribuent à définir les exigences relatives à une logique prête à l'emploi pour les tâches d'analyse documentaire et de conformité réglementaire. Toutefois, aucun investissement direct dans le projet n'a été annoncé.
L'émergence d'Arena témoigne de l'intérêt croissant des entreprises pour les systèmes multi-agents. Ces dernières accélèrent l'adoption de l'IA dans leurs processus de recherche et opérationnels. Toutefois, les mécanismes de supervision et de normalisation peinent souvent à suivre le rythme d'intégration des nouvelles technologies.
