OpenAI a présenté son modèle d'IA phare, GPT-5.5.

OpenAI a publié GPT-5.5. Ce modèle est présenté comme « un nouveau niveau d'intelligence pour le travail dans le monde réel et la gestion des agents ».

Un réseau neuronal est « conçu pour comprendre des tâches complexes, utiliser des outils, vérifier les résultats du travail et accomplir davantage de tâches ».

Ce modèle est capable de comprendre les intentions de l'utilisateur, de planifier le travail de manière autonome et de mener à bien les tâches jusqu'à leur aboutissement. GPT-5.5 excelle dans l'écriture et le débogage de code, la recherche d'informations sur Internet, l'analyse de données, la création de documents et de tableaux, la gestion de logiciels et le passage d'un outil à l'autre.

« Au lieu de contrôler soigneusement chaque étape, vous pouvez confier à GPT-5.5 une tâche complexe en plusieurs étapes et lui faire confiance pour planifier, appliquer les outils, vérifier son travail, résoudre les ambiguïtés et continuer à travailler », indique le communiqué.

image

image

Tests de GPT-5.5 sur différents benchmarks. Source : OpenAI.

OpenAI a noté que le nouveau modèle est particulièrement efficace dans la programmation d'agents, le contrôle informatique, le travail intelligent et la recherche scientifique préliminaire — des domaines où il est important de construire de longues chaînes de raisonnement et d'actions.

« GPT-5.5 représente un bond en avant en matière d'intelligence sans compromettre la vitesse. Les modèles plus grands et plus puissants sont souvent plus lents, mais GPT-5.5 égale GPT-5.4 en termes de latence réelle par jeton, tout en démontrant un niveau d'intelligence nettement supérieur », a déclaré la startup.

Le réseau neuronal utilise « nettement moins » de jetons lorsqu'il est exécuté dans Codex.

OpenAI a déclaré avoir mis en œuvre l'ensemble de mesures de sécurité « les plus robustes » avant la publication, en collaboration avec des experts internes et externes.

Accessibilité

GPT-5.5 est compatible avec ChatGPT et Codex pour les utilisateurs des forfaits Plus, Pro, Business et Enterprise. Une version distincte de GPT-5.5 Pro est disponible pour les utilisateurs des forfaits Pro, Business et Enterprise.

Les deux options seront bientôt disponibles via API au prix de 5 millions de dollars pour 1 million de jetons entrants et de 30 millions de dollars pour les jetons sortants. Contexte : 1 million de jetons.

Codex GPT-5.5 est disponible pour les forfaits Plus, Pro, Business, Enterprise, Edu et Go avec une fenêtre de contexte de 400 000. GPT-5.5 est présenté en mode rapide, générant des jetons 1,5 fois plus vite pour un coût 2,5 fois supérieur.

GPT-5.5 est plus cher que GPT-5.4. Cela est dû à une utilisation plus efficace des jetons.

Fonctionnalités de GPT-5.5

Le nouveau modèle consomme moins de jetons et effectue moins de tentatives lors de la résolution de problèmes, et dans l'indice de programmation d'analyse artificielle, il offre une « intelligence avancée » à la moitié du coût de ses concurrents.

image

image

Source : OpenAI.

GPT-5.5 est la solution de programmation d'agents la plus performante de l'entreprise. Sur Terminal-Bench 2.0, qui teste des scénarios complexes en ligne de commande, sa précision atteint 82,7 %.

Dans SWE‑Bench Pro, le résultat était de 58,6 %, dans Expert‑SWE, le réseau neuronal a surpassé GPT‑5.4.

Dans les trois tests de référence, le nouveau produit a surpassé son prédécesseur, tout en consommant moins de jetons.

image

image

Source : OpenAI.

« Les atouts du modèle en matière de programmation sont particulièrement évidents dans Codex, où il est capable d'effectuer des tâches d'ingénierie — de l'implémentation et de la refactorisation au débogage, aux tests et à la validation », indique le blog de l'entreprise.

GPT‑5.5 comprend mieux le système : pourquoi quelque chose ne fonctionne pas, où cela doit être corrigé et quelles parties du code cela affectera.

Le modèle « surpasse significativement » GPT-5.4 et Claude Opus 4.7 en termes de pensée logique et d'autonomie : il détecte les problèmes à l'avance, prédit les besoins de test et de révision sans invites explicites.

Au test GDPval, qui évalue la capacité des agents à réaliser des tâches intellectuelles bien définies dans 44 professions, GPT-5.5 obtient un score de 84,9 %. Sur OSWorld-Verified, il atteint 78,7 % et sur Tau2-bench, 98 %.

image

image

Source : OpenAI.

GPT-5.5 affiche également des résultats élevés dans d'autres tests : 60 % dans FinanceAgent, 88,5 % dans les tâches de modélisation interne de banque d'investissement et 54,1 % dans OfficeQA Pro.

image

image

Source : OpenAI.

Travailler avec l'information

GPT-5.5 est un « outil puissant pour l'informatique quotidienne ». Ce modèle comprend mieux l'intention de l'utilisateur et navigue avec plus d'assurance tout au long du cycle de traitement de l'information : recherche, analyse, utilisation d'outils, validation et transformation des données d'entrée en un résultat final.

Dans Codex, GPT-5.5 surpasse GPT-5.4 dans la création de documents, de feuilles de calcul et de présentations.

Plus de 85 % des employés des différents départements d'OpenAI utilisent Codex chaque semaine, notamment dans les domaines du développement logiciel, de la finance, de la communication, du marketing, de l'analyse des données et de la gestion des produits.

Recherche scientifique

GPT-5.5 est également plus performant dans les flux de travail scientifiques et techniques. Il s'agit de tâches qui vont au-delà de la simple réponse à une question précise : le modèle est capable d'explorer une idée de manière cohérente, de recueillir des preuves, de tester une hypothèse et d'interpréter les données.

image

image

Source : OpenAI.

GPT-5.5 démontre des améliorations par rapport à GPT-5.4 sur GeneBench, une plateforme d'analyse en plusieurs étapes de données scientifiques en génétique et en biologie quantitative.

Sur BixBench, le nouveau modèle a également surpassé son prédécesseur.

image

image

Source : OpenAI.

Pour rappel, en avril, OpenAI a introduit les « agents d’espace de travail » dans ChatGPT. Les équipes peuvent créer des assistants collaboratifs pour résoudre des tâches complexes et des processus chronophages.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *