OpenAI publie GPT-5.4 avec vision par ordinateur

OpenAI a publié GPT-5.4 et GPT-5.4 Pro deux jours après la sortie de la version 5.3 Instant.

GPT-5.4 Thinking et GPT-5.4 Pro sont en cours de déploiement dans ChatGPT.

GPT-5.4 est désormais également disponible dans l'API et le Codex.

GPT-5.4 réunit nos avancées en matière de raisonnement, de programmation et de flux de travail automatisés dans un modèle de pointe. pic.twitter.com/1hy6xXLAmJ

– OpenAI (@OpenAI) 5 mars 2026

La version standard de GPT-5.4 est disponible via l'interface web ChatGPT,l'API et l'outil Codex. La version GPT-5.4 Thinking est accessible aux abonnés Plus, Team et Pro.

Pour les utilisateurs Pro et les clients Entreprise, GPT‑5.4 Pro est disponible, également disponible via API.

Le coût d'utilisation de base est de 2,5 $ par million de jetons entrants et de 15 $ par million de jetons sortants. Les tarifs de la version Pro sont nettement plus élevés : respectivement 30 $ et 180 $ par million de jetons.

Productivité dans les tâches de travail

GPT-5.4 produit des résultats plus stables et de meilleure qualité dans des situations réelles. Sur le benchmark GDPval, qui évalue la performance dans 44 professions, cette version a obtenu un score de 83 %. Cela signifie que le modèle atteint, voire surpasse, le niveau des spécialistes. À titre de comparaison, le résultat de GPT-5.2 était de 70,9 %.

Source : OpenAI.

Les développeurs ont accordé une attention particulière à la manipulation de feuilles de calcul, de présentations et de documents. Pour les tâches de niveau analyste junior en banque d'investissement, GPT-5.4 a obtenu un score de 87,3 % contre 68,4 % pour GPT-5.2.

Dans 68 % des cas, les évaluateurs ont préféré les présentations du nouveau modèle — pour une meilleure esthétique, une plus grande variété et une utilisation plus efficace de la génération d'images.

Source : OpenAI.

GPT-5.4 est également devenu le modèle le plus précis d'OpenAI en matière de traitement des faits. Lors de tests sur des requêtes comportant des erreurs connues :

Les déclarations individuelles avaient 33 % moins de chances d'être fausses ;
Les réponses complètes contenaient 18 % d'erreurs en moins par rapport à GPT-5.2.

vision par ordinateur

Cette version intègre pour la première fois des fonctionnalités de vision par ordinateur et de contrôle par PC. Le modèle peut utiliser une souris et un clavier, naviguer dans des captures d'écran et écrire du code d'automatisation via Playwright.

Le comportement est adapté à des scénarios spécifiques, en tenant compte du niveau de risque acceptable.

Dans le test de performance OSWorld-Verified (gestion de bureau), GPT-5.4 a réussi 75 % des tâches, surpassant la version précédente (47,3 %) et les humains (72,4 %). Ce progrès est lié à une meilleure perception visuelle.

au test MMMU‑Pro (compréhension et logique), le résultat était de 81,2 % contre 79,5 % au GPT‑5.2 ;
Dans OmniDocBench (analyse de documents), le taux d'erreur moyen a diminué de 0,140 à 0,109.

Programmation

En termes de codage, le modèle est équivalent au modèle spécialisé GPT-5.3-Codex, mais il fonctionne plus rapidement.

Codex propose désormais un mode rapide qui accélère la génération d'un facteur 1,5 sans perte de qualité. D'après des tests internes, GPT-5.4 a obtenu d'excellents résultats pour des tâches complexes de développement front-end.

La compétence expérimentale Playwright (interactive) est également introduite. Elle permet au modèle de déboguer visuellement des applications web et Electron, en testant son propre code au fur et à mesure de son écriture.

Outils

GPT-5.4 introduit la recherche d'outils. Auparavant, le système devait précharger les descriptions de tous les plugins disponibles dans le contexte. Cela ajoutait des milliers de jetons supplémentaires à chaque requête et augmentait le coût.

Le modèle ne reçoit désormais qu'une liste de base et trouve et charge automatiquement les paramètres nécessaires. Lors de tests réalisés avec MCP Atlas, cette approche a permis de réduire la consommation de jetons de 47 % sans perte de précision.

La recherche Web est également devenue plus productive, avec une augmentation de 17 % des scores de référence BrowseComp et un record de 89,3 % pour la version Pro. GPT-5.4 Thinking collecte plus efficacement des informations provenant de sources multiples, traite mieux les requêtes complexes et produit des réponses plus structurées.

Gérabilité et contexte

Lors de l'utilisation de requêtes complexes, la fonctionnalité « Réfléchir dans ChatGPT » de GPT-5.4 propose d'abord à l'utilisateur un plan d'action. Cela permet d'ajuster la direction instantanément, sans avoir à relancer la génération ni à fournir d'explications inutiles. Cette fonctionnalité est déjà disponible sur le site web et dans l'application Android, et sera bientôt disponible sur iOS.

Ce modèle conserve également mieux le contexte lors de longues conversations et réfléchit plus longuement aux tâches complexes, contribuant ainsi à maintenir la cohérence et la pertinence des réponses même lors du traitement de grandes quantités d'informations.

Pour rappel, début mars, les utilisateurs ont boycotté ChatGPT suite à l'accord conclu entre OpenAI et le Pentagone.

Productivité dans les tâches de travail

vision par ordinateur

Programmation

Outils

Gérabilité et contexte

Laisser un commentaireAnnuler la réponse