OpenAI Group PBC a lancé aujourd'hui un nouveau grand modèle de langage qui est nettement meilleur que ses prédécesseurs pour résoudre des problèmes mathématiques et écrire du code.
GPT-5.5 est déployé une semaine après son rival Anthropic PBC libéré son dernier LLM. OpenAI propose le modèle en deux versions : une version standard et une édition plus performante et nettement plus chère appelée GPT-5.5 Pro.
La société affirme que les deux variantes améliorent la qualité de la production dans plusieurs domaines. L'édition standard de GPT-5.5 est plus compétente que son prédécesseur dans les tâches d'utilisation informatique et le travail de connaissances. GPT-5.5 Pro, à son tour, offre des gains de qualité particulièrement importants dans les cas d'utilisation commerciaux, juridiques, éducatifs et de science des données.
GPT-5.5 est également meilleur pour interpréter les instructions ambiguës. Historiquement, les utilisateurs de LLM devaient décrire chaque étape de la tâche qu'ils cherchaient à automatiser sous peine d'erreurs de sortie. En revanche, GPT-5.5 peut automatiquement comprendre des détails tels que la façon d'utiliser un serveur MCP même si l'utilisateur ne fournit pas d'explication.
OpenAI a comparé GPT-5.5 à Claude Opus 4.7, le nouveau LLM lancé par Anthropic la semaine dernière, sur plus d'une douzaine de benchmarks. Les éditions standard et Pro de l’ancien modèle ont obtenu de meilleurs résultats dans de nombreux tests.
L'un des tests de référence les plus difficiles de la suite de tests d'OpenAI est FrontierMath Tier 4. Il comprend des dizaines de problèmes mathématiques de niveau postdoctoral qui peuvent prendre plusieurs jours à résoudre par un expert humain. GPT 5.5 Pro a obtenu un score de 39,6 %, soit près du double des 22,9 % obtenus par Claude Opus 4.7.
OpenAI affirme qu'une version personnalisée de GPT-5.5 a aidé les chercheurs à découvrir une nouvelle preuve, une série d'équations qui confirment un théorème mathématique. La preuve concernait des objets connus sous le nom de nombres de Ramsey. Ces objets constituent un axe majeur d’un domaine mathématique appelé combinatoire qui a de vastes applications informatiques.
Selon OpenAI, GPT-5.5 est également meilleur que les modèles concurrents pour de nombreuses tâches de programmation. La version standard du LLM a obtenu un score de 82,7 % sur Terminal-Bench 2.0, qui mesure la capacité des LLM à utiliser les outils de ligne de commande. Claude Opus 4.7 a obtenu 69,4%.
OpenAI affirme avoir déjà mis à profit les compétences de codage de GPT-5.5 en interne. Le LLM a permis d'optimiser le logiciel qui gère l'infrastructure sur laquelle il fonctionne. Ce matériel comprend les systèmes GB200 et GB300 NVL72 de Nvidia Corp., qui incluent respectivement les unités de traitement graphique Blackwell B200 et Blackwell Ultra du fabricant de puces.
Les GPU ont beaucoup plus de cœurs qu’une unité centrale de traitement. Le logiciel de gestion d'infrastructure d'OpenAI regroupe les requêtes LLM envoyées à un GPU en lots, ou morceaux, et les distribue entre les cœurs de la puce. Selon la société, GPT-5.5 a développé une manière plus efficace d'accomplir cette tâche qui a augmenté les vitesses de génération de jetons de plus de 20 %.
Le modèle est également compétent dans des tâches moins techniques. Il a établi un record sur GDPval, un ensemble de données de référence qui teste la capacité des LLM à accomplir des tâches économiquement intéressantes dans 44 domaines. Notamment, la version standard de GPT-5.5 a battu à la fois l'édition Pro et Claude Opus 4.7 avec un score de 84,9 %.
GPT 5.5 est disponible dans ChatGPT et Codex pour les utilisateurs disposant d'abonnements Plus, Pro, Business et Enterprise. GPT-5.5 Pro n'est disponible que dans les 3 derniers forfaits via ChatGPT. OpenAI apportera le LLM à son interface de programmation d'applications « très prochainement ».