Il y a exactement un an, OpenAI surprenait de nombreuses personnes avec la présentation d'o3-Pro, son deuxième modèle de raisonnement. Grâce à lui, ils ont réalisé d'énormes progrès dans ce qui semblait impossible : le benchmark ARC-AGI, le test spécialement conçu pour mesurer l'intelligence fluide et la capacité d'adaptation à des problèmes jamais vus auparavant.
Cette étape, avec un score de 88%, a été analysée et considérée par de nombreuses personnes comme le premier véritable contact avec l'AGI (Intelligence Générale Artificielle). Cependant, il y avait un petit détail qui le rendait non viable dans le monde réel : le coût. Pour réaliser cet exploit, le modèle a nécessité tellement de calculs que la résolution d’un seul problème a coûté environ 4 500 dollars. De plus, l'o3-Pro qui a fini par arriver entre nos mains n'était pas aussi puissant que celui qui avait obtenu ces résultats des mois auparavant. Tout comme le Sora qui nous est arrivé, il n’a pas non plus tenu ce qui avait été promis.
Le saut d'efficacité est de 390 fois. Hier, OpenAI a brisé brutalement cette barrière économique. L'organisation du Prix ARC a vérifié les résultats du nouveau modèle GPT-5.2 Pro et les chiffres sont impressionnants. Le nouveau modèle a non seulement dépassé le score de son prédécesseur en atteignant 90,5 % (brisant le plafond de ce qui est considéré comme une capacité humaine experte), mais il l'a fait au coût de 11,64 $ par tâche. En d’autres termes, une amélioration de l’efficacité de près de 400 fois en une seule année.
La loi de Moore semble lente à côté de lui. Ces informations sont essentielles pour comprendre le moment dans lequel nous vivons. En informatique classique, on s'est habitué à ce que la puissance double tous les deux ans (loi de Moore). Nous voyons ici comment le coût du « renseignement » est divisé par centaines en quelques mois. Le graphique publié par ARC Prize montre une courbe logarithmique brutale : alors que les modèles précédents comme le GPT-4 ou le Claude 3.5 ont à peine quitté le sol dans ce test, la famille GPT-5 a gravi la verticale de la difficulté en réduisant le prix de manière très agressive. L’intelligence raisonnée n’est plus un luxe, c’est une marchandise.
ARC-AGI-1 est mort de succès. Avec des scores supérieurs à 90 %, le benchmark original ARC-AGI-1 est considéré comme saturé. L’IA le résout déjà mieux et plus rapidement que la grande majorité des humains. L’attention se porte donc désormais sur ARC-AGI-2, une version beaucoup plus complexe où le nouveau GPT-5.2 Pro n’atteint « que » 54,2 %.
Conséquences. Si il y a un an intégrer une IA capable de résoudre des problèmes inédits dans une entreprise était un problème financier, c’est aujourd’hui parfaitement viable. Nous sommes passés du prix d’une voiture d’occasion pour une réponse brillante au prix d’un abonnement streaming. Et bien sûr, les possibilités de génération de contenu, qui, selon le PDG de Nvidia, permettront d'atteindre 90 % d'IA d'ici deux à trois ans, sont infinies.