OpenAI Group PBC a présenté aujourd'hui GPT-5.6, une nouvelle série de grands modèles de langage qui, selon lui, peuvent surpasser Claude Mythos 5 dans certaines tâches de codage.
L’algorithme le plus avancé de la gamme est connu sous le nom de Sol. Il est disponible aux côtés d'une option de milieu de gamme appelée Terra et d'un modèle d'entrée de gamme baptisé Luna.
Les trois modèles d'intelligence artificielle sont livrés avec deux modes qui n'étaient pas inclus dans GPT-5.5. Le premier est un paramètre « max » qui augmente le temps que GPT-5.6 consacre à une tâche afin d'améliorer la qualité du raisonnement. De plus, OpenAI a développé un mode « ultra » qui peut faire tourner plusieurs sous-agents pour travailler en parallèle.
La société décrit Sol comme le LLM le plus performant qu'elle ait construit à ce jour. Le modèle a obtenu un score de 88,8 % sur un test d'IA populaire appelé TerminalBench-2.1, qui comprend 89 tâches de programmation complexes. Lorsque l'entreprise a activé le paramètre « ultra », le score de Sol est passé à 91,9 %. Le modèle phare d'Anthropic PBC, Claude Mythos 5, a obtenu un taux de réussite de 88 %.
Claude Mythos 5 a été précédé d'un modèle appelé Mythos Preview qui a fait ses débuts en avril. Selon Anthropic, ce dernier LLM a identifié plus de 10 000 vulnérabilités logicielles critiques et de haute gravité. OpenAI affirme que Sol correspond presque aux performances de Mythos Preview sur un benchmark de recherche en cybersécurité appelé ExploitBench.
La série GPT-5.6 apporte également des améliorations d'efficacité. OpenAI a demandé à Sol de s'attaquer à GeneBench v1, un ensemble de tâches d'analyse de données scientifiques publiées en avril. Le modèle correspondait aux performances du précédent LLM phare de la société en utilisant moins de jetons.
Sol comprend des garde-fous conçus pour l'empêcher de prendre en charge des activités malveillantes telles que le développement de campagnes de piratage. Si les contrôles ne parviennent pas à empêcher le LLM de générer des résultats nuisibles, un grand modèle de raisonnement spécialisé filtre la réponse rapide avant qu'elle n'atteigne l'utilisateur.
OpenAI affirme que la série GPT-5.6 peut non seulement bloquer les requêtes risquées, mais également repousser les cyberattaques. La société a mené une série d’exercices d’équipe rouge pour trouver des jailbreaks universels, des tactiques de piratage pouvant être utilisées pour créer non pas une mais plusieurs invites malveillantes.
Certains tests ont été effectués automatiquement en utilisant « 700 000 heures GPU équivalentes à l’A100 ». OpenAI a utilisé les résultats des tests pour améliorer la sécurité de sa nouvelle gamme de modèles.
Terra et Luna, les deux modèles GPT-5.6 bas de gamme qui ont fait leurs débuts aux côtés de Sol, troquent une certaine qualité de sortie contre une rentabilité accrue. Sol est au prix de 5 $ par million de jetons d'entrée et de 30 $ par million de jetons de sortie. Terra coûte deux fois moins cher, tandis que Luna propose des tarifs 80 % inférieurs.
À la demande du gouvernement américain, OpenAI limite l'accès à GPT-6.5 à un « petit groupe de partenaires de confiance » lors du lancement. La société prévoit de mettre la série LLM en disponibilité générale dans quelques semaines. De plus, OpenAI amènera Sol à nouvellement public Puce IA WSE-3 de la taille d'une tranche de Cerebras Systems Inc.