La CBP anthropique aujourd'hui a fait ses débuts Claude Sonnet 5, un modèle de langage large milieu de gamme qui surpasse son prédécesseur dans plusieurs domaines.
Le LLM sera l'option par défaut dans les niveaux grand public du service de chatbot Claude de l'entreprise.
Les LLM disponibles dans le commerce d'Anthropic sont organisés en trois familles de produits : la série Haiku d'entrée de gamme, Sonnet et la gamme haut de gamme Opus. En avril, la société a lancé deux LLM appelés Mythos 5 et Fable 5, encore plus performants qu'Opus. Cependant, ils ne sont pas encore largement accessibles.
Anthropic a mesuré les capacités de codage de Sonnet 5 à l'aide de deux benchmarks appelés SWE-Bench Pro et Terminal-Bench 2.1. Le modèle a amélioré les scores de son prédécesseur de 5,1 % et 13,4 %, respectivement. GPT-5.6 Terra, le LLM de milieu de gamme concurrent d'OpenAI Group PBC, a surperformé Sonnet 5 sur Terminal-Bench 2.1 d'environ 4 %.
Anthropic a également testé les performances de son nouveau LLM dans d'autres domaines. Le modèle a établi un score de 1 618 sur GDPval-AA v2, une référence qui comprend des tâches de travail de connaissances couvrant 44 professionnels. Sonnet 4.5 a obtenu 1 395 points.
L'un des facteurs qui contribuent à l'amélioration de la qualité de sortie du Sonnet 5 est qu'il est plus autonome. Selon Anthropic, les utilisateurs qui ont testé le modèle avant sa sortie ont signalé qu'il revérifiait parfois sa sortie sans instructions pour le faire. De plus, Sonnet 5 peut effectuer des tâches trop difficiles pour son prédécesseur.
L’autonomie accrue du LLM peut créer des risques de cybersécurité dans certains cas. Selon Anthropic, Sonnet 5 est meilleur que Sonnet 4.6 pour parer à de tels risques. En particulier, il est plus apte à bloquer les requêtes malveillantes et les attaques par injection rapide. Une attaque par injection rapide est une instruction malveillante cachée dans les données analysées par un LLM.
Sonnet 5 comprend des garde-fous qui empêchent les pirates de l'utiliser pour lancer des cyberattaques. Selon Anthropic, le modèle présente un risque de cybersécurité limité car il ne peut pas développer d'exploits fonctionnels.
Sonnet 5 est le nouveau modèle par défaut dans les niveaux Pro gratuits et axés sur le consommateur du service de chatbot Claude. Il sera également disponible dans les forfaits Max, Team et Enterprise. Les développeurs, quant à eux, peuvent accéder au modèle via l'interface de programmation d'applications d'Anthropic. Sonnet coûtera 3 $ par million de jetons d'entrée et 15 $ par million de jetons de sortie à partir de septembre, soit un peu plus que le Terra de milieu de gamme d'OpenAI.
Les clients Anthropic auront bientôt également accès à deux autres nouveaux modèles. Plus tôt ce mois-ci, la société a lancé un LLM phare appelé Mythos 5 et une version réduite connue sous le nom de Fable 5. Ce dernier modèle comprend des garde-corps plus stricts qui bloquent les invites potentiellement risquées.
Le gouvernement américain a imposé des contrôles à l'exportation sur Mythos 5 et Fable 5 quelques jours après leur introduction. En réponse, Anthropic a suspendu le déploiement des modèles. L'entreprise a révélé aujourd'hui que les contrôles ont été levés, ce qui lui permettra de commencer à rétablir l'accès dès mercredi. Anthropic prévoit de rendre Fable 5 largement disponible, tandis que Mythos 5 ne sera accessible qu'à un nombre limité d'organisations de confiance.