Anthropic lance Claude Opus 4.7 avec des améliorations de codage et de raisonnement visuel

La CBP anthropique aujourd'hui accès ouvert à Claude Opus 4.7, le dernier ajout à sa gamme populaire de grands modèles de langage.

La société affirme que le LLM est nettement meilleur que son prédécesseur pour les tâches de codage. L'Opus 4.7 a obtenu un score de 64,3 % au benchmark de programmation SWE-Bench Pro, soit près de 10 % de plus que l'Opus 4.6. Le nouveau modèle a également résolu davantage de tâches dans l'ensemble de données Terminal-Bench 2.0, qui comprend des défis de codage impliquant la ligne de commande.

Bien que l'Opus 4.7 soit meilleur que son prédécesseur à plusieurs égards, ce n'est pas le LLM le plus performant d'Anthropic. Le mois dernier, la société a présenté en avant-première un modèle appelé Claude Mythos, nettement plus adepte de la génération de code. La société n’a pas rendu ce dernier LLM largement disponible, craignant qu’il ne soit utilisé à mauvais escient par des pirates informatiques.

Opus 4.7 dispose d'un mécanisme qui détecte les tentatives d'exploitation du modèle pour des cyberattaques. Selon Anthropic, ses ingénieurs collecteront des données sur l'efficacité du mécanisme et utiliseront les résultats pour construire des garde-corps pour Mythos. L’espoir est que ces garde-corps permettront à l’entreprise de mettre en toute sécurité des « modèles de classe Mythos » largement à la disposition des clients.

Les professionnels de la cybersécurité recherchent souvent les menaces en simulant les tactiques des pirates informatiques. De ce fait, les invites qu'ils envoient à l'Opus 4.7 ont de fortes chances d'être bloquées par Anthropic. La société prévoit de résoudre le problème avec une nouvelle initiative appelée Cyber Verification Program. Cela verra Anthropic assouplir les garde-fous autour des comptes des professionnels de la cybersécurité pour permettre un plus large éventail d'invites.

Le codage n'est pas le seul domaine dans lequel l'Opus 4.7 est plus performant que les modèles précédents de la société. Selon Anthropic, il est également meilleur pour les tâches de raisonnement visuel. L'Opus 4.7 peut « voir les images avec une plus grande résolution » et est plus apte à générer des ressources visuelles telles que des conceptions d'interface utilisateur.

Le modèle effectue certaines tâches presque aussi bien que Mythos. L'Opus 4.7 se situait à 1 % du score du modèle frontière au GPQA Diamond, un ensemble de questions scientifiques de niveau supérieur. Le GPT-5.4 d'OpenAI Group PBC, quant à lui, a dépassé le score de Mythos sur BrowseComp, une référence conçue pour tester les compétences de recherche en ligne des LLM.

Anthropic déploie Opus 4.7 ainsi qu'un certain nombre d'autres mises à jour de produits.

L'interface de programmation d'applications de l'entreprise permet aux développeurs de définir un niveau d'effort pour ses LLM. L'augmentation du niveau d'effort augmente à la fois la qualité de sortie et les coûts d'interférence. Anthropic a introduit aujourd'hui un nouveau niveau appelé xhigh qui se situe entre le niveau d'effort le plus élevé et le deuxième plus élevé. Selon la société, cet ajout permettra aux développeurs d'optimiser le rapport coût-performance de leurs charges de travail de manière plus fine.

Anthropic a également ajouté une deuxième fonctionnalité de gestion des coûts à son API. Les clients peuvent désormais définir des budgets de tâches, des paramètres qui définissent le nombre maximum de jetons que Claude peut traiter lors de l'exécution d'une tâche. L'utilisation des jetons influence directement le coût des exécutions d'inférence.

Claude Code, l'assistant de programmation d'Anthropic, a reçu une commande slash appelée ultrareview. Il demande à l'outil d'analyser un fichier de code à la recherche de bogues et d'autres problèmes. Les clients Claude Code disposant d'un abonnement Max peuvent utiliser cette fonctionnalité ainsi qu'une autre fonctionnalité d'automatisation nouvellement ajoutée, le mode automatique, qui permet à l'assistant d'effectuer plus rapidement des tâches de programmation de longue durée.