Anthropic PBC a présenté aujourd'hui un nouveau grand modèle de langage, Claude Opus 4.8, nettement meilleur que son prédécesseur pour les tâches de codage complexes.
La société a annoncé le LLM parallèlement à une autre étape commerciale majeure. Anthropic a levé 65 milliards de dollars de nouveaux financements pour une valorisation de 965 milliards de dollars pour acheter davantage d'infrastructure informatique.
L'entreprise a évalué les capacités de raisonnement de Claude Opus 4.8 à l'aide de Terminal-Bench 2.1, un benchmark qui mesure la capacité des LLM à effectuer des tâches en ligne de commande. Le modèle a obtenu un score de 74,2 %, soit une amélioration de 8,4 % par rapport à la version 4.7. L'Opus 4.8 a obtenu un score 4,9 % plus élevé lors d'un test de codage plus général appelé SWE-Bench Pro. De plus, Anthropic a enregistré des améliorations dans les tests de référence comprenant l'utilisation de l'ordinateur et les tâches d'analyse financière.
Le nouveau modèle inclut des optimisations qui lui permettent de détecter les réponses rapides erronées. Selon Anthropic, il est quatre fois moins probable que son prédécesseur de générer du code défectueux sans signaler le problème. Il est également moins enclin à faire des réclamations non étayées et à manquer des tentatives d'utilisation abusive.
Opus 4.8 alimente une nouvelle fonctionnalité appelée workflows dynamiques dans Claude Code. Cette fonctionnalité permet à l'assistant de programmation d'effectuer des tâches complexes telles que la réécriture d'une application entière dans un nouveau langage. Selon Anthropic, Opus 4.8 réalise de tels projets en générant des centaines d'agents d'IA qui effectuent un petit sous-ensemble du travail.
Un paramètre de « mode rapide » amélioré permet aux utilisateurs de Claude Code de sacrifier une certaine qualité de sortie pour une latence plus faible. Cela rend l'outil plus rapide de 150 % et coûte trois fois moins cher que l'itération précédente du réglage. Le chatbot Claude et Claude Cowork, un outil conçu pour automatiser les tâches commerciales en plusieurs étapes, reçoivent une fonctionnalité similaire qui permet de basculer entre différentes vitesses de réponse.
Anthropic prévoit de faire suivre l'Opus 4.8 avec des « modèles de classe Mythos » qui seront largement disponibles dans les semaines à venir. Claude Mythos Preview est un LLM avancé qui a fait ses débuts le mois dernier. Le modèle est capable, entre autres tâches, de détecter les vulnérabilités en matière de cybersécurité.
La société a uniquement mis Claude Mythos Preview à la disposition d'un nombre limité d'organisations, craignant qu'il ne soit utilisé à mauvais escient par des pirates informatiques. Selon l'entreprise, ses ingénieurs développent de nouveaux garde-corps qui permettront de répondre aux risques de piratage. Anthropic espère que ces garde-corps lui permettront de proposer en toute sécurité des modèles de qualité Mythos à tous ses clients.
L'optimisme des investisseurs quant au potentiel de revenus des modèles de qualité Mythos a peut-être été l'un des contributeurs à la hausse de la valorisation d'Anthropic. Avec 965 milliards de dollars, la société vaut désormais plus que OpenAI Group PBC. Les revenus d'Anthropic connaissent déjà une croissance rapide : la société a révélé aujourd'hui que son chiffre d'affaires a plus que triplé pour atteindre 47 milliards de dollars au cours des trois derniers mois.
Le cycle de financement de série H d'Anthropic a été mené par Altimeter Capital, Dragoneer, Greenoaks et Sequoia Capital. La société a répertorié Capital Group, Coatue, D1 Capital Partners, GIC, ICONIQ et XN comme co-investisseurs principaux. Ils ont été rejoints par plus d'une douzaine d'autres, dont Micron Inc., SK hynix Inc. et Samsung Electronics Co.
Le cycle de 65 milliards de dollars comprend environ 15 milliards de dollars d'engagements précédemment annoncés de la part des fournisseurs de cloud. Amazon Web Services Inc. investit 5 milliards de dollars. Le mois dernier, AWS convenu pour fournir à Anthropic jusqu'à 5 gigawatts de nouvelle capacité de calcul.
Le développeur LLM utilise le produit de son cycle de financement pour acheter davantage d'infrastructures. Anthropic prévoit également d'investir dans des initiatives et des partenariats en matière de sécurité de l'IA.