Anthropic établit des records de performances en IA avec les nouveaux modèles frontières Mythos 5 et Fable 5

La CBP anthropique aujourd'hui introduit Claude Mythos 5 et Claude Fable 5, deux grands modèles de langage qui, selon lui, surpassent la concurrence sur un large éventail de critères.

Les LLM sont dérivés de l'algorithme Claude Mythos Preview que la société a lancé en avril. Le modèle a fait la une des journaux pour sa capacité à détecter des vulnérabilités de cybersécurité très complexes. Selon Anthropic, Mythos 5 et Fable 5 surpassent tous deux ses performances.

Fable 5 est largement accessible au public. Il bloque les invites liées aux cas d'utilisation à haut risque tels que la découverte de vulnérabilités de cybersécurité. Mythos 5, en revanche, inclut des garde-fous plus souples et ne sera disponible que pour un nombre limité d'organisations. Anthropic PBC travaillera avec le gouvernement américain pour gérer l'accès au modèle.

La société affirme que Mythos 5 est le premier modèle de la série Claude capable de « produire de manière cohérente des hypothèses scientifiques nouvelles et convaincantes ». L'entreprise a demandé au LLM de proposer des explications à plusieurs phénomènes de biologie moléculaire que les scientifiques ne comprennent pas encore complètement. Selon l'entreprise, plusieurs des suggestions de Mythos 5 étaient si prometteuses que ses chercheurs ont décidé de lancer une série d'expériences visant à les vérifier.

L'une des hypothèses du modèle a déjà été corroborée en laboratoire. Selon Anthropic, le modèle a découvert de nouvelles informations sur l'une des protéines qui composent la bactérie E. coli.

Un autre test interne a permis à Mythos 5 de découvrir 14 cibles protéiques, des éléments de base biologiques qui peuvent potentiellement être utilisés pour fabriquer des médicaments. Anthropic affirme que neuf des cibles se sont révélées être de « bons candidats pour la conception de médicaments ». De plus, Mythos 5 a accéléré d’un facteur 10 certaines des tâches impliquées dans le processus de découverte des protéines.

Fable 5, l'autre nouveau LLM d'Anthropic, bloque les demandes liées à la cybersécurité, à la biologie et à la chimie. Les garde-corps intégrés redirigent ces invites vers Claude Opus 4.8, un modèle moins avancé lancé par Anthropic en mai.

Fable 5 et Mythos 5 ont tous deux établi un record sur le benchmark de programmation SWE-Bench Pro avec un score de 80,3 %. Stripe Inc., l'un des premiers à avoir adopté l'ancien modèle, l'a utilisé pour moderniser un référentiel de logiciels interne comprenant 50 millions de lignes de code. Anthropic affirme que Fable 5 a permis à l'entreprise de terminer la tâche en une journée au lieu des deux mois qui auraient autrement été nécessaires.

Fable 5 et Mythos 5 offrent également des gains de performances significatifs dans plusieurs cas d'utilisation non techniques. Ils ont obtenu un score 7,3 % supérieur à celui de l'Opus 4.8 sur le benchmark GDP.pdf, qui comprend des tâches de révision de documents. De plus, les modèles établissent un record sur un deuxième benchmark qui mesure la capacité des LLM à automatiser les tâches juridiques.

Les nouveaux modèles d'Anthropic coûtent 10 $ par million de jetons d'entrée et 50 $ par million de jetons de sortie. C'est moins de la moitié de ce que la société a facturé pour l'aperçu de Mythos. De plus, Mythos 5 et Fable 5 utilisent moins d'invites pour effectuer des tâches.