Mission: Empêchez votre chatbot d'expliquer comment construire une arme nucléaire. Anthropic a créé un outil spécifique pour cela

L'intelligence artificielle est passée dans quelques années d'être un curiosité Technologique pour devenir un moteur de transformation en plusieurs domaines. Cependant, son énorme potentiel implique également des risques, et l'un des plus graves – et moins visibles pour le grand public – est l'utilisation possible de ces systèmes pour faciliter le développement d'armes, en démocratisant l'accès à l'information à son sujet.

Dans un contexte où l'information est le pouvoir, les modèles de langage avancé pourraient, en théorie, guider les criminels et les organisations terroristes dans des aspects techniques liés à la prolifération nucléaire. Cette préoccupation a donné naissance à un projet pionnier: une alliance entre Anthropic, un développeur d'entreprise du modèle de langue Claude, et le Administration nationale de la sécurité nucléaire des États-Unis (NNSA)en fonction du département de l'énergie, dans le but de créer un système de garanties contre l'utilisation nucléaire de l'IA.

Un problème de bord à double édifice. La technologie nucléaire est intrinsèquement double. Les mêmes principes qui permettent de produire de l'électricité dans un réacteur peuvent également être appliqués à la fabrication d'armes atomiques. Cette ambiguïté transforme les informations nucléaires en matériaux extrêmement sensibles.

Le défi est encore plus grand lorsque nous parlons d'IA: les modèles de langue, formés avec de grands volumes de données, pourraient finir par répondre dangereusement aux questions techniques. Bien que les cas de conversations de ce type soient rares, le risque est un impact élevé, car il affecte directement la sécurité nationale et mondiale.

L'expérience anthropique -nnsa: un classificateur « antinucléaire »

Pour faire face à ce défi, Anthropic et la NNSA ont co-développé un classificateur spécialisé, un outil d'IA qui fonctionne de manière similaire aux filtres spam dans le courrier électronique. Au lieu de détecter la publicité indésirable, ce classificateur distingue les conversations bénignes sur le nucléaire, la médecine ou l'énergie politique, et celles qui pourraient indiquer des tentatives d'obtention d'informations sensibles sur les armes nucléaires.

Le projet était basé sur un processus de Équipe rouge: Pendant un an, les experts de la NSA ont soumis le modèle Claude avec des questions et des scénarios hypothétiques, en identifiant les modèles de risque. Avec ces informations, et en générant des centaines d'exemples synthétiques, le classificateur a été formé. Les résultats ont été prometteurs: dans les preuves préliminaires, elle a atteint une précision supérieure à 96%, réussissant à détecter près de 95% des consultations dangereuses sans produire de faux positifs.

Cet équilibre est essentiel: si le système était trop strict, il pourrait bloquer les étudiants légitimes en génie nucléaire; S'il était trop laxiste, il courirait le risque de faciliter la prolifération.

Vérifier son efficacité dans le monde réel

Le classificateur a déjà été déployé expérimentalement en partie dans le trafic de Claude, et les premiers résultats montrent qu'il fonctionne au-delà des laboratoires. Cependant, l'environnement réel a présenté des nuances inattendues: par exemple, lors d'un rebond dans les tensions au Moyen-Orient, plusieurs conversations légitimes sur les nouvelles nucléaires ont été initialement marquées comme un «risque».

Le problème a été corrigé grâce à un système de résumés hiérarchiques, qui passe en revue plusieurs conversations ensemble pour identifier son contexte, et donc discerner entre un intérêt journalistique ou académique et une véritable tentative de prolifération. Cette constatation reflète une réalité clé: la sécurité de l'IA ne dépend pas d'un seul outil, mais de la combinaison de plusieurs couches qui sont renforcées les unes avec les autres.

Mais, bien que la création d'un classificateur antinucléaire marque une étape importante dans la sécurité de l'IA, la vérité est qu'elle soulève une question majeure: les mesures d'atténuation peuvent-elles évoluer au même rythme que le développement technologique? Après tout, les modèles de langue évoluent rapidement, et chaque nouvelle génération est plus puissante et plus polyvalente … et cela multiplie à la fois leurs avantages et leurs risques.

Heureusement, l'effort fait n'aura pas seulement pour les avantages de Claude: Anthropic prévoit de partager ses recherches en recourant au Frontier Models Forum, la coalition de grandes entreprises qui ont été fondées avec Amazon, Meta, Openai, Microsoft et Google, le positionnant comme référence pour les modèles IA du secteur.

Via | Axios